1.问题
- 线上一个例行任务,高峰期每小时数据量在3亿+条,其中涉及到多个复杂Join.所以给的内存较大, 700instance * 18G * 3core.
但是按理来说这个数据量不需要这么大的内存,肯定有哪个地方不合理.就尝试降低内存来跑任务观察.
果不其然,内存使用在500instance * 10G * 3core时,报: java.lang.OutOfMemoryError: Java heap space 异常.于是就去查找哪个地方消耗了这么多内存.
2.查找
1.首先先了解Spark JVM内存结构
Executor将内存分为4部分.
1.Storage: 数据缓存内存,用户进行数据缓存.如cache()操作的缓存
2.Shuffle: 发生Shuffle操作时,需要缓冲Buffer来存储Shuffle的输出、聚合等中间结果,这块也叫Execution内存
3.Other: 我们用户自定义的数据结构及Spark内部Meta数据,这个通常为user memory, 默认为0.4 (40%). 通常我们代码中的数据结构都是使用的此部分内存.
4.system: 系统预留内存, Spark的可用内存(usableMemory)也就是executorMemory - reservedMemory(系统预留内存).
- Storage + Execution 内存占比默认为0.6 (60%)
- User Memory: 占比默认为0.4 (UsableMemory * (1 - spark.memory.fraction) 即: 1 * (1 - 0.6) = 0.4)
2.堆外内存
- 为了进一步优化内存,提高Shuffle时排序的效率,Spark引入了堆外内存的概念(Off-heap),使之可以直接在工作节点的系统内存中开辟空间,存储经过序列化的二进制数据.
默认情况下堆外内存并不启用,启用参数:spark.memory.offHeap.enabled
- 相比堆内内存,堆外内存只区分 Execution 内存和 Storage 内存.
- 堆外内存是直接在工作节点的系统内存中开辟空间,不受JVM GC的管控.可以减少OOM发生的几率.
3.解决
由上我们看出, 代码中对象/数据结构等用到的内存只有40%. 但是我项目中各种DataFrame, 各种JOIN,各种Map/ArrayList/String等.这些都大大占用内存.所以报了java.lang.OutOfMemoryError: Java heap space.
这里我使用了一下几个方式:
1.增加堆外内存参数, 减少GC.
- 增加offHeap内存:
"spark.memory.offHeap.enabled":"true","spark.memory.offHeap.size":"3g"
- 增加memoryOverhead内存:
"spark.executor.memoryOverhead":"4g"
2.降低executor中off-heap对外内存占比, 即: 增加userMemory内存占比
"spark.memory.fraction":"0.5"