Spark JVM内存结构及解决OOM(java.lang.OutOfMemoryError: Java heap space)内存溢出办法

最新推荐文章于 2025-04-09 00:30:03 发布

Souvenirser

最新推荐文章于 2025-04-09 00:30:03 发布

阅读量1.4k

点赞数 1

文章标签： jvm java spark

本文链接：https://blog.csdn.net/qq_39285950/article/details/130079363

版权

1.问题

线上一个例行任务,高峰期每小时数据量在3亿+条,其中涉及到多个复杂Join.所以给的内存较大, 700instance * 18G * 3core.
但是按理来说这个数据量不需要这么大的内存,肯定有哪个地方不合理.就尝试降低内存来跑任务观察.
果不其然,内存使用在500instance * 10G * 3core时,报: java.lang.OutOfMemoryError: Java heap space 异常.于是就去查找哪个地方消耗了这么多内存.

2.查找

1.首先先了解Spark JVM内存结构

在这里插入图片描述
Executor将内存分为4部分.
1.Storage: 数据缓存内存,用户进行数据缓存.如cache()操作的缓存
2.Shuffle: 发生Shuffle操作时，需要缓冲Buffer来存储Shuffle的输出、聚合等中间结果,这块也叫Execution内存
3.Other: 我们用户自定义的数据结构及Spark内部Meta数据,这个通常为user memory, 默认为0.4 (40%). 通常我们代码中的数据结构都是使用的此部分内存.
4.system: 系统预留内存, Spark的可用内存(usableMemory)也就是executorMemory - reservedMemory(系统预留内存).

Storage + Execution 内存占比默认为0.6 (60%)
User Memory: 占比默认为0.4 (UsableMemory * (1 - spark.memory.fraction) 即: 1 * (1 - 0.6) = 0.4)

2.堆外内存

在这里插入图片描述

为了进一步优化内存,提高Shuffle时排序的效率,Spark引入了堆外内存的概念(Off-heap),使之可以直接在工作节点的系统内存中开辟空间,存储经过序列化的二进制数据.
默认情况下堆外内存并不启用，启用参数：spark.memory.offHeap.enabled
相比堆内内存，堆外内存只区分 Execution 内存和 Storage 内存.
堆外内存是直接在工作节点的系统内存中开辟空间,不受JVM GC的管控.可以减少OOM发生的几率.

3.解决

由上我们看出, 代码中对象/数据结构等用到的内存只有40%. 但是我项目中各种DataFrame, 各种JOIN,各种Map/ArrayList/String等.这些都大大占用内存.所以报了java.lang.OutOfMemoryError: Java heap space.
这里我使用了一下几个方式: