Spark JVM内存结构及解决OOM(java.lang.OutOfMemoryError: Java heap space)内存溢出办法

1.问题

  • 线上一个例行任务,高峰期每小时数据量在3亿+条,其中涉及到多个复杂Join.所以给的内存较大, 700instance * 18G * 3core.
    但是按理来说这个数据量不需要这么大的内存,肯定有哪个地方不合理.就尝试降低内存来跑任务观察.
    果不其然,内存使用在500instance * 10G * 3core时,报: java.lang.OutOfMemoryError: Java heap space 异常.于是就去查找哪个地方消耗了这么多内存.

2.查找

1.首先先了解Spark JVM内存结构

在这里插入图片描述
Executor将内存分为4部分.
1.Storage: 数据缓存内存,用户进行数据缓存.如cache()操作的缓存
2.Shuffle: 发生Shuffle操作时,需要缓冲Buffer来存储Shuffle的输出、聚合等中间结果,这块也叫Execution内存
3.Other: 我们用户自定义的数据结构及Spark内部Meta数据,这个通常为user memory, 默认为0.4 (40%). 通常我们代码中的数据结构都是使用的此部分内存.
4.system: 系统预留内存, Spark的可用内存(usableMemory)也就是executorMemory - reservedMemory(系统预留内存).

  • Storage + Execution 内存占比默认为0.6 (60%)
  • User Memory: 占比默认为0.4 (UsableMemory * (1 - spark.memory.fraction) 即: 1 * (1 - 0.6) = 0.4)

2.堆外内存

在这里插入图片描述

  • 为了进一步优化内存,提高Shuffle时排序的效率,Spark引入了堆外内存的概念(Off-heap),使之可以直接在工作节点的系统内存中开辟空间,存储经过序列化的二进制数据.
    默认情况下堆外内存并不启用,启用参数:spark.memory.offHeap.enabled
  • 相比堆内内存,堆外内存只区分 Execution 内存和 Storage 内存.
  • 堆外内存是直接在工作节点的系统内存中开辟空间,不受JVM GC的管控.可以减少OOM发生的几率.

3.解决

由上我们看出, 代码中对象/数据结构等用到的内存只有40%. 但是我项目中各种DataFrame, 各种JOIN,各种Map/ArrayList/String等.这些都大大占用内存.所以报了java.lang.OutOfMemoryError: Java heap space.
这里我使用了一下几个方式:

1.增加堆外内存参数, 减少GC.

  1. 增加offHeap内存:
    "spark.memory.offHeap.enabled":"true","spark.memory.offHeap.size":"3g"
  2. 增加memoryOverhead内存:
    "spark.executor.memoryOverhead":"4g"

2.降低executor中off-heap对外内存占比, 即: 增加userMemory内存占比

"spark.memory.fraction":"0.5"

### Android Studio 中 `java.lang.OutOfMemoryError: Java heap space` 错误解决方案 当遇到 `java.lang.OutOfMemoryError: Java heap space` 错误时,表明当前分配给 JVM 的堆内存不足以支持正在执行的任务。对于 Android Studio 用户而言,可以通过调整 Gradle 和 IDE 自身的 JVM 参数来解决问题。 #### 修改 Gradle 配置文件以增加堆内存 为了提高构建过程中的性能并防止因内存不足引发的错误,在项目的根目录下找到或创建名为 `gradle.properties` 的文件,并加入如下配置: ```properties org.gradle.jvmargs=-Xmx2048m -XX:MaxPermSize=512m -XX:+HeapDumpOnOutOfMemoryError -Dfile.encoding=UTF-8 ``` 上述命令通过 `-Xmx2048m` 设置最大堆大小为 2GB;`-XX:MaxPermSize=512m` 设定永久代的最大容量为 512MB;启用 `-XX:+HeapDumpOnOutOfMemoryError` 可在发生 OOM 后自动生成转储文件以便后续分析;最后指定字符编码方式为 UTF-8[^2]。 #### 调整 Android Studio 的 JVM 参数 除了修改 Gradle 属性外,还可以优化 Android Studio 运行环境下的 JVM 行为。前往安装路径下的 bin 文件夹内编辑 studio.vmoptions 或者 studio64.vmoptions (取决于操作系统架构),添加以下参数: ```bash -Xms1024m -Xmx3072m -XX:ReservedCodeCacheSize=512m -XX:+UseCompressedOops ``` 这里设置了最小堆尺寸 (`-Xms`) 至少有 1 GB ,并将最大值提升到 3 GB 。同时增加了预留代码缓存区(`-XX:ReservedCodeCacheSize`)至 512 MB 并启用了压缩指针功能(`-XX:+UseCompressedOops`) 来进一步节省内存开销[^4]。 #### 应用层面优化建议 尽管适当扩展 JVM 堆空间能够缓解短期问题,但从长远来看还是应该考虑如何减少应用本身对资源的需求量。例如定期触发 GC 收集不再使用的对象实例、合理控制加载的数据规模以及采用分页机制处理大数据集合等措施均有助于降低整体消耗水平[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值