spark--JVM调优

最新推荐文章于 2022-04-24 16:44:48 发布

ITqingliang

最新推荐文章于 2022-04-24 16:44:48 发布

阅读量400

点赞数 1

分类专栏：大数据文章标签： JVM调优降低cache占内存比例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ITqingliang/article/details/78506506

版权

本文介绍了Spark中JVM调优的方法，重点关注降低cache操作内存占比以减少频繁的GC，以及调节executor堆外内存以避免内存溢出问题。通过调整`spark.storage.memoryFraction`参数，可以将更多内存分配给task执行算子函数，减少GC频率，提高性能。同时，增大`spark.yarn.executor.memoryOverhead`可以避免executor内存溢出，确保作业稳定运行。此外，调节`spark.core.connection.ack.wait.timeout`以增加网络连接超时时间，减少数据拉取失败导致的任务失败。

摘要由CSDN通过智能技术生成

堆内存存放我们创建的一些对象，有老年代和年轻代。理想情况下，老年代都是放一些生命周期很长的对象，数量应该是很少的，比如数据库连接池。我们在spark task执行

算子函数（我们自己写的），可能会创建很多对象，这些对象都是要放入JVM年轻代中的。每一次放对象的时候，都是放入eden区域，和其中一个survivor区域。另外一个survivor

区域是空闲的。当eden区域和一个survivor区域放满了以后（spark运行过程中，产生的对象实在太多了），就会触发minor gc，小型垃圾回收。把不再使用的对象，从内存中清空

，给后面新创建的对象腾出来点儿地方。清理掉了不再使用的对象之后，那么也会将存活下来的对象（还要继续使用的），放入之前空闲的那一个survivor区域中。这里可能会出现

一个问题。默认eden、survior1和survivor2的内存占比是8:1:1。问题是，如果存活下来的对象是1.5，一个survivor区域放不下。此时就可能通过JVM的担保机制（不同JVM版本可

能对应的行为），将多余的对象，直接放入老年代了。

如果你的JVM内存不够大的话，可能导致频繁的年轻代内存满溢，频繁的进行minor gc。频繁的minor gc会导致短时间内，有些存活的对象，多次垃圾回收都没有回收掉。会导致

这种短生命周期（其实不一定是要长期使用的）对象，年龄过大，垃圾回收次数太多还没有回收到，跑到老年代。老年代中，可能会因为内存不足，囤积一大堆，短生命周期的，

本来应该在年轻代中的，可能马上就要被回收掉的对象。此时，可能导致老年代频繁满溢。频繁进行full gc（全局/全面垃圾回收）。full gc就会去回收老年代中的对象。full gc由于

这个算法的设计，是针对的是，老年代中的对象数量很少，满溢进行full gc的频率应该很少，因此采取了不太复杂，但是耗费性能和时间的垃圾回收算法。full gc很慢。full gc /

minor gc，无论是快，还是慢，都会导致jvm的工作线程停止工作，stop

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。