Spark性能调优（六）---JVM调优之原理概述及降低cache操作的内存占比

最新推荐文章于 2024-03-08 10:27:01 发布

SimpleSimpleSimples

最新推荐文章于 2024-03-08 10:27:01 发布

阅读量343

点赞数

分类专栏： BigData大数据相关

本文链接：https://blog.csdn.net/SimpleSimpleSimples/article/details/104095569

版权

BigData大数据相关专栏收录该内容

37 篇文章 0 订阅

订阅专栏

1.原理概述

1.1理论

Spark是用Scala开发的。Spark的Scala代码调用了很多java api。Scala也是运行在JVM中的，所以Spark也是运行在JVM中的。

1.2JVM可能会产生的问题

内存不足——RDD的缓存、task运行定义的算子函数，可能会创建很多对象，占用大量的内存。处理不当，可能导致JVM出问题。

1.3堆内存

作用：存放项目中创建的对象。
划分：新生代（young generation，Eden区域+survivor区域1+survivor区域2，比例8:1:1），老年代（old generation）

1.4GC（垃圾回收）

每次创建出来的对象，都会放到Eden区域和survivor区域1中，另外一个survivor区域空闲。

由于spark作业产生的对象过多，当Eden区域和survivor区域放满之后，就会触发minor gc（初代回收）。把不再使用的对象从内存中清理出去，给后面对象的创建腾出空间。

清理掉了不再使用的对象之后，那些存活下来（还需要继续使用）的对象，放入之前空闲的survivor区域2中。当survivor区域2满了放不下，JVM会通过担保机制机制将多余的对象直接放到老年代中。

如果JVM内存不够大，可能导致频繁的新生代内存溢出，频繁的minor gc。频繁的minor gc会导致短时间内，有些存活下来的对象，经过多次垃圾回收都没有回收掉，导致这种生命周期短（不一定会长期使用）的对象，年龄过大，进入老年代。

老年代中存在过多的短生命周期的、本该在新生代中可能马上要被回收的对象，导致内存不足，频繁内存满溢，频繁进行full gc（老年代回收）。full gc会回收老年代中的对象。由于老年代中的对象数量少，满溢进行的full gc频率本应该很少，所以回收算法很简单，但是耗费性能和时间。——full gc很耗时间。

full gc/minor gc，无论快慢，都会导致JVM工作线程停止工作，spark作业会暂停，等待垃圾回收完成之后继续工作。