Spark GC调优笔记
传统GC
Paralledl GC:高吞吐量,离线分析
CMS GC:低延迟,实时响应
- Java堆内存划分为两个区域:Young和Old,Young存储短期对象,Old存储长期对象。
- Young代进一步划分为三个区域:Eden,Survivor1,Survivor2
GC调优的目标
只有长期对象存储在老年代,新生代有充分的大小短期对象。
调优方法
- 如果老年代接近满,降低spark.memory.fraction以减小缓存比例,或者减小新生代大小。
- 对于executor占用的堆内存大的情况,可以通过-XX:G1HeapRegionSize增加G1区域大小。
- 将InitiatingHeapOccupancyPercent参数调低(默认值是45),可以使G1 GC收集器更早开始Mixed GC;但另一方面,会增加GC发生频率。
- 提高ConcGCThreads的值,在Mixed GC阶段投入更多的并发线程,争取提高每次暂停的效率。但是此参数会占用一定的有效工作线程资源。
- 对于追求更短暂停时间的在线应用,如果观测到较长的Mixed GC pause,我们还要把G1RSetUpdatingPauseTimePercent调低,把G1ConcRefinementThreads调高。