1. Spark 调优

最新推荐文章于 2022-06-27 15:46:24 发布

Pennhhe

最新推荐文章于 2022-06-27 15:46:24 发布

阅读量103

点赞数

分类专栏：大数据基础

本文链接：https://blog.csdn.net/huatangzhithree/article/details/89752969

版权

8 篇文章 0 订阅

订阅专栏

Tuning Spark

垃圾回收的代价和Java对象的数量成正比。
度量GC的影响
- -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps
- 收集GC的数据，GC的频率和花费的时间。
高级GC调优
- JVM内存管理的基本知识
  1. 堆内存划分成 Young 和 Old。Young区域存储短命的对象，Old存储长命的对象。
  2. Young 区域划分成3部分。
    - Eden
    - Survivor1
    - Survivor2
  3. GC的过程如下
    - Eden满了，minor GC在Eden上进行，Eden和Survivor1上的对象搬运到Survivor2
    - Survivor1 和 Survivor2交换
    - 如果对象足够老，或者Survivor2 满了，对象搬运到Old
    - 如果Old满了，出发full GC
- Spark中GC的调优目的
  - 只有long-lived的RDD存储在Old中
  - Young 的大小适合存储短命的对象
  - 这将会避免full GC的发生
- Spark GC 调优有用的建议
  1. 通过GC的统计数据分析，是否有太多的GC
  2. 如果minor GC很多，major GC不多。考虑增加Eden的空间。假设Eden的空间为E，则Young的大小为-Xmn=4/3*E
  3. 如果Old要满了：
    - 减少缓存对象的使用。降低spark.memory.fraction
    - 降低Young 的大小
    - 改变JVM’s NewRatio
  4. 使用G1。-XX:+UseG1GC。增加G1 Region Size
  5. 假使从HDFS读数据，估算读取数据需要的内存大小。
  6. 监控改变参数之后的GC频率和耗时