spark-调优-性能调优&内存管理

zdkdchao

已于 2022-05-24 10:35:04 修改

阅读量808

点赞数

分类专栏： spark 文章标签： spark big data 大数据

于 2022-05-23 01:56:31 首次发布

本文链接：https://blog.csdn.net/qq_34224565/article/details/124919482

版权

spark 专栏收录该内容

53 篇文章 2 订阅

订阅专栏

前置

主要涉及6个参数，从3个方面：executor、core、内存的大小，并行度，内存管理进行调优

优化的方案

资源分配

num-executors：spark使用多少个executors
executor-cores：core和task的数量
这2个参数要结合一起来配置，还要考虑可用的计算资源，executor-cores设置为2-4个比较合适，num-executors就是总共可用的cores 除以executor-cores。当然，这一切都要在可用范围内

并行度

spark.default.parallelism：同一时刻一个stage运行的task数量，如果num-executors * executor-cores =200，但spark.default.parallelism设成了20，那么180个线程就被浪费了。官方给的建议是num-executors * executor-cores的2-3倍，也就是400-600
executor-memory：一般如果task逻辑复杂，单个task读取数据量比较大，内存就给的高一点

内存管理优化

spark.storage.memoryFraction：如果RDD的持久化，persist和cache比较多的时候，可以设置的高一点
spark.shuffle.memoryFraction：shuffle算子比较多，shuffle数据量大的时候，这个就调高
如果代码逻辑复杂，同时频繁触发JVM的GC，则需要调小上面2个参数