Spark调优之 -- Spark的并行度深入理解（别再让资源浪费了）

最新推荐文章于 2024-07-02 21:40:28 发布

zxfBdd

最新推荐文章于 2024-07-02 21:40:28 发布

阅读量581

点赞数

分类专栏：大数据文章标签： spark 大数据分布式

大数据专栏收录该内容

586 篇文章 28 订阅

订阅专栏

1. 并行度理解
Spark作业中，各个stage的task的数量，代表Spark作业在各个阶段stage的并行度。分为资源并行度(物理并行度)和数据并行度(逻辑并行度)

在Spark Application运行时，并行度可以从两个方面理解：

1、资源的并行度：由节点数（executor）和CPU数（core）决定
2、数据的并行度：task数量和partition大小
task又分为map时的task和reduce（shuffle）时的task；
task的数目和很多因素有关系，比如：资源的总core数、spark.default.parallelism参数、spark.sql.shuffle.partitions参数、读取数据源的类型、shuffle方法的第二个参数、repartition的数目等等。
如果Task的数量越多，能用的资源也多，那并行度自然就好。如果Task的数据少，资源很多，有一定的浪费，但是也还好。如果Task数目很多，但是资源少，那么会执行完一批，再执行下一批，自然会慢一些。所以官方给出的建议是，这个Task数目是core总数的2～3倍为最佳（最大压榨CPU处理能量）。如果core有多少Task就有多少，那么有些比较快的task执行完了，一些资源就会处于等待的状态。

如何设置task数量：
将task数量设置成与Application总CPU core数量相同（理想情况下，150个core分配150个task），官方推荐设置成Application总CPU 从热数量的2～3倍（150个CPU core，设置300～500个task）；
与理想情况不同的是：有些task会运行的快一些，比如50秒就完了，也有些task可能会慢一点，要几分钟才能完成，所以如果你的task数量，刚好设置跟CPU core数量相同，也可能会导致资源的一定浪费，比如150个task，10个先运行完了，剩余140个还在运行，但是这个时候，就有10个core会处于等待状态。

2. 设置Application并行度
参数spark.default.parallelism默认是没有值的，如果设置了值，是在shuffle的过程才会起作用

new SparkConf().set("spark.default.parallelism","10")
// rdd2的分区数就是10，rdd1的分区数不受这个参数的影响
val rdd2 = rdd1.reduceByKey(_+_)

如何根据数据量（task数目）配置资源

当提交一个Spark Application时，设置资源信息如下，基本已经达到了集群或者yarn队列的资源上限：