spark调优 shuffle调优

最新推荐文章于 2022-04-30 16:23:29 发布

mn_kw

最新推荐文章于 2022-04-30 16:23:29 发布

阅读量334

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/mn_kw/article/details/81098017

版权

spark 专栏收录该内容

80 篇文章 1 订阅

订阅专栏

本文深入探讨了Spark中shuffle的工作机制，特别是在shuffle过程中map端输出文件的优化策略。通过对比默认设置与开启输出文件合并机制的情况，揭示了大量文件输出对性能的影响，并介绍了如何通过配置减少磁盘I/O开销。

摘要由CSDN通过智能技术生成

每一个shuffle的前半部分stage的task，每个task都会创建下一个stage的task数量相同的文件，比如下一个stage会有100个task,那么当前stage每个task都会创建100份文件，会将同一个key对应的values,一定是写入同一个文件中的，也一定会将同一个key对应的values写入下一个stage，同一个task对应的文件中。

shuffle的后半部分stage的task,每个task都会从各个节点上的task写的属于自己的那一份文件中，拉取key，value对；然后task会有一个内存缓存区，然后用hashMap然后进行key-values进行聚合（key,values）；

task 会用我们自己定义的聚合函数，进行聚合

shuffle，一定是分为俩个stage来完成的，因为这其实是个逆向的过程，不是stage决定shuffle,是shuffle决定stage

reduceByKey(_ + _) 在某个action触发job的时候，DAGScheduler，会负责划分job为多个stage.,划分的依据，就是发现有会触发shuffle操作的算子，比如reduceByKey,就将这个操作的前半部分，以及以前所有的RDD和transformation操作，划分为一个stage,

优化一：合并map端输出文件

new sparkConf().set("spark.shuffle.consolidateFiles","true")

开启shufflemap端输出文件合并的机制，默认是不开启的，就会发生下边大量map端输出文件的操作，消耗大量的性能

如果不合并map端输出文件的话，会怎么样？

问题来了，默认的这种shuffle行为，对性能有什么样的恶略影响呢?

实际生产环境的条件：

100个节点，每个节点100个executor,:100个executor

每个executor:2个cpu core

总共1000个task，每个executor平均10个task 每个task输出下个stage的task数量文件

每个节点，10个task,会输出多少分map端文件 10 * 1000 = 1万个文件

总共有多少份map端输出文件？100 * 10000 = 100 万

shuffle中的写磁盘的操作，基本上就是shuffle中性能消耗最为严重的部分。