Spark的shuffle流程

最新推荐文章于 2023-03-17 11:57:51 发布

月暖.如梵音

最新推荐文章于 2023-03-17 11:57:51 发布

阅读量240

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_42160456/article/details/117878801

版权

6 篇文章 0 订阅

订阅专栏

未引入Consolidation前
- 从MapTask到ReduceTask，每个MapTask会产生和reduce任务数量相等的小文件，也就是小文件的数量等同于 m*r，这种方式会产生大量的小文件，对文件系统压力很大，而且也不利于IO吞吐量
引入Consolidation后
- 把同一个core中运行的Map任务生成的文件合并到一个文件中，生成小文件的数量变为 core*r
- 同一个core中先后输出的文件，对应到同一个文件中不同的segment上，合并在一起称为FileSegment，形成一个ShuffleBlockFile

Shuffle Writer有ByPassMergeSortShuffleWriter、UnSafeShuffleWriter、SortShuffleWriter
三种Shuffle Writer的选择方式：
- 1、首先判断map端是否开启mapSideCombiner，并且判断分区数量是否小于spark.shuffle.sort.byPassMerge.Threshold（默认为200），如果条件满足，使用ByPassMergeSortShuffleWriter
- 2、如果不满足上述两个条件的任意一个，判断serializer是否支持relocation，并且判断是否定义了aggregator和分区数是否小于16777215，如果条件都满足，使用UnSafeShuffleWriter，否则使用SortShuffleWriter