嘴说手画Spark的Shuffle

小手追梦

于 2021-12-08 09:23:21 发布

阅读量327

点赞数

分类专栏： java hadoop实战文章标签： spark big data 大数据

本文链接：https://blog.csdn.net/epitomizelu/article/details/121783369

版权

171 篇文章 4 订阅

订阅专栏

137 篇文章 6 订阅

订阅专栏

Shuffle是所有分布式计算引擎都必须涉及的话题，一方面这是计算过程中无可避免的过程；另一方面由于Shuffle过程通常都伴随着网络IO和磁盘IO，是计算过程中的性能杀手，对shuffle的优化通常都会取得不错的效果。

先来看看Shuffle的原理，下面是Shuffle的过程示意图：
请添加图片描述
从图上可以看出，shuffle分为两个过程：

一，Shuffle Write

spark的Task分为两类，一是ShuffleMapTask，一是ResultTask。Shuffle Write有ShuffleMapTask完成。

过程如下：

1，写缓存。ShuffleMapTask首先会将结果写入缓存，缓存的数据结果是Map，key由partitionId和key共同组成，partitionId通常某种算法基于key得到，partitionId决定这条数据由下游哪个Task处理。并且会对数据按照partitionId、key进行排序。
2，写临时文件。当缓存被写满后，需要将缓存的内容顺序写入临时文件，可能会产生很多临时文件。
3，合并。当Task完成后，需要将缓存、临时文件的数据进行合并，类似于归并排序，合并时保证partitionId、key的顺序，是的相同partitionId数据顺序写入文件。合并后会生成两个文件，一个文件是数据文件，保存key、value；另一个文件是index文件，保存的是每个paritionId的数据在data文件中的索引。

Shuffle Write过程中会涉及较多的磁盘IO。

这里，可以考虑加大缓冲区的大小，减少溢写临时文件的次数。

spark.shuffle.file.buffer，Map 阶段写入缓冲区大小

当ShuffleMapTask结束后，会启动ResultTask，ResultTask会根据partitionId从各个节点拉取同一个partitionId的数据。

可以看出，Shuffle Read涉及了网络IO。

对于这个阶段，可以考虑加大每次拉取数据的大小，减少拉取次数。

spark.reducer.maxSizeInFlight ，Reduce 阶段读缓冲区大小

对于上面提到的两个阶段，性能瓶颈分别是磁盘IO和网络IO，优化可以考虑加大写时缓存大小，读时拉取数据块大小。
在这里插入图片描述

但这种优化，通常不会有特别明显的效果。

对于join计算，可以考虑将小的数据集通过广播方式分发到Executor，这样可以避免大数据集在网络上的分发，有时能起到非常大的性能提升。

关注