Shuffle是所有分布式计算引擎都必须涉及的话题,一方面这是计算过程中无可避免的过程;另一方面由于Shuffle过程通常都伴随着网络IO和磁盘IO,是计算过程中的性能杀手,对shuffle的优化通常都会取得不错的效果。
先来看看Shuffle的原理,下面是Shuffle的过程示意图:
从图上可以看出,shuffle分为两个过程:
- Shuffle Wirte
- Shuffle Read
一,Shuffle Write
spark的Task分为两类,一是ShuffleMapTask,一是ResultTask。Shuffle Write有ShuffleMapTask完成。
过程如下:
- 1,写缓存。ShuffleMapTask首先会将结果写入缓存,缓存的数据结果是Map,key由partitionId和key共同组成,partitionId通常某种算法基于key得到,partitionId决定这条数据由下游哪个Task处理。并且会对数据按照partitionId、key进行排序。
- 2,写临时文件。当缓存被写满后,需要将缓存的内容顺序写入临时文件,可能会产生很多临时文件。
- 3,合并。当Task完成后,需要将缓存、临时文件的数据进行合并,类似于归并排序,合并时保证partitionId、key的顺序,是的相同partitionId数据顺序写入文件。合并后会生成两个文件,一个文件是数据文件,保存key、value;另一个文件是index文件,保存的是每个paritionId的数据在data文件中的索引。
Shuffle Write过程中会涉及较多的磁盘IO。
这里,可以考虑加大缓冲区的大小,减少溢写临时文件的次数。
spark.shuffle.file.buffer,Map 阶段写入缓冲区大小
二,Shuffle Read
当ShuffleMapTask结束后,会启动ResultTask,ResultTask会根据partitionId从各个节点拉取同一个partitionId的数据。
可以看出,Shuffle Read涉及了网络IO。
对于这个阶段,可以考虑加大每次拉取数据的大小,减少拉取次数。
spark.reducer.maxSizeInFlight ,Reduce 阶段读缓冲区大小
三,优化
1,参数优化
对于上面提到的两个阶段,性能瓶颈分别是磁盘IO和网络IO,优化可以考虑加大写时缓存大小,读时拉取数据块大小。
但这种优化,通常不会有特别明显的效果。
2,使用广播
对于join计算,可以考虑将小的数据集通过广播方式分发到Executor,这样可以避免大数据集在网络上的分发,有时能起到非常大的性能提升。