Spark技术内幕：Shuffle的性能调优

置顶蒙奇·D·路飞-

于 2015-03-19 10:01:19 发布

阅读量1.1w

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/gaowenhui2008/article/details/44452975

版权

Spark 专栏收录该内容

18 篇文章 ¥19.90 ¥99.00

订阅专栏

本文详细探讨了Spark Shuffle的性能调优，包括`spark.shuffle.manager`、`spark.shuffle.spill`等关键配置，分析了Hash Based与Sort Based Shuffle的优缺点，并提供了根据场景选择合适的Shuffle策略的建议。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通过上面的架构和源码实现的分析，不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此，在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义，由于这些参数的确是非常重要，这里算是做一个详细的总结。

1.1.1 spark.shuffle.manager

前文也多次提到过，Spark1.2.0官方支持两种方式的Shuffle，即Hash Based Shuffle和Sort Based Shuffle。其中在Spark 1.0之前仅支持Hash Based Shuffle。Spark 1.1的时候引入了Sort Based Shuffle。Spark 1.2的默认Shuffle机制从Hash变成了Sort。如果需要Hash Based Shuffle，可以将spark.shuffle.manager设置成“hash”即可。

如果对性能有比较苛刻的要求，那么就要理解这两种不同的Shuffle机制的原理，结合具体的应用场景进行选择。

Hash Based Shuffle，就是将数据根据Hash的结果，将各个Reducer partition的数据写到单独的文件中去，写数据时不会有排序的操作。这个问题就是如果Reducer的partition比较多的时候，会产生大量的磁

了解本专栏