SparkShuffle调优原理和最佳实践

最新推荐文章于 2023-08-03 02:05:18 发布

段智华

最新推荐文章于 2023-08-03 02:05:18 发布

阅读量1.9k

点赞数

分类专栏： SparkInBeiJing

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/72909528

版权

SparkInBeiJing 专栏收录该内容

81 篇文章 203 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨Spark Shuffle的性能消耗原理，指出Shuffle过程中产生的IO操作和计算负担。文章介绍了参数调优的重要性，并详细讲解了Spark.Shuffle.manager参数的选项与调优建议，包括SortShuffleManager和Tungsten-SortShuffleManager的适用场景，以帮助优化分布式系统的性能。

摘要由CSDN通过智能技术生成

第10章 SparkShuffle调优原理和最佳实践

对性能消耗的原理详解

在分布式系统中，数据分布在不同的节点上，每一个节点计算一部份数据，如果不对各个节点上独立的部份进行汇聚的话，我们计算不到最终的结果。我们需要利用分布式来发挥Spark本身并行计算的能力，而后续又需要计算各节点上最终的结果，所以需要把数据汇聚集中，这就会导致Shuffle，这也是说为什么Shuffle 是分布式不可避免的命运。因为Shuffle 的过程中会产生大量的磁盘 IO、网络 IO、以及压缩、解压缩、序列化和反序列化的操作，这一系列的操作对性能都是一个很大的负担。

调优是一个动态的过程，需要根据业务数据的特性还有硬件设备的条件，经过不断的测试，才能达到一个最优化的水平。以下是一些Spark参数的介绍，以及一些调优的最佳实战，参数调优是其中一个减少Shuffle所带来的性能负担的方法。

参数调优原理和最佳实践

Spark.Shuffle.manager默认值：Sort

　　参数说明：该参数用于设置ShuffleManager的类型。Spark 1.5以后，有三个可选项：Hash、Sort和Tungsten-Sort。HashShuffleManager是Spark 1.2以前的默认选项，但是Spark 1.2以及之后的版本默认都是SortShuffleManager了。Tungsten-Sort与Sort类似