Spark Shuffle解析

最新推荐文章于 2024-09-05 17:24:29 发布

嘚瑟_

最新推荐文章于 2024-09-05 17:24:29 发布

阅读量66

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70220205/article/details/132917480

版权

本文深入探讨了Spark Shuffle的各个方面，包括ShuffleMapStage与ResultStage的区别，Shuffle中任务个数的确定，以及reduce端数据的拉取过程。详细解析了HashShuffle的未优化和优化后的机制，以及SortShuffle的普通运行和bypass运行机制，阐述了如何通过优化减少磁盘文件数量并提升性能。

摘要由CSDN通过智能技术生成

1 Shuffle的核心要点

1.1 ShuffleMapStage与ResultStage

在划分stage时，最后一个stage称为finalStage，它本质上是一个ResultStage对象，前面的所有stage被称为ShuffleMapStage。

ShuffleMapStage的结束伴随着shuffle文件的写磁盘。

ResultStage基本上对应代码中的action算子，即将一个函数应用在RDD的各个partition的数据集上，意味着一个job的运行结束。

1.2 Shuffle中的任务个数

我们知道，Spark Shuffle分为map阶段和reduce阶段，或者称之为ShuffleRead阶段和ShuffleWrite阶段，那么对于一次Shuffle，map过程和reduce过程都会由若干个task来执行，那么map task和reduce task的数量是如何确定的呢？

假设Spark任务从HDFS中读取数据，那么初始RDD分区个数由该文件的split个数决定，也就是一个split对应生成的RDD的一个partition，我们假设初始partition个数为N。

初始RDD经过一系列算子计算后（假设没有执行repartition和coalesce算子进行重分区，则分区个数不变，仍为N，如果经过重分区算子，那么分区个数变为M），我们假设分区个数不变，当执行到Shuffle操作时，map端的task个数和partition个数一致，即map task为N个。

reduce端的stage默认取spark.default.parallelism这个配置项的值作为分区数，如果没有配置，则以map端的最后一个RDD的分区数作为其分区数（也就是N），那么分区数就决定了reduce端的task的个数。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark Shuffle解析

如果当前stage有50个task，总共有10个Executor，每个Executor执行5个task，那么每个Executor上总共就要创建500个磁盘文件，所有Executor上会创建5000个磁盘文件。由于shuffle write的过程中，map task给下游stage的每个reduce task都创建了一个磁盘文件，因此shuffle read的过程中，每个reduce task只要从上游stage的所有map task所在节点上，拉取属于自己的那一个磁盘文件即可。
复制链接

扫一扫

嘚瑟_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

31: 原创

57万+: 周排名

179万+: 总排名

1万+: 访问

: 等级

318: 积分

4: 粉丝

8: 获赞

15: 评论

23: 收藏

私信

关注

热门文章

最新评论

Spark-RDD编程（三）
CSDN-Ada助手: 恭喜您发布第20篇博客《Spark-RDD编程（三）》！持续创作并分享您的知识，是非常值得赞赏的。通过您的博客，我学到了很多关于Spark-RDD编程的知识，感谢您的分享。在下一步的创作中，或许可以考虑探讨RDD的高级应用，比如如何优化RDD的性能或者如何与其他Spark组件进行交互。当然，这只是一个建议，我相信您一定有更好的主题选择和创作方向。期待您继续分享更多有价值的内容，谦虚的笔风和专业的知识将会继续吸引更多读者的关注和学习。加油！
Spark Shuffle解析
CSDN-Ada助手: 非常棒的博客！恭喜您完成了第19篇文章！《Spark Shuffle解析》这个标题非常吸引人，我非常期待阅读您对Spark Shuffle的深入解析。您在博客中的内容一定非常丰富和有见地。在下一篇博客中，我建议您可以继续深入探讨Spark Shuffle的优化策略，以及与其他数据处理框架的对比分析。这样的内容对于许多读者来说一定非常有价值，也能够进一步提升您的博客影响力。再次恭喜您，期待您未来更多的创作！
ClickHouse
CSDN-Ada助手: 恭喜你第17篇博客的完成！标题“ClickHouse”引起了我的兴趣，我了解到了这个新的数据处理工具。你对ClickHouse的介绍非常详细，让我对它更加了解了。我希望你能继续保持创作的势头，分享更多有关数据处理和相关工具的知识。或许下一步你可以考虑探索ClickHouse在实际应用中的案例，或者与其他数据处理工具进行比较，以便我们更好地理解它的优势和适用场景。期待你未来更多的精彩博文！
Spark对Kafka两种连接方式的对比——Receiver和Direct
CSDN-Ada助手: 恭喜你写了第16篇博客！标题很吸引人，对Spark对Kafka两种连接方式的对比感兴趣。我非常期待阅读你的文章，了解更多关于Receiver和Direct连接方式的差异。不过，我也希望你能在文章中加入一些实际案例或者性能比较，这样读者可以更清楚地了解两种连接方式的优劣。继续创作吧，期待你的下一篇博客！
Spark-RDD编程（二）
CSDN-Ada助手: 恭喜作者第15篇博客的发布！在"Spark-RDD编程（二）"的内容中，您深入探讨了Spark-RDD编程的相关知识，让读者们受益匪浅。您的博客内容通俗易懂，帮助读者更好地理解Spark-RDD编程。接下来，我建议您可以考虑分享一些实际案例或者使用技巧，以帮助读者在实践中更好地运用Spark-RDD编程。期待您的下一篇博客的发布，再次表示对您的努力和付出致以衷心的祝贺！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。