Spark Shuffle机制详解

Lsd与雨

已于 2023-10-13 15:56:17 修改

阅读量193

点赞数 1

文章标签： spark 大数据分布式

于 2023-10-13 15:51:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54919990/article/details/133811160

版权

本文概述了SparkShuffle的发展历程，从早期的HashShuffle机制（包括其优化前后的问题和改进）到SortShuffle机制，以及SortShuffle的ByPass模式。重点讨论了文件管理和IO优化，以及SortShuffle如何减少IO操作和提高效率。

摘要由CSDN通过智能技术生成

目录

spark技术笔记

Shuffle的发展史

HashShuffle机制

优化前的HashShuffle机制

优化前的HashShuffle机制的弊端

优化后的HashShuffle机制

SortShuffle机制

SortShuffle机制普通运行方式

SortShuffle的ByPass模式

spark技术笔记

Shuffle的发展史

1. Spark1.1版以前, 用的是:HashShuffle机制(具体分为 优化前, 优化后)

2. Spark1.1版及其以后, 新增了: SortShuffle机制.

3. Spark1.5版及其以后, 加入了: 钨丝计划.

4. Spark1.6版及其以后, 将钨丝计划合并到了SortShuffle中, 加入了合并排序等功能.

5. Spark2.0版及其以后, 将HashShuffle的方案合并到了SortShuffle中, 且移除了HashShuffle机制.

HashShuffle机制

优化前的HashShuffle机制

1. 每一个父RDD的每个线程, 都会生成和子RDD分区数一样的文件个数.

2. 父RDD执行完毕后, 子RDD需要去父RDD的每个线程中拉取属于自己的数据.

优化前的HashShuffle机制的弊端

1. 父RDD生成的文件数过多, 会导致HDFS上小文件过多, 降低效率.

2. 子RDD需要从父RDD中读取多次,会涉及到多次的IO, 文件的打开关闭, 较消耗资源.

3. 假设父RDD中有100个分区(线程), 且子RDD中也有100个分区, 则生成的文件数为:

100(父RDD线程数) * 100(子RDD线程数) = 10000个文件.

优化后的HashShuffle机制

优化后的HashShuffle机制:

1. 由Executor进程来维护管理(相当于小组组长), 每个父RDD会生成和子RDD数量一样的文件.

将N个线程N个分区生成N*N个文件(小组成员), 改为: 每个Executor(小组组长)维护1份.

2. 降低子RDD从父RDD分区中,拉取数据的次数, 减少IO.

3. 假设有父RDD有100个分区, 子RDD也有100个分区, 则生成文件综述为:

1(每个Executor进程维护1份) * 100(子RDD分区数) = 100个文件

SortShuffle机制

SortShuffle机制普通运行方式

1. 父RDD的每个线程将数据分区处理后, 结果写到:内存缓冲区中(5M)

2. 缓冲区达到一定的阈值后, 会触发溢写线程, 将数据写到磁盘上, 获取磁盘小文件.

分批次写出(阈值: 10000条), 写出到磁盘之前会先进行排序.

3. 当父RDD 线程执行结束后, 会对所有的磁盘文件做合并, 获取: 磁盘最终文件.

4. 为了方便子RDD拉取数据, 与磁盘最终文件对应的还有1个索引文件, 记录: 数据(分区)信息.

5. 子RDD的线程, 结合索引文件, 从磁盘最终文件中拉取属于自己的数据.

SortShuffle的ByPass模式

【在普通机制的基础上，省略了排序的过程】

**使用ByPass前提条件**:

1- 上游的分区的数量不能超过200(默认)个.
2- 上游不能进行提前聚合操作 (提前聚合意味着要进行分组操作, 而分组的前提是要对数据进行排序, 将相关的数据放置在一起).

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
Spark Shuffle机制详解

简述Spark的Shuffle机制----HashShuffle和SortShuffle。
复制链接

扫一扫

Lsd与雨 CSDN认证博客专家 CSDN认证企业博客

码龄4年

4: 原创

157万+: 周排名

29万+: 总排名

519: 访问

: 等级

53: 积分

7: 粉丝

2: 获赞

4: 评论

3: 收藏

私信

关注

热门文章

最新评论

Kafka架构与核心原理
CSDN-Ada助手: 恭喜您能够持续不断地分享有关Kafka架构与核心原理的知识，这对读者来说非常有价值。希望在您未来的博客中，能够更深入地探讨Kafka的应用场景和实际案例，这样读者们可以更好地理解和应用这些知识。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
HDFS的架构原理(读写流程,元数据的管理)
CSDN-Ada助手: 非常感谢您的分享！我觉得你对HDFS的架构原理进行了很好的阐述，特别是对元数据管理流程和读写流程进行了详细的讲解。这对于初学者来说是非常有帮助的。如果您想继续创作关于HDFS的内容，我建议您可以扩展一下关于数据块的管理和复制机制的内容。这些是HDFS中非常重要的补充知识，对于理解其高可用性和容错性也非常有帮助。此外，您还可以考虑介绍一下HDFS的故障检测和自动恢复机制，这是HDFS架构中非常重要的一部分。通过了解这些知识，读者可以更好地理解HDFS如何保证数据的可靠性和一致性。再次感谢您的分享，期待您继续为我们带来更多有关HDFS的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Spark Shuffle机制详解
饿了要睡觉: 羡慕

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。