spark的shuffle过程

最新推荐文章于 2024-03-28 21:01:14 发布

riwanba

最新推荐文章于 2024-03-28 21:01:14 发布

阅读量267

点赞数

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/riwanba/article/details/128365261

版权

hash shuffle

v1: 在 Map Task 过程按照 Hash 的方式重组 Partition 的数据，不进行排序。每个 Map Task 为每个 Reduce Task 生成一个文件，通常会产生大量的文件, 伴随大量的随机磁盘 I/O 操作与大量的内存开销。

v2: 一个 Executor 上所有的 Map Task 生成的分区文件只有一份，即将所有的 Map Task 相同的分区文件合并，这样每个 Executor 上最多只生成 N 个分区文件。

这样就减少了文件数，但是假如下游 Stage 的分区数 N 很大，还是会在每个 Executor 上生成 N 个文件，同样，如果一个 Executor 上有 K 个 Core，还是会开 K*N 个 Writer Handler，所以这里仍然容易导致OOM。

sortshuffle

v1: 为了更好地解决上面的问题，Spark 参考了 MapReduce 中 Shuffle 的处理方式，引入基于排序的 Shuffle 写操作机制。

每个 Task 不会为后续的每个 Task 创建单独的文件，而是将所有对结果写入同一个文件。该文件中的记录首先是按照 Partition Id 排序，每个 Partition 内部再按照 Key 进行排序，Map Task 运行期间会顺序写每个 Partition 的数据，同时生成一个索引文件记录每个 Partition 的大小和偏移量。

在map数量不超过200并且没有进行聚合操作时会执行bypass , bypass不会对数据进行排序

此时，每个 task 会为每个下游 task 都创建一个临时磁盘文件，并将数据按 key 进行 hash 然后根据 key 的 hash 值，将 key 写入对应的磁盘文件之中。当然，写入磁盘文件时也是先写入内存缓冲，缓冲写满之后再溢写到磁盘文件的。最后，同样会将所有临时磁盘文件都合并成一个磁盘文件，并创建一个单独的索引文件。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark的shuffle过程

这样就减少了文件数，但是假如下游 Stage 的分区数 N 很大，还是会在每个 Executor 上生成 N 个文件，同样，如果一个 Executor 上有 K 个 Core，还是会开 K*N 个 Writer Handler，所以这里仍然容易导致OOM。v2: 一个 Executor 上所有的 Map Task 生成的分区文件只有一份，即将所有的 Map Task 相同的分区文件合并，这样每个 Executor 上最多只生成 N 个分区文件。记录每个 Partition 的大小和偏移量。
复制链接

扫一扫

riwanba CSDN认证博客专家 CSDN认证企业博客

码龄5年

19: 原创

135万+: 周排名

77万+: 总排名

1万+: 访问

: 等级

210: 积分

3: 粉丝

8: 获赞

4: 评论

44: 收藏

私信

关注

热门文章

最新评论

finalshell 连接出现channel is not opened问题
CSDN-Ada助手: 恭喜您写了第19篇博客！看到您解决了finalshell连接中出现的"channel is not opened"问题，我感到非常高兴。您的经验分享对其他用户来说一定非常有帮助。在接下来的创作中，我建议您可以继续分享一些关于finalshell的高级技巧或者更深入的使用案例。这样可以进一步拓宽读者的视野，帮助他们更好地应对各种可能遇到的问题。谦虚地说，我相信您在这个领域的知识和经验还有很多可以分享的。期待您的下一篇博客！祝您继续创作的过程中愉快并取得更大的成功！
selenium 下 chrome 和 chromedriver的版本保持
CSDN-Ada助手: 恭喜您写了第19篇博客！标题中提到的"版本保持"非常重要，对于使用selenium和chromedriver的开发者来说是一项关键任务。您的博客内容无疑会帮助到很多人解决这个问题。不过，如果您愿意，我想提供一些建议来丰富您的创作。下一步，您可以考虑探讨如何在不同操作系统和浏览器版本中保持selenium、chrome和chromedriver的兼容性。这个话题也是开发者们面临的挑战之一，他们会非常乐意看到您的经验和建议。另外，您还可以分享一些实际的案例和解决方案，以帮助读者更好地理解和应用这些技术。再次恭喜您，并期待您在未来的博客中分享更多有价值的内容！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply19 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。