Hadoop中的Shuffle 与 Spark中的Shuffle的区别与联系

最新推荐文章于 2022-09-21 21:49:54 发布

杨鑫newlfe

最新推荐文章于 2022-09-21 21:49:54 发布

阅读量1.9w

点赞数 3

分类专栏：大数据挖掘与大数据应用案例

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012965373/article/details/51427105

版权

大数据挖掘与大数据应用案例专栏收录该内容

536 篇文章 1675 订阅 ¥9.90 ¥99.00

订阅专栏

MapReduce过程、Spark和Hadoop以Shuffle为中心的对比分析

mapreduce与Spark的map-Shuffle-reduce过程
mapreduce过程解析（mapreduce采用的是sort-based shuffle）
将获取到的数据分片partition进行解析，获得k/v对，之后交由map()进行处理.

map函数处理完成之后，进入collect阶段，对处理后的k/v对进行收集，存储在内存的环形缓冲区中。

当环形缓冲区中的数据达到阀值之后（也可能一直没有达到阀值，也一样要将内存中的数据写入磁盘），将内存缓冲区中的数据通过SpillThread线程转移到磁盘上。需要注意的是，转移之前，首先利用快排对记录数据进行排序（原则是先按照分区编号，再按照key进行排序，注意，排序是在写入磁盘之前的）。之后按照partition编号，获取上述排序之后的数据并将其写入Spill.out文件中（一个Spill.out文件中可能会有多个分区的数据--因为一次map操作会有多次的spill的过程），需要注意的是，如果人为设置了combiner，在写入文件之前，需要对每个分区中的数据进行聚集操作。该文件同时又对应SpillRecord结构（Spill.out文件索引）。

<

了解本专栏

关注

3
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
6
评论
Hadoop中的Shuffle 与 Spark中的Shuffle的区别与联系

Hadoop中的Shuffle 与 Spark中的Shuffle的区别与联系
复制链接

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

杨鑫newlfe 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。