MapReduce的shuffling理解

qq_38151176

已于 2022-09-04 14:11:23 修改

阅读量5.1k

点赞数

分类专栏： # MapReduce 文章标签： 1024程序员节 hadoop mapreduce

于 2021-11-23 11:15:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38151176/article/details/121488343

版权

MapReduce的shuffling理解

1：官方图解
在这里插入图片描述

上图主要分为三个阶段：
Map：分割数据 Reduce:聚合数据重点在Shuffle(面试)
Shuffing包含：{partition spill(sort+combiner) merge}

shuffling具体过程如下：
1.Map端
1**.Input Split分配给Map
2.Map过程进行处理**，Mapper任务会接收输入分片，然后不断的调用map函数，对记录进行处理。处理完毕后，转换为新的<key,value>输出。
3.Map的输出结果缓存在内存里
4.内存中进行Partition，默认是HashPartitioner(采用取模hash (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks)，目的是将map的结果分给不同的reducer，有几个Partition，就有几个reducer
5.Sort:内存中在Partition结束后，对于不同分区的数据，会按照key进行排序

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的shuffling理解

MapReduce的shuffling理解1：官方图解上图主要分为三个阶段：Map：分割数据 Reduce:聚合数据重点在Shuffle(面试)Shuffing包含：{partition spill(sort+combiner) merge}shuffling具体过程如下：1.Map端1**.Input Split分配给Map2.Map过程进行处理**，Mapper任务会接收输入分片，然后不断的调用map函数，对记录进行处理。处理完毕后，转换为新的<key,value>
复制链接

扫一扫

专栏目录

qq_38151176 CSDN认证博客专家 CSDN认证企业博客

码龄7年

25: 原创

52万+: 周排名

115万+: 总排名

3万+: 访问

: 等级

239: 积分

187: 粉丝

10: 获赞

0: 评论

64: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
数据仓库 1篇
大数据开发 1篇
Hive 7篇
Spark 11篇
MapReduce 1篇
Flume 1篇
HDFS 2篇
Yarn 1篇
HBASE 2篇

最新评论

mysql在线时长统计
CSDN-Ada助手: 非常感谢博主分享关于mysql在线时长统计的技术文章。我觉得可以继续深入探讨mysql性能优化的话题，比如如何优化查询语句、如何提高数据库读写性能等方面的内容。这样的技术文章对其他用户也非常有帮助。期待博主下一篇关于mysql性能优化的博客，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。