MapReduce重点（Map阶段，Reduce阶段，Shuffle阶段）

最新推荐文章于 2025-03-31 19:54:29 发布

纵死侠骨香

最新推荐文章于 2025-03-31 19:54:29 发布

阅读量6.6k

点赞数 2

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41808387/article/details/105112298

版权

一、MapReduce的工作流程

1、Map阶段

（1）读取hdfs上的文件，每个block启动一个maptask，按行读取一个block中的内容。
（2）map函数对数据split拆分，得到数组，组成一个键值对<word,1>
（3）做分区对应多个reduceTask
（4）分区数据，按key分组排序
（5）在map端执行小reduce，一个map中输出<key,times>

2、Rudeuce阶段

(1) 每个分区对应一个reduce task，他会读取（所有map节点上的maptask）相同分区的所有输出
(2) reduce Task对接受的所有map输出，排序
(3) 执行reduce，对数据累加
(4) 输出到hdfs上

3、shuffle过程

原因：因为频繁的磁盘I/O操作会严重降低效率，所以"中间结果"不会立马写入磁盘&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。