MapReduce工作流程

最新推荐文章于 2024-06-29 17:01:13 发布

Wuyikkk

最新推荐文章于 2024-06-29 17:01:13 发布

阅读量8.2k

点赞数 5

分类专栏： Hadoop2021 文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Wuyikkk/article/details/113825389

版权

一、MapTask详细工作流程

在这里插入图片描述
1、Read阶段：客户端通过数据信息形成任务分配的规划，然后将切片信息job.split、jar包、配置文件job.xml上传到yarn，并启动MRAppMaster计算需要启动MapTask的数量。MapTask通过用户编写的RecordReader，将文件解析为一个个的key/value。
2、Map阶段：解析出的key/value会交给用户编写的map()函数处理，并产生一系列新的key/value。
3、Collect阶段：数据通过map()函数处理完成后，会调用OutputCollector.collect()输出结果，并写入一个环形缓冲区中。
4、Spill阶段：溢写阶段，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。
5、Combine阶段（可选）：如果设置了Combiner，写入文件之前，会对每个分区的数据进行一次聚集操作。

二、ReduceTask详细工作流程

在这里插入图片描述
1、copy阶段：ReduceTask从各个MapTask上得到数据（一个ReduceTask会得到不同MapTask中同一个分区的数据）
2、merge阶段：将从Map

最低0.47元/天解锁文章

关注

5
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
MapReduce工作流程

1、Mapper的map()方法传来的<k,v>数据会先进入环形缓冲区kvbuffer（内存中首尾相连的数据结构，环形缓冲区由数据区和索引区组成），当kvbuffer中的数据达到80%，就会发生溢写。2、溢写前，kvbuffer会对缓冲区内的数据进行快排，先按分区编号排序，再按map的key排序。（排序只会改变索引区索引的顺序，不会改变数据区的数据）3、溢写多次，就会产生多个磁盘文件file.out，和索引文件file.out.index。4、多个溢写文件会合并成一个文件（通过归并排序）.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。