mapreduce-MR执行流程（IO）

最新推荐文章于 2022-02-16 15:44:08 发布

达文西不息

最新推荐文章于 2022-02-16 15:44:08 发布

阅读量1.7k

点赞数 3

分类专栏：大数据文章标签： mysql 数据库 hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Brucexyao/article/details/118114955

版权

MapReduce——MR的执行流程（五次IO）

一个完整的mapreduce程序在分布式运行时有三类实例进程：

MRAppMaster：负责整个程序的过程调度及状态协调
mapTask：负责map阶段的整个数据处理流程

（maptask的数量是不能设置的，reducetask可以自己设置job.setNumReduceTasks(5);）
ReduceTask：负责reduce阶段的整个数据处理流程

对于MR的执行流程，我是通过其过程中的五次IO来记忆的，详细解释如下(最后有流程详图)：

第一次io

1、在一个MR程序的启动的时候，最先启动的是MRAppMaster，MRAppMaster启动后根据本次job作业的描述信息，计算出需要的map task的实际数量，紧接着向集群申请服务器启动相应数量的map task进程。

1.1（读文件流程）从map task进程开始读取文件，是通过调用客户端指定的FileInputFormat（默认是TextInputFormat）生成一个RecordReader对象，调用RecordReader中的read()方法，然后它会，按行读取block块里面的内容(一次读一行)。

maptask会调用nextkeyvalue()方法，通过getCurrentKey,getCurrentValue得到k,v的键值对数据，返回(key,value)。

1.2（切片流程）通过调用getSplit

最低0.47元/天解锁文章

达文西不息

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
mapreduce-MR执行流程（IO）

MapReduce——MR的执行流程（五次IO）一个完整的mapreduce程序在分布式运行时有三类实例进程：MRAppMaster：负责整个程序的过程调度及状态协调mapTask：负责map阶段的整个数据处理流程（maptask的数量是不能设置的，reducetask可以自己设置job.setNumReduceTasks(5);）ReduceTask：负责reduce阶段的整个数据处理流程对于MR的执行流程，我是通过其过程中的五次IO来记忆的，详细解释如下(最后有流程详图)：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。