mapreduce程序的运行流程

最新推荐文章于 2024-09-16 22:54:38 发布

coolerzZ

最新推荐文章于 2024-09-16 22:54:38 发布

阅读量341

点赞数

分类专栏：大数据

原文链接：https://www.cnblogs.com/liuwei6/p/6708116.html

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

看了很多博客，个人感觉唯有这篇博客对小白来说讲的最清楚，特记录于下：原博客地址：点我

（1）一个 mr 程序启动的时候，最先启动的是 MRAppMaster， MRAppMaster 启动后根据本次 job 的描述信息，计算出需要的 maptask 实例数量，然后向集群申请机器启动相应数量的 maptask 进程
（2） maptask 进程启动之后，根据给定的数据切片(哪个文件的哪个偏移量范围)范围进行数据处理，主体流程为：
A、利用客户指定的 inputformat 来获取 RecordReader 读取数据，形成输入 KV 对
B、将输入 KV 对传递给客户定义的 map()方法，做逻辑运算，并将 map()方法输出的 KV 对收集到缓存
C、将缓存中的 KV 对按照 K 分区排序后不断溢写到磁盘文件（超过缓存内存写到磁盘临时文件，最后都写到该文件，ruduce 获取该文件后，删除）
（3） MRAppMaster 监控到所有 maptask 进程任务完成之后（真实情况是，某些 maptask 进程处理完成后，就会开始启动 reducetask 去已完成的 maptask 处 fetch 数据），会根据客户指定的参数启动相应数量的 reducetask 进程，并告知 reducetask 进程要处理的数据范围（数据
分区）
（4） Reducetask 进程启动之后，根据 MRAppMaster 告知的待处理数据所在位置，从若干台 maptask 运行所在机器上获取到若干个 maptask 输出结果文件，并在本地进行重新归并排序，然后按照相同 key 的 KV 为一个组，调用客户定义的 reduce()方法进行逻辑运算，并收集运
算输出的结果 KV，然后调用客户指定的 outputformat 将结果数据输出到外部存储