MapReduce执行流程

南译郑秋冬

已于 2023-09-27 20:06:45 修改

阅读量54

点赞数

文章标签： mysql

于 2023-09-27 19:53:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tggyfc_/article/details/133362775

版权

附“天龙八部”绘制流程图：

绘制工具：wps流程图

MapTask 工作机制

（1） Read 阶段： Map Task 通过用户编写的 RecordReader ，从输入 InputSplit 中解析出一个个

key/value 。

（2） Map 阶段：该节点主要是将解析出的 key/value 交给用户编写 map() 函数处理，并产生一系列新的

key/value 。

（3） Collect 收集阶段：在用户编写 map() 函数中，当数据处理完成后，一般会调用

OutputCollector.collect() 输出结

果。在该函数内部，它会将生成的 key/value 分区（调用 Partitioner ），并写入一个环形内存缓冲区

中。

（4） Spill 阶段：即 “ 溢写 ” ，当环形缓冲区满后， MapReduce 会将数据写到本地磁盘上，生成一个临时

文件。需要

注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压

缩等操作。

（5） Combine 阶段：当所有数据处理完成后， MapTask 对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。当所有数据处理完后，MapTask 会将所有临时文件合并成一个大文件，并保存到文件 output/fifile.out 中，同时生成相应的索引文件output/fifile.out.index 。在进行文件合并过程中，MapTask 以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并io.sort.factor （默认 100 ）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。让每个MapTask 最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

ReduceTask 工作机制

（1） Copy 阶段： ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数据，如果其大小

超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2） Merge 阶段：在远程拷贝数据的同时， ReduceTask 启动了两个后台线程对内存和磁盘上的文件进

行合并，以防止内存使用过多或磁盘上文件过多。

（3） Sort 阶段：按照 MapReduce 语义，用户编写 reduce() 函数输入数据是按 key 进行聚集的一组数

据。为了将 key 相同的数据聚在一起， Hadoop 采用了基于排序的策略。由于各个 MapTask 已经实现对自己的处理结果

进行了局部

排序，因此， ReduceTask 只需对所有数据进行一次归并排序即可

（4） Reduce 阶段： reduce() 函数将计算结果写到 HDFS 上。

南译郑秋冬

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。