MapReduce过程详解

最新推荐文章于 2023-03-07 08:28:08 发布

cop封尘

最新推荐文章于 2023-03-07 08:28:08 发布

阅读量251

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Copper01/article/details/83895547

版权

1.输入分片（input split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务。

2.map阶段：就是我们写的map函数，map函数效率相对好控制，而且一般map操作都是本地化操作也就是在数据存储节点上进行；map函数每次处理一行数据，map主要用于数据的分组，为下一步reduce的运算做数据准备，map的输出就是reduce的输入。

3.写入缓冲区：每个Map 任务都有一个用来写入输出数据的循环内存缓冲区。这个缓冲区默认大小是100MB，一般到达80M时系统将会启动一个后台线程把缓冲区中的内容spill 到磁盘。

4.spill 线程在把缓冲区的数据写到磁盘前，首先根据key的hash值的模运算对数据进行Partitioner，打上标识。

5.之后对数据进行一个二次快速排序，首先根据数据所属的partition 排序，然后每个partition 中再按Key 排序。

5.如果设定了Combiner，接着运行combiner。

6.最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

7. 当所有的Map 输出都被拷贝后，Reduce 任务进入排序阶段（更恰当的说应该是归并阶段，因为排序在Map 端就已经完成），这个阶段会对所有的Map 输出进行归并排序，这个工作会重复多次才能完成。

8.不断地merge后，最后会生成一个“最终文件”，作为reduce的输入。reduce是主要的逻辑运算阶段，我们绝大部分业务逻辑都是在reduce阶段完成的，并把最终结果存储在hdfs上的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce过程详解

1.输入分片（input split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务。2.map阶段：就是我们写的map函数，map函数效率相对好控制，而且一般map操作都是本地化操作也就是在数据存储节点上进行；map函数每次处理一行数据，map主要用于数据的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。