MapReduce工作原理

最新推荐文章于 2022-12-13 22:52:41 发布

一只小菜鸟i

最新推荐文章于 2022-12-13 22:52:41 发布

阅读量790

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40914963/article/details/82657248

版权

MapReduce2.0运行流程

MapReduce2.0比之前最大的改动就是加入了yarn，具体的yarn工作机制请参考 yarn的工作机制

MapReduce工作原理

首先程序根据InputFormat将输入文件分成多个spilts，每个spilt对应一个map task的输入

接下来就是MapReduce的shuffle过程，具体来说shuffle过程就是从map产生输出到reduce消化输入的过程

每个map任务都有一个环形内存缓冲区用于存储任务输出。在默认情况下，缓冲区大小为100M，，一旦缓冲内容到达阈值（默认为0.8），一个后台线程便把内容溢出到磁盘。在溢出到磁盘过程中，map输出继续写到缓冲区，但如果此期间缓冲区被填满，map会被阻塞直到写磁盘过程完成。

在写磁盘之前，线程根据数据最终要传的reducer把数据划分成相应的分区（partition）。在每个分区中，后台线程按键进行内存中排序。

每次内存缓冲区达到溢出阈值，都会新建一个溢出文件，因此在map任务写完其最后一个输出纪录之后，会有几个溢出文件。在任务完成之前，溢出文件被合并成一个已分区且已排序的输出文件

因为reduce需要集群上若干个map任务的map输出作为其特殊的分区文件。每个map任务的完成时间可能不同，因此在每个任务完成时，reduce就开始复制其输出。reduce有少量复制线程，默认为5个。复制完map所有输出后，reduce任务进入合并排序阶段，这个阶段将合并map输出，维持其顺序排序。这是循环进行的，比如，有50个map输出，合并因子是10，合并将进行5次。在最后阶段，即reduce阶段，直接把数据输入reduce函数。此阶段输出直接写到输出文件系统

一只小菜鸟i

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MapReduce工作原理

MapReduce2.0运行流程MapReduce2.0比之前最大的改动就是加入了yarn，具体的yarn工作机制请参考 yarn的工作机制 MapReduce工作原理首先程序根据InputFormat将输入文件分成多个spilts，每个spilt对应一个map task的输入接下来就是MapReduce的shuffle过程，具体来说shuffle过程就是从map产生输出...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。