MapReduce工作原理

MapReduce2.0运行流程

MapReduce2.0比之前最大的改动就是加入了yarn,具体的yarn工作机制请参考 yarn的工作机制 

MapReduce工作原理

 首先程序根据InputFormat将输入文件分成多个spilts,每个spilt对应一个map task的输入

接下来就是MapReduce的shuffle过程,具体来说shuffle过程就是从map产生输出到reduce消化输入的过程

每个map任务都有一个环形内存缓冲区用于存储任务输出。在默认情况下,缓冲区大小为100M,,一旦缓冲内容到达阈值(默认为0.8),一个后台线程便把内容溢出到磁盘。在溢出到磁盘过程中,map输出继续写到缓冲区,但如果此期间缓冲区被填满,map会被阻塞直到写磁盘过程完成。

在写磁盘之前,线程根据数据最终要传的reducer把数据划分成相应的分区(partition)。在每个分区中,后台线程按键进行内存中排序。

每次内存缓冲区达到溢出阈值,都会新建一个溢出文件,因此在map任务写完其最后一个输出纪录之后,会有几个溢出文件。在任务完成之前,溢出文件被合并成一个已分区且已排序的输出文件

因为reduce需要集群上若干个map任务的map输出作为其特殊的分区文件。每个map任务的完成时间可能不同,因此在每个任务完成时,reduce就开始复制其输出。reduce有少量复制线程,默认为5个。复制完map所有输出后,reduce任务进入合并排序阶段,这个阶段将合并map输出,维持其顺序排序。这是循环进行的,比如,有50个map输出,合并因子是10,合并将进行5次。在最后阶段,即reduce阶段,直接把数据输入reduce函数。此阶段输出直接写到输出文件系统

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值