MapReduce的Shuffle原理

什么是Shuffle

Hadoop计算框架Shuffler, 在mapper和reducer中间的一个步骤 ,可以把mapper的输出按照某种key值重新切分和组合成n份,把key值符 合某种范围的输出送到特定的reducer那里去处理

Shuffle的原理分析

这里写图片描述

运行步骤如下:
step1:map端调用context.write(),先将数据写到map的缓冲区中,当缓冲区的填充比达到一个阈值的时候,系统中会开启一个后台线程spill,负责将数据写入到磁盘,这个过程称为溢出,每次溢出的时候,溢出的数据会写入到mapreduce.cluster.local.dir目录下的一个文件中
step2:在spill溢出的时候,就会调用Partitioner和Sort,都是根据KV的key进行分组和排序的,并且如果定义了Combiner那么Combiner还会执行
step3:在一次map过程中,会产生多个溢出文件,当map最终完成的时候,在本地的磁盘上可能会存在多个有分区编号的溢出文件,这些文件最终会被合并成一个排好序的含有分区编号的文件。在这里需要注意的是,在最终生成的文件之前也会执行Combiner
step4:reduce会使用HTTP协议从Mapper节点获得属于自己的划分,每个Reduce默认会使用5个线程从mapper节点获取数据

详细解析:
step1中缓冲区填充比的阈值是由mapreduce.map.sort.spill.percent定义的,默认值0.8,缓冲区的大小mapreduce.task.io.sort.mb其默认大小是512MB,缓冲区的大小会影响到排序的效率,一般来说,缓冲区越大,排序的效率越大,但是内存是有限的,增大缓冲区的大小会影响到每个节点能运行的maptask的数量

step4中reduce怎么会知道自己的划分呢?每个map实例完成后,其会通知ApplicationMaster其运行过程中产生的划分,每个reduce会一直定期的查询AM,直到reduce获得最后一个托管其分区的节点,当map实例完成的个数超过mapreduce.job.reduce.slowstart.completedmaps规定的值之后,reduce阶段就会执行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值