Shuffle和排序

MR确保每个reduce 的输入都是按键排序的,系统执行排序的过程(即map输出作为输入传给reduce)称为shuffle,,

shuffle术语不断被优化和改进的代码库的一部分

,从许多方面来看, shuffle是MR的心脏, 是奇迹发生的地方。


1、map端

  map函数开始产生输出时, 并不是简单的将它写到磁盘, 这个过程 更加复杂,他利用缓冲的方式 写到内存中并处于效率的考虑进行了预排序。

每个map人多有一个环形内存缓存区用于存储任务输出, 在默认的情况下,缓冲区的大小为100MB, 此值可以通过改变io.sort.mb属性来挑战, 一旦缓冲区内存达到阈值(io.sort.spill.percent,默认为0.80,或者80%) 一个后台线程便开始把内容溢出打牌spill磁盘, 在溢出写到磁盘的过程中,map输出继续写到缓冲区, 但是如果再次期间缓冲区被填满了,map会被阻塞知道写磁盘过程完成。

溢出写过程按轮询方式将缓冲区的内容写到mapred.local.dir属性制定的作业特定子目录中。

在写磁盘之前,线程首先根据数据最终要穿的reducer把数据划分成相应的分区( partition)在每一个分区中,后台线程按键进行内排序,如果有一个combiner,它就是排序后的输出上运行, 运行combiner是的map输出结果更加紧凑, 因此减少了写到磁盘的数据和传递给reduce的数据


每次内存缓冲区达到溢出的阀值, 就会新建了一个溢出文件(spill  file) 因此在map任务写完其最后一个输出记录之后,就会有几个溢出文件, 在任务完成之前,溢出文件被合并成一个已分区且已排序的输出文件, 配置属性io.sort.factor控制这一次能合并多流。默认是10个


如果至少存在3个溢出文件(通过min.num.spills.for.combine属性进行设置 则combiner就会在输出文件写到磁盘之前再次运行, 如果只有一个两个 溢出文件, 那么 对于map输出的减少方面不值得调用combiner,不会为该map输出再次运行combiner.

在将压缩map输出写到磁盘的过程中,、对他进行压缩往往是一个很好的主意,因为这样会写磁盘的速度更加块, 结余磁盘空间,并且减少传递给reducer的数据量,在默认的情况下, 输出时不压缩的,


reducer通过http方式得到输出文件的分区,用于文件分区的工作线程的数据由任务的tracker.http.threads属性控制,此设置针对的是每一个 tasktracker,而不是针对每个map任务曹,默认值是40,在运行 大型作业的大型集群上,此值可以可以更具需要增加,  在MR2中 此值不使用, MR2使用Netty,默认情况下允许值为处理器数量的两倍。


==================================================================

reduce端

现在转到处理过程的reudce部分,map输出文件位于运行map任务的tasktracker的本地磁盘(注意,尽管map输出经常写到map tasktracker的本地磁盘) 现在taskstacker需要为分区文件运行reduce任务,而且,reduce任务需要上若干个map任务 和map输出作为其特殊的分区文件, 每个map任务的完成时间可能不同,因此只要有一个任务完成,reduce任务就开始复制其输出,这就是reduce任务的复制阶段,reduce任务有少量复制线程, 因此能够并行取得map输出,默认值是5个线程,但这个默认值可以通过mapred.reduce.parallel.cpies属性来改变。


reducer如何知道从那台机器上面取得map输出呢

map任务成功完成后,它们会通知其父tasktraker状态更新,然后tasktraker进而通知jobtracker, 在MR2中,任务直接通知其应用程序master, 这些通知在前面介绍的心跳通信机制中传输,因此对于指定作业,jobtracker或应用程序master 知道map输出和tasktracker之间的映射关系,reducer中的一个县城定期询问jobtracker以便获取map输出的位置,知道获得所有输出位置,

由于第一个reducer可能是爱,因此tasktrakcer并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们, 相反,tasktracker会等待, 知道jobtracker告知他们删除map输出, 这是作业完成后执行的,


如果map输出相当小, 会被复制到reducer任务的JVM的内存(缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制, 制定用于此用途的堆空间的百分比, 否则map输出被复制到磁盘, 一旦内存缓冲区达到阈值大小 由 mapred.job.shuffle.merge.percent决定 或达到map的输出阈值由mapred.inmem.merge.threshold控制, 则合并后溢出写到磁盘中, 如果指定combiner, 则在合并期间运行它降低写入磁盘的数据量。

随着磁盘上副本增多, 后台线程会将他们合并为更大的,排好序的文件, 这回为后面的合并节省一些时间,注意为了合并, 压缩的map输出(通过map任务)都必须在内存中被解压缩,

复制完所有的map输出后, reduce任务进入排序阶段,(更加恰当的说法是合并阶段,因为排序是在map端进行的) 这个阶段将合并map输出,维持其顺序排序。 这是书序排序。 比如有50个map输出, 而合并因子是10 ,(默认是10 ,由io.sort.factor属性设置, 与map和合并类似)合并将进行5躺, 每糖将10个文件合并成一个文件, 因此最后有5个中间文件,


在最后阶段, 即reduce阶段,直接把数据输入reduce函数,从而省略了一次磁盘的往返过程, 并没有将五个文件合并成一个已排序的文件 ,作为最后一趟,最后的合并可以来自内存和磁盘片段。


在reduce阶段,对已排序的输出中的每个键调用reduce函数,由此阶段的输出直接写到 HDFS, 所以第一块副本将被写到本地磁盘。
























  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值