Shuffle和排序

最新推荐文章于 2024-01-03 12:39:06 发布

冥想者-定

最新推荐文章于 2024-01-03 12:39:06 发布

阅读量652

点赞数

分类专栏： __hadoop实战

__hadoop实战专栏收录该内容

12 篇文章 0 订阅

订阅专栏

MR确保每个reduce 的输入都是按键排序的，系统执行排序的过程（即map输出作为输入传给reduce）称为shuffle，，

shuffle术语不断被优化和改进的代码库的一部分

，从许多方面来看， shuffle是MR的心脏，是奇迹发生的地方。

1、map端

map函数开始产生输出时，并不是简单的将它写到磁盘，这个过程更加复杂，他利用缓冲的方式写到内存中并处于效率的考虑进行了预排序。

每个map人多有一个环形内存缓存区用于存储任务输出，在默认的情况下，缓冲区的大小为100MB，此值可以通过改变io.sort.mb属性来挑战，一旦缓冲区内存达到阈值（io.sort.spill.percent，默认为0.80，或者80%）一个后台线程便开始把内容溢出打牌spill磁盘，在溢出写到磁盘的过程中，map输出继续写到缓冲区，但是如果再次期间缓冲区被填满了，map会被阻塞知道写磁盘过程完成。

溢出写过程按轮询方式将缓冲区的内容写到mapred.local.dir属性制定的作业特定子目录中。

在写磁盘之前，线程首先根据数据最终要穿的reducer把数据划分成相应的分区（ partition）在每一个分区中，后台线程按键进行内排序，如果有一个combiner,它就是排序后的输出上运行，运行combiner是的map输出结果更加紧凑，因此减少了写到磁盘的数据和传递给reduce的数据

每次内存缓冲区达到溢出的阀值，就会新建了一个溢出文件（spill file) 因此在map任务写完其最后一个输出记录之后，就会有几个溢出文件，在任务完成之前，溢出文件被合并成一个已分区且已排序的输出文件，配置属性io.sort.factor控制这一次能合并多流。默认是10个

如果至少存在3个溢出文件（通过min.num.spills.for.combine属性进行设置则combiner就会在输出文件写到磁盘之前再次运行，如果只有一个两个溢出文件，那么对于map输出的减少方面不值得调用combiner，不会为该map输出再次运行combiner.

在将压缩map输出写到磁盘的过程中，、对他进行压缩往往是一个很好的主意，因为这样会写磁盘的速度更加块，结余磁盘空间，并且减少传递给reducer的数据量，在默认的情况下，输出时不压缩的，

reducer通过http方式得到输出文件的分区，用于文件分区的工作线程的数据由任务的tracker.http.threads属性控制，此设置针对的是每一个 tasktracker，而不是针对每个map任务曹，默认值是40，在运行大型作业的大型集群上，此值可以可以更具需要增加，在MR2中此值不使用， MR2使用Netty，默认情况下允许值为处理器数量的两倍。

==================================================================

reduce端

现在转到处理过程的reudce部分，map输出文件位于运行map任务的tasktracker的本地磁盘（注意，尽管map输出经常写到map tasktracker的本地磁盘）现在taskstacker需要为分区文件运行reduce任务，而且，reduce任务需要上若干个map任务和map输出作为其特殊的分区文件，每个map任务的完成时间可能不同，因此只要有一个任务完成，reduce任务就开始复制其输出，这就是reduce任务的复制阶段，reduce任务有少量复制线程，因此能够并行取得map输出，默认值是5个线程，但这个默认值可以通过mapred.reduce.parallel.cpies属性来改变。

reducer如何知道从那台机器上面取得map输出呢

map任务成功完成后，它们会通知其父tasktraker状态更新，然后tasktraker进而通知jobtracker，在MR2中，任务直接通知其应用程序master，这些通知在前面介绍的心跳通信机制中传输，因此对于指定作业，jobtracker或应用程序master 知道map输出和tasktracker之间的映射关系，reducer中的一个县城定期询问jobtracker以便获取map输出的位置，知道获得所有输出位置，

由于第一个reducer可能是爱，因此tasktrakcer并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们，相反，tasktracker会等待，知道jobtracker告知他们删除map输出，这是作业完成后执行的，

如果map输出相当小，会被复制到reducer任务的JVM的内存（缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制，制定用于此用途的堆空间的百分比，否则map输出被复制到磁盘，一旦内存缓冲区达到阈值大小由 mapred.job.shuffle.merge.percent决定或达到map的输出阈值由mapred.inmem.merge.threshold控制，则合并后溢出写到磁盘中，如果指定combiner，则在合并期间运行它降低写入磁盘的数据量。

随着磁盘上副本增多，后台线程会将他们合并为更大的，排好序的文件，这回为后面的合并节省一些时间，注意为了合并，压缩的map输出（通过map任务）都必须在内存中被解压缩，

复制完所有的map输出后， reduce任务进入排序阶段，(更加恰当的说法是合并阶段，因为排序是在map端进行的）这个阶段将合并map输出，维持其顺序排序。这是书序排序。比如有50个map输出，而合并因子是10 ，（默认是10 ，由io.sort.factor属性设置，与map和合并类似）合并将进行5躺，每糖将10个文件合并成一个文件，因此最后有5个中间文件，

在最后阶段，即reduce阶段，直接把数据输入reduce函数，从而省略了一次磁盘的往返过程，并没有将五个文件合并成一个已排序的文件，作为最后一趟，最后的合并可以来自内存和磁盘片段。

在reduce阶段，对已排序的输出中的每个键调用reduce函数，由此阶段的输出直接写到 HDFS，所以第一块副本将被写到本地磁盘。

冥想者-定

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Shuffle和排序

MR确保每个reduce 的输入都是按键排序的，系统执行排序的过程（即map输出作为输入传给reduce）称为shuffle，，shuffle术语不断被优化和改进的代码库的一部分，从许多方面来看， shuffle是MR的心脏，是奇迹发生的地方。1、map端 map函数开始产生输出时，并不是简单的将它写到磁盘，这个过程更加复杂，他利用缓冲的方式写到内存中并处于效率
复制链接

扫一扫