Hadoop 之 Shuffle

原创 2015年07月08日 23:24:21

1.每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spill)磁盘的指定目录(mapred.local.dir)下的新建的一个溢出写文件。
2.写磁盘前,要partition,sort。如果有combiner,combine排序后数据。
3.等最后记录写完,合并全部溢出写文件为一个分区且排序的文件。


1.Reducer通过Http方式得到输出文件的分区。
2.TaskTracker为分区文件运行Reduce任务。复制阶段把Map输出复制到Reducer的内存或磁盘。一个Map任务完成,Reduce就开始复制输出。
3.排序阶段合并map输出。然后走Reduce阶段。

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Hadoop计算中的Shuffle过程

最近在看hadoop权威指南,shuffle部分讲的实在过于笼统。转载一篇文章作为备忘 http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xy...

hadoop之shuffle

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,...

Hadoop中的shuffle过程

1. 根据官方图片可以看出,Map spill是分区排序的,多个spill文件会做一个归并排序,形成一个唯一的分区排序的最终文件。这里的归并排序调用的是Merge类的merge方法,注意hadoop的...

Hadoop : MapReduce中的Shuffle和Sort分析

转载自:http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece763104c90354501de2b3fdcda107cd6924a84642c1a0131a...

Hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)

在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑...

hadoop中的Shuffle

缺省情况下,MapReduce Framework的Shuffle & Sort过程将所有和某一个键相关联的值“组合”(group)在一起,传送到一个唯一确定的Reducer,而且传送到每个Reduc...

hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)

在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑...
  • RiverM
  • RiverM
  • 2011-10-18 14:11
  • 8502

hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)

在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑...

Hadoop MapReduce Shuffle and Sort

Hadoop 确保每个reduce 的输入都是按 key 排序的。系统执行排序的过程称为shuffle. Map 端,map 产生输出时,并不是简单的把数据写到磁盘。会先缓冲在内存中,并进行...

hadoop的shuffle和排序

1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)