MapReduce
文章平均质量分 63
luyee2010
这个作者很懒,什么都没留下…
展开
-
MapReduce:详解Shuffle(copy,sort,merge)过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在转载 2013-03-01 02:56:03 · 9843 阅读 · 3 评论 -
How MapReduce Works
一、从Map到ReduceMapReduce其实是分治算法的一种实现,其处理过程亦和用管道命令来处理十分相似,一些简单的文本字符的处理甚至也可以使用Unix的管道命令来替代,从处理流程的角度来看大概如下:cat input | grep | sort | uniq -c | cat > output# Input -> Map -> Shuffle & Sort -> R转载 2013-03-01 02:57:26 · 1232 阅读 · 0 评论 -
Mapreduce-Partition分析
Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认的partitioner是HashPartitio转载 2013-03-02 22:46:39 · 1167 阅读 · 0 评论 -
Hadoop Map/Reduce执行全流程关键代码
Hadoop Map/Reduce 执行流程关键代码 JobClient.runJob(conf) | 运行job |-->JobClient jc = new JobClient(job); |-->RunningJob rj = jc.submitJob(job); |-->submitJobInternal(job); |-->i转载 2013-03-13 02:16:56 · 1121 阅读 · 0 评论 -
MapReduce错误任务失败处理
MapReduce的作业失败主要分三个层次,即jobtracker失败,tasktracker,子任务实例1,jobtracker失败jobtracker失败应该说是最严重的一种失败方式了,而且在hadoop中存在单点故障的情况下是相当严重的,因为在这种情况下作业最终失败,尽管这种故障的概率极小但是还是应该避免,可以通过启动多个jobtracker,在这种情况只运行一个主的jobtrack原创 2013-03-25 01:56:46 · 3606 阅读 · 0 评论