云计算
RiverM
这个作者很懒,什么都没留下…
展开
-
Hadoop MapReduce 任务执行流程源代码详细解析
目录1 引言 1.1 目的 1.2 读者范围2 综述3 代码详细分析 3.1 启动Hadoop集群 3.2 JobTracker启动以及Job的初始化 3.3 TaskTracker启动以及发送Heartbeat 3.4 JobTracker接原创 2011-09-27 15:01:58 · 15487 阅读 · 4 评论 -
hadoop shuffle机制中针对中间数据的排序过程详解(源代码级)
在所有公开资料中,很少有对Hadoop 中间数据的sort过程进行详细介绍的。如果想要深入了解hadoop对中间数据的排序机制,只有通过阅读源代码才能达到。而hadoop的这段代码本身具有非常大的迷惑性,如果不注意细节,很容易会发生错误的理解。 本篇文章从原理上详细介绍了hadoop针对中间数据的排序机制,并且对一些重要的源代码段进行了介绍。阅读本文对理解该机制或者深入阅读该部分的hadoop源代原创 2011-10-18 14:11:58 · 9496 阅读 · 11 评论 -
MapReduce模型中常用join方法小结
这篇文章是在阅读《A Comparison of Join Algorithms for Log Processing in MapReduce》后对该文的一个小结。该文章详细介绍几种在mapreduce模型下的join算法,并且对他们的性能作出系统的评测。目前像pig,hive等上层应用在进行join计算时也是利用该文中提出的算法或者算法变种。需求: 假设有两原创 2012-04-21 21:55:06 · 2471 阅读 · 0 评论