云计算
文章平均质量分 77
feimataxue
这个作者很懒,什么都没留下…
展开
-
hadoop使用心得
1. Hellow hadoop~~!Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫hadoop集群往转载 2012-06-03 16:21:52 · 810 阅读 · 0 评论 -
详解shuffle过程
先看看map端的情况,如下图:上图可能是某个map task的运行情况。拿它与官方图的左半边比较,会发现很多不一致。官方图没有清楚地说明partition, sort与combiner到底作用在哪个阶段。我画了这张图,希望让大家清晰地了解从map数据输入到map端所有数据准备好的全过程。整个流程我分了四步。简单些可以这样说,每个map task都有一个内存缓冲区,存储着map的转载 2012-06-10 16:53:51 · 742 阅读 · 1 评论 -
mapreduce的shuffle和排序
mapreduce的map结束后,把数据重新组织,作为reduce阶段的输入,该过程称之为shuffle---洗牌。这个shuffle过程是整个mapreduce的心脏,如果理解了shuffle的过程,在必要的时候可以优化mapreduce程序的代码。总结shuffle的主要功能:1.完整地从map task端拉取数据到reduce 端;2.在跨节点拉取数据时,尽可能地减少对带宽的不必原创 2012-06-10 16:35:42 · 824 阅读 · 0 评论