![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
liushidexing
这个作者很懒,什么都没留下…
展开
-
Hadoop MapReduce工作原理
http://sishuok.com/forum/blogPost/list/5965.htmlMapReduce工作原理 MapReduce 角色•Client :作业提交发起者。•JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业。•TaskTracker:保持JobTracker通信转载 2014-12-05 18:32:34 · 724 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,转载 2014-12-08 14:32:56 · 437 阅读 · 0 评论 -
如何确定 Hadoop map和reduce的个数--map和reduce数量之间的关系是什么
阅读本文可以带着下面问题:1.map和reduce的数量过多会导致什么情况?2.Reduce可以通过什么设置来增加任务个数?3.一个task的map数量由谁来决定?4.一个task的reduce数量由谁来决定?一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的,那么splitSize是由以下几个来决定的goalSize = tot转载 2014-12-09 10:31:38 · 552 阅读 · 0 评论 -
python hadoop 在streaming中获取文件名的方法
在hadoop的开发中,经常要根据streaming中不同的文件名做不同的处理,需要获取文件名,可参考java 版本中获取文件名的方法:1、hadoop上在java开发可用: FileSplit fileSplit = (FileSplit)reporter.getInputSplit();String fileName = fileSplit.getPat原创 2015-08-14 11:18:42 · 864 阅读 · 0 评论