mapreduce
iteye_9550
这个作者很懒,什么都没留下…
展开
-
MapReduce:默认Counter的含义
[size=medium] MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析下这些默认Counter的含义,方便大家观察job结...2011-09-13 17:52:58 · 261 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
[size=medium] /** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间...2011-04-08 14:34:33 · 1728 阅读 · 1 评论 -
MapReduce:Fair Scheduler PPT分享
[size=medium]分享为公司小组内部交流所做的Fair scheduler PPT。大家有什么看法或意见,请在下面留言,谢谢[/size]2011-03-22 12:50:48 · 131 阅读 · 0 评论 -
MapReduce:Fair Scheduler前传
[size=medium] Fair Scheduler是由Facebook贡献给Hadoop社区的一种task调度策略。Facebook推出它的目的是在生产环境中替换毫无特点的[url=http://langyu.iteye.com/blog/910677]MapReduce默认Scheduler[/url]。 Fair Scheduler的诞生源于加州大...2011-03-15 09:11:51 · 125 阅读 · 0 评论 -
MapReduce:job在Job Tracker上的初始化
[size=medium] 这篇来说道说道job在到达Job Tracker后会有哪些动作,涉及上篇job生命周期的第五步和第六步。因为job在初始化后紧接着需要应付Job Tracker对Task Tracker的task分发响应,所以我们从Job Tracker的分发过程倒着来看job初始化。 Task Tracker在运行时会周期性地向Job Trac...2011-03-04 15:07:37 · 267 阅读 · 0 评论 -
扩展MapReduce架构的一种尝试
[size=medium] 假设有这样一个游戏,一个人来出加减乘除的题目给很多小朋友来做,对每一个小朋友,给他出一道题目,然后让他算好后给你报告答案,你再给他出一道题目,周而复始如此。如果有十个小朋友在算,还可以欣赏小朋友抓耳挠腮的样子;如果有一百个小朋友,每个人都在争着表现,叫嚷着让出题,这个人肯定不堪重负;如果有成千上万个小朋友呢?这个人疯了。 面对这样...2011-02-28 18:08:46 · 102 阅读 · 0 评论 -
MapReduce:计算Job运行时的CPU与内存平均利用率
[size=medium]Hadoop集群上运行有多道MapReduce Job,到底每个Job消费集群计算资源(CPU,内存)的情况如何,通常我们是不知道的。这节来探讨下如果想获得这些信息,应该怎样做。 每个Job在运行时是散布在TaskTracker上,由不同的JVM来执行。所以这个问题归根结底就是想获取每个运行task的JVM对资源的消费情况。对于这种获取分布式环境数据...2011-09-23 14:00:13 · 177 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议[译]
[size=medium] Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理...2011-02-22 15:28:30 · 2419 阅读 · 0 评论 -
MapReduce: JT默认task scheduling策略
[size=medium] 如果没有自己定制的调度策略,MapReduce就采用自带的JobQueue策略分发task。这种基于FIFO的策略挺简单,能满足基本的业务需求,但缺点也很明显,如不能实现job的实时性、所有TT的执行能力对用户共享等问题。当然这些只是按以往理解来概括,只有了解具体实现后,才能总结它的影响。本篇blog会从task 分发的流程入手,详细描...2011-02-19 16:30:14 · 139 阅读 · 0 评论 -
MapReduce: Job提交过程
[i]初学Hadoop,准备用几篇日志来陈述MapReduce job的生命周期中job提交、task分发和task执行,以及JT scheduling策略,job性能参考等方面的知识。通过代码及参考资料想了解job执行的大致细节,期望在以后job性能调优时有所依据。与细节相关的代码参考于Hadoop-0.21.0版本。[/i] [size=medium] ...2011-02-17 17:52:16 · 497 阅读 · 0 评论 -
MapReduce:Job性能调优总结
是时候把去年早期MapReduce调优工作的结果放出来了,丢在Google Doc里太长时间,都落了一身的灰 Benchmark: 对1G数据做wordcount 部分内容: ********************************* [b]硬件级别[/b] [color=orange]提高磁盘IO的性能[/color] noatime 我为两台slaves server...2012-01-11 13:41:19 · 171 阅读 · 0 评论 -
对Hadoop的SWOT分析
[size=medium] 在当前大数据研究与应用如火如荼的时代,Hadoop毅然成为业界的翘楚。我想本着客观的态度,从旁观者的角度分析当前Hadoop所面对的机遇与挑战。在我的认识中,SWOT分析还算全面,所以就选择这样的分析思路。当然,我分析Hadoop的初衷是我认同Hadoop所代表的方向,但不具体只是Hadoop这个产品。这个方向就是以Hadoop为代表的大数据的存储与分析平台。因此后面...2012-06-01 09:46:48 · 272 阅读 · 0 评论