yarn
文章平均质量分 77
快乐程序员
从事hadoop/hbase/hive/impala运维和研究
展开
-
hadoop-2.0.2-alpha(yarn)集群搭建
1、机器IP及root用户 10.28.168.157root/cdyjs 10.28.168.158 root/cdyjs 10.28.168.159 root/cdyjshosts: 10.28.168.157 nn nn.360buy.com n1 10.28.168.158 slave1 salve1.360buy.com n原创 2013-01-10 09:40:47 · 3144 阅读 · 5 评论 -
mapreduce作业reduce被大量kill掉
之前有一段时间,我们的hadoop2.4集群压力非常大,导致提交的job出现大量的reduce被kill掉,相同的job运行时间比在hadoop0.20.203上面长了很多,这个问题其实是reduce 任务启动时机的问题,由于yarn中没有map slot和reduce slot的概念,且ResourceManager也不知道map task和reduce task之间的依赖关系,因此MRAppMaster自己需要设计资源申请策略以防止因reduce task过早启动照成资源利用率低下和map task因分原创 2014-12-15 23:22:17 · 6032 阅读 · 0 评论 -
Yarn中的几种状态机
1 概述 为了增大并发性,Yarn采用事件驱动的并发模型,将各种处理逻辑抽象成事件和调度器,将事件的处理过程用状态机表示。什么是状态机? 如果一个对象,其构成为若干个状态,以及触发这些状态发生相互转移的事件,那么此对象称之为状态机。 处理请求作为某种事件发送到系统中,由一个中央调度器传递给对应的事件调度器,进而对事件进行处理,处理完成之后再次发送给中央调度转载 2014-11-04 22:22:10 · 1941 阅读 · 0 评论 -
Yarn简单介绍及内存配置
在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是与其最初的设计有关,如下图:从上图可以看到,MRv1是围绕着MapReduce进行,并没有过多地考虑以后出现的转载 2014-10-14 18:40:11 · 1256 阅读 · 0 评论 -
yarn状态机可视化
YARN中实现了多个状态机对象,包括ResourceManager中的RMAppImpl、RMApp-AttemptImpl、RMContainerImpl和RMNodeImpl,NodeManager中的ApplicationImpl、ContainerImpl和LocalizedResource,MRAppMaster中的JobImpl、TaskImpl和TaskAttemptImpl等。为了原创 2014-10-09 15:51:20 · 2966 阅读 · 0 评论 -
下一代的APACHE HADOOP MAPREDUCE : YARN
本文翻译自:http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/原文地址:http://www.rigongyizu.com/the-next-generation-of-apache-hadoop-mapreduce/概述在大数据商业领域,运行少而大的集群比运行很多小的集群成本更低转载 2014-02-18 14:24:57 · 1421 阅读 · 0 评论 -
HADOOP 2.0 YARN应用程序的执行流程和开发
在yarn的官方文档上有一篇很经典的Hadoop MapReduce Next Generation – Writing YARN Applications,讲述了如果编写基于hadoop 2.0 yarn的应用程序(中文翻译版)。本文主要讲述yarn程序的执行流程和如何进行开发的一点想法。原文地址:http://www.rigongyizu.com/how-to-write-hado转载 2014-02-18 12:50:22 · 3885 阅读 · 0 评论 -
下一代的HADOOP MAPREDUCE – 如何编写YARN应用程序
本文翻译自hadoop官方文档:Hadoop MapReduce Next Generation – Writing YARN Applications原文地址:http://www.rigongyizu.com/hadoop-mapreduce-next-generation-writing-yarn-applications/目的本文在一个比较高的层面上描述了如何在转载 2014-02-18 10:11:37 · 1564 阅读 · 0 评论 -
YARN ResourceManager调度器的分析
YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置建议和参数解释。本文分析基于CDH4.2.1。调度器这个部分目前还在快速变化之中。例如,CPU资源分配等特性在不就的将来就会加入。为了方便查阅源代码,原代码位置使用[类名:行号]方式表示。名词解释:ResourceManage转载 2013-11-06 13:48:26 · 2739 阅读 · 0 评论 -
hadoop2.0(YARN) ResourceManager failover机制
YARN RM failover机制RM(ResourceManager)每次在启动之前都会进行初始化并执行一次recovery操作,然后才启动RM,对外提供服务。 RM启动流程如下图:RM启动流程图RM中的各种服务包括:(1)、ContainerAllocationExpirer:监控Containter是否到期。(2)、AmLivelinessMonitor:监控A原创 2013-01-10 09:36:52 · 2318 阅读 · 0 评论 -
impala0.7与hive(分别基于MR1和MR2)的测试性能对比
硬件配置:节点Iposcpu内存磁盘Jn-4810.31.72.48RH5.7E5620*2 16核24GSSD40G*2+2T*12master-4110.31.72.41RH5.8原创 2013-04-25 17:04:49 · 2035 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解【转载】
原文见:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/转载 2013-03-25 15:51:18 · 1197 阅读 · 0 评论 -
Yarn shuffle OOM错误分析及解决
前两周和同事一起分析了一下yarn shuffle oom的问题,最后他写了一个blog,我这里就不重复写了,把他的转载过来,他的blog写得都很有深度,推荐大家去看看。原文地址:http://dj1211.com/?p=358最近集群中一些任务经常在reduce端跑出Shuffle OOM的错误,具体错误如下:2015-03-09 16:19:13,646 W转载 2015-03-19 13:27:08 · 3675 阅读 · 1 评论