YARN
文章平均质量分 89
Android路上的人
开源社区爱好者, Apache Hadoop PMC & Apache Ozone PMC, 专注于分布式存储领域, 大数据方面的研究
展开
-
聊聊关于YARN的全局调度
文章目录前言带有约束限制的调度全局调度的要求全局调度的流程前言在YARN调度的早期实现中,调度的方式是基于NM节点的心跳来的。简单来说,就是每当一次节点的心跳来的时候,YARN scheduler会进行一次container分配尝试,然后将最适合分配的应用container分配在此节点上。这种一个节点一次的调度方式在决策选择上确实比较高效,但在某些场景上并不显得最优,比如带有约束条件的cont...原创 2019-12-01 12:56:29 · 1353 阅读 · 0 评论 -
YARN批处理方式kill Applications解决方案
前言在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑.这些Application跑完之后,这些信息在jobHistory中就可以看了,可以说hadoop在这方面做得真的非常完整.但是完善归完善.但是jobHistory可以说是一种"事后分析"原创 2016-01-05 09:08:14 · 19123 阅读 · 0 评论 -
Hadoop节点"慢磁盘"监控
前言最近在工作中解决了一个慢磁盘的问题,个人感觉整个发现-分析-解决的过程还是非常有意思并且很有意义的.而且磁盘监控在目前的Hadoop中还是没有做的很全的,大多数都是对Datanode,可以说这是1个盲区.其实想一想,hadoop自身不做这方面的监控也合理,因为像这种问题基本上是属于硬件问题,本不应该在软件层面对其进行监控,没有这么大的必要.但是后来我们想了想,如果通过软件层面的监控手段发现机器原创 2015-12-06 16:44:06 · 16773 阅读 · 8 评论 -
基于Hadoop YARN之上的PaaS构想
前言在Hadoop YARN发展早期,社区曾经讨论过在YARN之上提供Paas服务。当时业界已经有很多企业提供付费模式的Paas服务,作为当时已经被大量使用在公司企业内部的Hadoop系统,自然我们可以提出这样一个大胆的想法;为什么不可以在YARN之上构建Paas云服务呢?不过遗憾的是,这个建议最终没有被实现,停留在了当年的讨论中。但是这并不妨碍我们去了解它的一个设计思路,以及构想。...原创 2018-08-19 10:49:07 · 1150 阅读 · 0 评论 -
Yarn支持队列内多优先级应用调度
前言在上篇文章中,笔者刚刚阐述过Yarn队列的多优先级调度策略,不同的队列分配不同的优先级等级,这样提交到优先级高的队列上的应用能被优先被处理。但是又一个问题来了,如果我们又想在同一个队列内,对应用的优先级再次进行划分呢?而不是按照纯粹提交时间来进行先后顺序调度。答案是可行的,本文笔者来简单聊聊这个话题,也刚刚好是延续着上一篇的话题内容。问题描述一个根本的问题: 如...原创 2018-08-23 00:22:15 · 2110 阅读 · 1 评论 -
YARN基于IO资源的隔离调度
前言众所周知,目前YARN所支持的资源类型主要有2两大类:内存和CPU.但是其实对于操作系统层面,还有一个重要的资源是没有被YARN考虑在内的,就是IO资源,这里的IO资源你可以理解为比如说存储空间的容量,但是它其实也可以有其它的含义。目前YARN这种不考虑IO资源状况的调度方式,会造成有些container会消耗大量的IO资源,尽管可能他们只用了一点点的,内存和CPU资源。所以把IO资源...原创 2018-08-28 13:30:31 · 2141 阅读 · 0 评论 -
YARN Container的NUMA感知支持
前言原创 2018-09-16 23:31:54 · 2216 阅读 · 0 评论 -
YARN的约束化标签支持
前言在比较早期的时候,YARN就已经实现了具有分片功能的node label功能,以此确保应用资源的使用隔离。我们可以理解为这种标签是单一维度的,假设我们有多维度标签使用的需求时,这种node label就不是那么好用了。当然,你可以说,我们可以构建多个标签,一个节点同时赋予多个维度标签,但是其实这同样不会那么好操作。今天笔者要阐述的就是YARN node label特性的升级版特性:Co...原创 2018-09-12 22:57:44 · 913 阅读 · 1 评论 -
YARN的Log Aggregation原理
文章目录前言Log Aggregation日志的汇聚日志的retain策略Log Aggregation的查询Log Aggregation流程图前言在大数据的时代,我们想从数据中去分析提炼出有价值的东西,背后有时是成百上千个任务的运算结果。在一些比较大的数据平台的规模下,出一份第二天的详尽的数据报表信息,需要前一天跑上数十万级别的任务数。更直接地来说,我们的计算平台单日内需要调度并执行完这...原创 2019-05-11 21:50:40 · 3148 阅读 · 0 评论 -
YARN的共享存储服务
文章目录前言YARN的共享存储服务的起源YARN的共享存储服务架构共享存储服务的组件构成共享存储服务的流程后续改进工作参考文献前言在YARN上运行的任务,在任务正式开始运行之前,需要有一步资源的localization的过程,然后用户的任务才能顺利地跑起来。这个”资源“可以是用户依赖的库文件等任务运行所需要的文件。这些资源文件被YARN中此任务对应的Container所共享,这些Contai...原创 2019-05-29 00:25:33 · 1130 阅读 · 0 评论 -
YARN Federation的架构设计
文章目录前言前言对于HDFS的扩展性问题来说,很多人或许都了解过HDFS federation的方案,一种通过横向扩展命名空间的做法来延展其扩展性。其实,随着集群规模的扩张,不仅仅存储系统会有性能瓶颈问题,计算系统也会存在这样的问题,比如说YARN的ResourceManager(下面简写为RM)服务。当RM下面管理这上千甚至上万个NodeManager节点时,同样会面临着许多性能问题,大量...原创 2019-06-20 23:39:35 · 3583 阅读 · 2 评论 -
NodeManagerMetrics上精确化Container指标监控
前言在准备开始写本篇文章之前,我一直在想应该给本篇文章定一个怎样的标题才能最精准的表达出主题而又不会让字数变得过多.因为Metric指标监控在YARN中早已经存在了,而且支持的指标非常多,所以本篇文章当然不会是简简单单介绍某几个指标监控的含义和如何添加自定义Metric指标监控这样的内容,关键点在于2个字,精化.精化的潜在意思有2个,1个是在原有监控的指标的基础上,增加更细粒度的监控,去改善原有监原创 2015-11-28 22:10:30 · 4174 阅读 · 1 评论 -
Hadoop动态调整Map Task内存资源大小
前言我们都知道,在Hadoop中,一个Job的执行需要转化成1个个的Task去执行,在Task中,有会有2个类型,一个为Map Task,另一个就是Reduce Task.当然,这不是最底层的级别,在Task内部,还可以再分为TaskAttempt,叫做任务尝试,任务尝试姑且不在本篇文章的论述范围内.OK,针对每个Task,他当然会有他的资源使用量,广义的来讲,资源分为2个概念,1个是Memory原创 2015-11-23 23:08:20 · 8045 阅读 · 3 评论 -
YARN源码分析(二)-----ResourceManager中的NM节点管理
前言继上一篇文章讲述完ApplicationMaster的相关用法,核心主题都是围绕着2个字"应用",当然在RM中还有另外一项比较重要的服务也很重要,他就是节点管理服务,在RM中是如何维系管理多个节点,对于应用管理的话,在RM中已经有了ApplicationMasterService这个服务对象了,那么对应于节点NodeManager来说,难道叫做NodeManagerService吗,听起来非常原创 2015-09-02 22:10:09 · 4811 阅读 · 0 评论 -
YARN源码分析(三)-----ResourceManager HA之应用状态存储与恢复
前言任何系统即使做的再大,都会有可能出现各种各样的突发状况。尽管你可以说我在软件层面上已经做到所有情况的意外处理了,但是万一硬件出问题了或者说物理层面上出了问题,恐怕就不是多写几行代码能够立刻解决的吧,说了这么多,无非就是想强调HA,系统高可用性的重要性。在YARN中,NameNode的HA方式估计很多人都已经了解了,那本篇文章就来为大家梳理梳理RM资源管理器HA方面的知识,并不是指简单的RM的H原创 2015-09-05 15:03:57 · 5642 阅读 · 0 评论 -
YARN源码学习(六)-----JobHistory中的job信息获取与分析
前言继续延续上一篇文章的主题,2个字,监控,分布式系统要想做到足够大,足够强,足够稳定,首先需要做好的就是其中的监控.现在开源的分布式系统很多,YARN就是其中一种,比较值得庆幸的一点是,Yarn已经在Ganglia做了很多指标的监控分析.比如namenode rpc请求数,datanode写入字节数,读字节数,jvm相关的gc次数等等.但是看似这些指标非常的完美,其实不然,为什么这么说呢,因为粒原创 2015-09-24 23:25:40 · 10325 阅读 · 0 评论 -
YARN源码学习(七)-----Task级别GC相关指标的自定义counter添加
前言上篇文章讲述了如何从HDFS上拿到JobHistory的Job信息数据,当然如果能对这些数据进行二次分析的话,将会得到更加精准的分析结果.但是尽管说数据是有了,但毕竟是Hadoop系统内部记录的数据,如果我想知道更加细粒度的数据,比如说,我想知道1个Task的在从运行开始到结束的过程中的gc情况,包括gc总次数,young gc,full gc次数,尤其是full gc的次数,会直观的反映t原创 2015-09-27 15:42:50 · 4488 阅读 · 3 评论 -
YARN源码分析(四)-----Journalnode
前言最近在排查公司Hadoop集群性能问题时,发现Hadoop集群整体处理速度非常缓慢,平时只需要跑几十分钟的任务时间一下子上张到了个把小时,起初怀疑是网络原因,后来证明的确是有一部分这块的原因,但是过了没几天,问题又重现了,这次就比较难定位问题了,后来分析hdfs请求日志和Ganglia的各项监控指标,发现namenode的挤压请求数持续比较大,说明namenode处理速度异常,然后进而分析出是原创 2015-09-13 15:12:37 · 16498 阅读 · 4 评论 -
Hadoop全链路监控解决方案
前言我在最近的几篇文章中都或多或少的提到了一个很重要的词-"监控".为什么要提到这个词呢,因为如果你和我一样是一名大数据工程师,你手下管理着批量的集群机器,并且同时这个集群的规模还会不定时的扩大,机器一旦变多,发生问题的频率和类型就会变多,所以这是,你靠人肉去分析某台机器上的日志,OK,1台机器,2台机器,尚且可以解决办法,但是100台,1000台呢,当然如果工程师还这么做的话,我想他会抓狂的.所原创 2015-10-18 23:10:32 · 9524 阅读 · 4 评论 -
YARN源码分析(八)-----Reduce Shuffle过程分析
前言在Hadoop Job的各个运行过程中,Shuffle阶段一直是一个比较神秘的过程.因为Shuffle阶段是隶属于Reduce过程的子过程,所以很多时候会被人所忽略.原创 2015-10-04 14:33:26 · 4955 阅读 · 0 评论 -
HDFS数据资源使用量分析以及趋势预测
前言Hadoop系统作为一个比较成熟的分布式系统,他被人们常常定义为一个存储海量数据的地方,与MySQL这里传统的RDBMS数据库有着明显的不同。Hadoop拥有着他天然的优势,他可以存储PB级别的数据,只要你的机器够多,我就可以存那么多,而且帮你考虑了副本备份这样的机制,只能说,Hadoop这一整套体系真的很完善。说到Hadoop的海量数据存储量,每一天的数据增量可以基本达到TB级别,对于一个类原创 2015-11-09 08:41:40 · 6739 阅读 · 3 评论 -
YARN源码学习(五)-----NN,DN,RM在Ganglia上的监控实现机理
前言任何分布式系统在不断演变的过程中,必然都会经过有小变到大的过程,中间也必定会由不稳定到逐步稳定的过程.在所有的这些系统能够稳定运行的一个前提是,完整的监控和报警系统.这个模块是系统保持稳定最最基础的模块服务.只有在这块功能完善的情况下,才会让系统的维护者更高效的定位到问题所在,减少不必要的时间消耗,才会有更多的时间去做其他方面的一些优化.今天我所主要描述的就是对于Hadoop的强大监控工具Ga原创 2015-09-20 22:26:25 · 3865 阅读 · 0 评论 -
自定义Hive Sql Job分析工具
前言我们都知道,在大数据领域,Hive的出现帮我降低了许多使用Hadoop书写方式的学习成本.使用用户可以使用类似Sql的语法规则写明查询语句,从hive表数据中查询目标数据.最为重要的是这些sql语句会最终转化为map reduce作业进行处理.这也是Hive最强大的地方.可以简单的理解为Hive就是依托在Hadoop上的1个壳.但是这里有一点点小小的不同,不是每段hive查询sql语句与最后生原创 2015-10-12 22:00:19 · 5015 阅读 · 2 评论 -
YARN源码分析(一)-----ApplicationMaster
前言在之前两周主要学了HDFS中的一些模块知识,其中的许多都或多或少有我们借鉴学习的地方,现在将目光转向另外一个块,被誉为MRv2,就是yarn,在Yarn中,解决了MR中JobTracker单点的问题,将此拆分成了ResourceManager和NodeManager这样的结构,在每个节点上,还会有ApplicationMaster来管理应用程序的整个生命周期,的确在Yarn中,多了许多优秀的设原创 2015-08-31 23:10:49 · 14011 阅读 · 2 评论