走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

YARN Container的NUMA感知支持

前言

2018-09-16 23:31:54

阅读数:143

评论数:0

YARN的约束化标签支持

前言 在比较早期的时候,YARN就已经实现了具有分片功能的node label功能,以此确保应用资源的使用隔离。我们可以理解为这种标签是单一维度的,假设我们有多维度标签使用的需求时,这种node label就不是那么好用了。当然,你可以说,我们可以构建多个标签,一个节点同时赋予多个维度标签,...

2018-09-12 22:57:44

阅读数:145

评论数:1

YARN基于IO资源的隔离调度

前言 众所周知,目前YARN所支持的资源类型主要有2两大类:内存和CPU.但是其实对于操作系统层面,还有一个重要的资源是没有被YARN考虑在内的,就是IO资源,这里的IO资源你可以理解为比如说存储空间的容量,但是它其实也可以有其它的含义。目前YARN这种不考虑IO资源状况的调度方式,会造成有...

2018-08-28 13:30:31

阅读数:320

评论数:0

Yarn支持队列内多优先级应用调度

前言 在上篇文章中,笔者刚刚阐述过Yarn队列的多优先级调度策略,不同的队列分配不同的优先级等级,这样提交到优先级高的队列上的应用能被优先被处理。但是又一个问题来了,如果我们又想在同一个队列内,对应用的优先级再次进行划分呢?而不是按照纯粹提交时间来进行先后顺序调度。答案是可行的,本文笔者来简...

2018-08-23 00:22:15

阅读数:180

评论数:0

基于Hadoop YARN之上的PaaS构想

前言 在Hadoop YARN发展早期,社区曾经讨论过在YARN之上提供Paas服务。当时业界已经有很多企业提供付费模式的Paas服务,作为当时已经被大量使用在公司企业内部的Hadoop系统,自然我们可以提出这样一个大胆的想法;为什么不可以在YARN之上构建Paas云服务呢?不过遗憾的是,这...

2018-08-19 10:49:07

阅读数:249

评论数:0

YARN批处理方式kill Applications解决方案

前言在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑.这些Application跑完之后,这些信息在jobHistory中就可以看了,可以说...

2016-01-05 09:08:14

阅读数:10936

评论数:0

Hadoop节点"慢磁盘"监控

前言最近在工作中解决了一个慢磁盘的问题,个人感觉整个发现-分析-解决的过程还是非常有意思并且很有意义的.而且磁盘监控在目前的Hadoop中还是没有做的很全的,大多数都是对Datanode,可以说这是1个盲区.其实想一想,hadoop自身不做这方面的监控也合理,因为像这种问题基本上是属于硬件问题,本...

2015-12-06 16:44:06

阅读数:14145

评论数:6

NodeManagerMetrics上精确化Container指标监控

前言在准备开始写本篇文章之前,我一直在想应该给本篇文章定一个怎样的标题才能最精准的表达出主题而又不会让字数变得过多.因为Metric指标监控在YARN中早已经存在了,而且支持的指标非常多,所以本篇文章当然不会是简简单单介绍某几个指标监控的含义和如何添加自定义Metric指标监控这样的内容,关键点在...

2015-11-28 22:10:30

阅读数:3274

评论数:1

Hadoop动态调整Map Task内存资源大小

前言我们都知道,在Hadoop中,一个Job的执行需要转化成1个个的Task去执行,在Task中,有会有2个类型,一个为Map Task,另一个就是Reduce Task.当然,这不是最底层的级别,在Task内部,还可以再分为TaskAttempt,叫做任务尝试,任务尝试姑且不在本篇文章的论述范围...

2015-11-23 23:08:20

阅读数:5897

评论数:3

HDFS数据资源使用量分析以及趋势预测

前言Hadoop系统作为一个比较成熟的分布式系统,他被人们常常定义为一个存储海量数据的地方,与MySQL这里传统的RDBMS数据库有着明显的不同。Hadoop拥有着他天然的优势,他可以存储PB级别的数据,只要你的机器够多,我就可以存那么多,而且帮你考虑了副本备份这样的机制,只能说,Hadoop这一...

2015-11-09 08:41:40

阅读数:4815

评论数:4

Hadoop全链路监控解决方案

前言我在最近的几篇文章中都或多或少的提到了一个很重要的词-"监控".为什么要提到这个词呢,因为如果你和我一样是一名大数据工程师,你手下管理着批量的集群机器,并且同时这个集群的规模还会不定时的扩大,机器一旦变多,发生问题的频率和类型就会变多,所以这是,你靠人肉去分析某台机器上的日...

2015-10-18 23:10:32

阅读数:7887

评论数:4

自定义Hive Sql Job分析工具

前言我们都知道,在大数据领域,Hive的出现帮我降低了许多使用Hadoop书写方式的学习成本.使用用户可以使用类似Sql的语法规则写明查询语句,从hive表数据中查询目标数据.最为重要的是这些sql语句会最终转化为map reduce作业进行处理.这也是Hive最强大的地方.可以简单的理解为Hiv...

2015-10-12 22:00:19

阅读数:3536

评论数:2

YARN源码分析(八)-----Reduce Shuffle过程分析

前言在Hadoop Job的各个运行过程中,Shuffle阶段一直是一个比较神秘的过程.因为Shuffle阶段是隶属于Reduce过程的子过程,所以很多时候会被人所忽略.

2015-10-04 14:33:26

阅读数:3975

评论数:0

YARN源码学习(七)-----Task级别GC相关指标的自定义counter添加

前言上篇文章讲述了如何从HDFS上拿到JobHistory的Job信息数据,当然如果能对这些数据进行二次分析的话,将会得到更加精准的分析结果.但是尽管说数据是有了,但毕竟是Hadoop系统内部记录的数据,如果我想知道更加细粒度的数据,比如说,我想知道1个Task的在从运行开始到结束的过程中的gc情...

2015-09-27 15:42:50

阅读数:2827

评论数:3

YARN源码学习(六)-----JobHistory中的job信息获取与分析

前言继续延续上一篇文章的主题,2个字,监控,分布式系统要想做到足够大,足够强,足够稳定,首先需要做好的就是其中的监控.现在开源的分布式系统很多,YARN就是其中一种,比较值得庆幸的一点是,Yarn已经在Ganglia做了很多指标的监控分析.比如namenode rpc请求数,datanode写入字...

2015-09-24 23:25:40

阅读数:7175

评论数:0

YARN源码学习(五)-----NN,DN,RM在Ganglia上的监控实现机理

前言任何分布式系统在不断演变的过程中,必然都会经过有小变到大的过程,中间也必定会由不稳定到逐步稳定的过程.在所有的这些系统能够稳定运行的一个前提是,完整的监控和报警系统.这个模块是系统保持稳定最最基础的模块服务.只有在这块功能完善的情况下,才会让系统的维护者更高效的定位到问题所在,减少不必要的时间...

2015-09-20 22:26:25

阅读数:2996

评论数:0

YARN源码分析(四)-----Journalnode

前言最近在排查公司Hadoop集群性能问题时,发现Hadoop集群整体处理速度非常缓慢,平时只需要跑几十分钟的任务时间一下子上张到了个把小时,起初怀疑是网络原因,后来证明的确是有一部分这块的原因,但是过了没几天,问题又重现了,这次就比较难定位问题了,后来分析hdfs请求日志和Ganglia的各项监...

2015-09-13 15:12:37

阅读数:12971

评论数:4

YARN源码分析(三)-----ResourceManager HA之应用状态存储与恢复

前言任何系统即使做的再大,都会有可能出现各种各样的突发状况。尽管你可以说我在软件层面上已经做到所有情况的意外处理了,但是万一硬件出问题了或者说物理层面上出了问题,恐怕就不是多写几行代码能够立刻解决的吧,说了这么多,无非就是想强调HA,系统高可用性的重要性。在YARN中,NameNode的HA方式估...

2015-09-05 15:03:57

阅读数:3793

评论数:0

YARN源码分析(二)-----ResourceManager中的NM节点管理

前言继上一篇文章讲述完ApplicationMaster的相关用法,核心主题都是围绕着2个字"应用",当然在RM中还有另外一项比较重要的服务也很重要,他就是节点管理服务,在RM中是如何维系管理多个节点,对于应用管理的话,在RM中已经有了ApplicationMasterServ...

2015-09-02 22:10:09

阅读数:3540

评论数:0

YARN源码分析(一)-----ApplicationMaster

前言在之前两周主要学了HDFS中的一些模块知识,其中的许多都或多或少有我们借鉴学习的地方,现在将目光转向另外一个块,被誉为MRv2,就是yarn,在Yarn中,解决了MR中JobTracker单点的问题,将此拆分成了ResourceManager和NodeManager这样的结构,在每个节点上,还...

2015-08-31 23:10:49

阅读数:9807

评论数:1

提示
确定要删除当前文章?
取消 删除