走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

NameNode热迁移方案

方案目标 将现有NameNode迁移到新的节点上,期间保证集群对外提供服务. 方案背景 随着集群数据量和规模的扩增,需要将NameNode迁移到性能更优的机器上,以此提高NameNode的请求处理效率. 传统方案: 冷迁移 具体步骤 传统方案的做法比较简单,主要步骤如下...

2016-08-18 19:14:27

阅读数:3473

评论数:4

HDFS异构存储

前言 Hadoop在2.6.0版本中引入了一个新特性异构存储.异构存储关键在于异构2个字.异构存储可以根据各个存储介质读写特性的不同发挥各自的优势.一个很适用的场景就是上篇文章提到的冷热数据的存储.针对冷数据,采用容量大的,读写性能不高的存储介质存储,比如最普通的Disk磁盘.而对于热数据而...

2016-04-11 19:29:36

阅读数:15773

评论数:12

Hadoop中止下线操作后大量剩余复制块的解决方案

前言如果说你是一名hadoop集群的日常维护者,那么你肯定经历过很多的节点上下线工作.例如,随着业务规模的高速扩张,集群的资源渐渐的不够使用的时候,一般正常的做法是通过增加机器来达到线性扩展的效果.当然,当这些机器在使用的过程中,出现了机器老化而引发的各自问题的时候,比如磁盘坏了,又比如某些机器网...

2016-01-24 15:36:10

阅读数:10342

评论数:0

记一次DataNode慢启动问题

前言最近一段时间,由于机房需要搬迁调整,我们hadoop集群所受到的影响机器无疑是数量最多的,如何能最优的使机器在从1个机房搬到另1个机房之后,对集群的数据和上面跑的业务造成尽可能小的影响或者说几乎没有影响.这就是我们想到达到的目标.但是在实施这整个搬迁的过程中,还是发现了一些比较有意思的现象的,...

2016-01-13 10:27:52

阅读数:5616

评论数:10

DataNode迁移方案

DataNode迁移方案目标由于外界因素的影响,需要将原有dn所在节点的机器从A机房换到B机房,其中会涉及到主机名和IP的改变.最终的目标是迁移之后对集群不造成大影响, 服务依然可用,数据不发生丢失.相关知识因为在dn迁移的时候,必定会导致迁移节点停止心跳,如果超过心跳检查超时时间,此节点就会被...

2016-01-08 17:44:44

阅读数:3411

评论数:0

YARN批处理方式kill Applications解决方案

前言在使用hadoop集群的时候,所有的任务都是最终以Application的形式跑在集群中,不管你是自己写的MR程序亦或是你写的hive sql转化成的mr任务,最终都是以Application应用的身份在跑.这些Application跑完之后,这些信息在jobHistory中就可以看了,可以说...

2016-01-05 09:08:14

阅读数:10937

评论数:0

JobHistory搜索智能化

前言做过hadoop集群问题排查工作的同学一定用过JobHistory,这是一个很好用的"利器",为什么这么说呢?正如这个工具的名称所叫的那样,这个工具能帮你找到历史Job跑过的信息,而信息的记录非常的详细,从Job到Task再到TaskAttempt.假如这时候,1个Job突...

2015-12-29 11:30:29

阅读数:3370

评论数:0

Hadoop节点"慢磁盘"监控

前言最近在工作中解决了一个慢磁盘的问题,个人感觉整个发现-分析-解决的过程还是非常有意思并且很有意义的.而且磁盘监控在目前的Hadoop中还是没有做的很全的,大多数都是对Datanode,可以说这是1个盲区.其实想一想,hadoop自身不做这方面的监控也合理,因为像这种问题基本上是属于硬件问题,本...

2015-12-06 16:44:06

阅读数:14145

评论数:6

NodeManagerMetrics上精确化Container指标监控

前言在准备开始写本篇文章之前,我一直在想应该给本篇文章定一个怎样的标题才能最精准的表达出主题而又不会让字数变得过多.因为Metric指标监控在YARN中早已经存在了,而且支持的指标非常多,所以本篇文章当然不会是简简单单介绍某几个指标监控的含义和如何添加自定义Metric指标监控这样的内容,关键点在...

2015-11-28 22:10:30

阅读数:3274

评论数:1

HDFS数据资源使用量分析以及趋势预测

前言Hadoop系统作为一个比较成熟的分布式系统,他被人们常常定义为一个存储海量数据的地方,与MySQL这里传统的RDBMS数据库有着明显的不同。Hadoop拥有着他天然的优势,他可以存储PB级别的数据,只要你的机器够多,我就可以存那么多,而且帮你考虑了副本备份这样的机制,只能说,Hadoop这一...

2015-11-09 08:41:40

阅读数:4815

评论数:4

Hadoop异常Task发现分析

前言Hadoop作为一个大型的分布式系统,当他的规模不断的扩大,扩增到一定程度的时候,所使用的业务方自热而然的也会变多,不同的业务方会提交各种各样类型的任务,有人提交hive的查询任务,有人会写MapReduce解析程序的job.于是这就慢慢产生了一个叫"多租户"的概念.多租户...

2015-10-25 22:09:26

阅读数:3256

评论数:3

Hadoop全链路监控解决方案

前言我在最近的几篇文章中都或多或少的提到了一个很重要的词-"监控".为什么要提到这个词呢,因为如果你和我一样是一名大数据工程师,你手下管理着批量的集群机器,并且同时这个集群的规模还会不定时的扩大,机器一旦变多,发生问题的频率和类型就会变多,所以这是,你靠人肉去分析某台机器上的日...

2015-10-18 23:10:32

阅读数:7887

评论数:4

自定义Hive Sql Job分析工具

前言我们都知道,在大数据领域,Hive的出现帮我降低了许多使用Hadoop书写方式的学习成本.使用用户可以使用类似Sql的语法规则写明查询语句,从hive表数据中查询目标数据.最为重要的是这些sql语句会最终转化为map reduce作业进行处理.这也是Hive最强大的地方.可以简单的理解为Hiv...

2015-10-12 22:00:19

阅读数:3537

评论数:2

YARN源码学习(七)-----Task级别GC相关指标的自定义counter添加

前言上篇文章讲述了如何从HDFS上拿到JobHistory的Job信息数据,当然如果能对这些数据进行二次分析的话,将会得到更加精准的分析结果.但是尽管说数据是有了,但毕竟是Hadoop系统内部记录的数据,如果我想知道更加细粒度的数据,比如说,我想知道1个Task的在从运行开始到结束的过程中的gc情...

2015-09-27 15:42:50

阅读数:2827

评论数:3

YARN源码学习(六)-----JobHistory中的job信息获取与分析

前言继续延续上一篇文章的主题,2个字,监控,分布式系统要想做到足够大,足够强,足够稳定,首先需要做好的就是其中的监控.现在开源的分布式系统很多,YARN就是其中一种,比较值得庆幸的一点是,Yarn已经在Ganglia做了很多指标的监控分析.比如namenode rpc请求数,datanode写入字...

2015-09-24 23:25:40

阅读数:7177

评论数:0

YARN源码学习(五)-----NN,DN,RM在Ganglia上的监控实现机理

前言任何分布式系统在不断演变的过程中,必然都会经过有小变到大的过程,中间也必定会由不稳定到逐步稳定的过程.在所有的这些系统能够稳定运行的一个前提是,完整的监控和报警系统.这个模块是系统保持稳定最最基础的模块服务.只有在这块功能完善的情况下,才会让系统的维护者更高效的定位到问题所在,减少不必要的时间...

2015-09-20 22:26:25

阅读数:2996

评论数:0

大规模集群自动化部署工具--Chef的安装部署

Chef脚本管理工具部署部署节点 节点类型 IP(虚拟假设的IP) Server 192.168.10.191 Workstation 192.168.10.36 Node 192.168.10.35 安装的版本 Chef-Server:chef-server-11....

2015-07-18 21:19:45

阅读数:5000

评论数:0

提示
确定要删除当前文章?
取消 删除