- 博客(4)
- 收藏
- 关注
原创 JobHistory搜索智能化
前言做过hadoop集群问题排查工作的同学一定用过JobHistory,这是一个很好用的"利器",为什么这么说呢?正如这个工具的名称所叫的那样,这个工具能帮你找到历史Job跑过的信息,而信息的记录非常的详细,从Job到Task再到TaskAttempt.假如这时候,1个Job突然执行失败了,你想查明原因,在JobHistory的web界面上依次点击详情链接,基本上都可以找到原因.但是看似非常完美的
2015-12-29 11:30:29 4050
原创 Hadoop Ls命令增加显示条数限制参数
前言在hadoop的FsShell命令中,估计很多人比较常用的就是hadoop fs -ls,-lsr,-cat等等这样的与Linux系统中几乎一致的文件系统相关的命令.但是仔细想想,这里还是有一些些的不同的.首先,从规模的本身来看,单机版的文件系统,文件数目少,内容不多,而HDFS则是一个分布式系统,里面能容纳巨大数量的文件目录.因此在这个前提之下,你如果随意执行ls或lsr命令,有的时候会得到
2015-12-22 22:06:44 6514 4
原创 从Container内存监控限制到CPU使用率限制方案
前言最近在运维我们部门的hadoop集群时,发现了很多Job OOM的现象,因为在机器上可以用命令进行查看,full gc比较严重.我们都知道,full gc带来的后果是比较大的,会"stop the world"的,一旦你的full gc elapsed time超过几分钟,那么其他的活动都得暂停这么多时间.所以Full gc一旦出现并且异常,一定要找到根源并将其解决.本篇文章就为大家讲述一下我
2015-12-13 15:58:51 399625
原创 Hadoop节点"慢磁盘"监控
前言最近在工作中解决了一个慢磁盘的问题,个人感觉整个发现-分析-解决的过程还是非常有意思并且很有意义的.而且磁盘监控在目前的Hadoop中还是没有做的很全的,大多数都是对Datanode,可以说这是1个盲区.其实想一想,hadoop自身不做这方面的监控也合理,因为像这种问题基本上是属于硬件问题,本不应该在软件层面对其进行监控,没有这么大的必要.但是后来我们想了想,如果通过软件层面的监控手段发现机器
2015-12-06 16:44:06 16772 8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人