监控集群
有的公司只用cdh但没用cm。此时可以自己写监控程序或者用JMX和Metrics sinks(Nagios、Ganglia)
hadoop有内置的指标功能,可以对外提供接口
提供的功能
健康检查
配置检查,扳手的标志,suspense的意思是忽略
图表
指标都存在mysql中,
定制图表
提供了特有的tsquery语法
Events事件
不一定是发生了错误,只是操作人员感兴趣的行为。
Alerts
Audits
reports
企业版才有,可以把报告下载,可以定制
磁盘使用
yarn任务
impala任务
example
配置email报警
监控集群
内容
hadoop daemons
监控master节点的cpu使用
磁盘和磁盘的分区
swap交换分区
网络传输
hdfs健康状况
日志
内容
yarn日志可以设置是否聚合,如果聚合,会存到hdfs,否则只存在本地。
故障诊断
不好推断,只能一个个排查
常见问题
由错误配置引起的
35%的错误由错误配置
example1
报错
分析
排序内存小于java内存,排序内存按需分配,不需要设置很大
example2,没有足够的副本,比如节点3个,因子设为了4
example3,删除了数据后回收站找不到
没启用回收站
保留时间太短