前言:一定要配合日志分析
一定要配合日志分析
一定要配合日志分析
日志目录贴上:
1,/var/log/组件名 组件日志
2,/var/log/ambari-agent.log ambari-agent日志
3,还有ambari管理页面上的启动日志一起配合分析问题
问题1:Hbase的regionserver在ambari上启动后,过一会儿会显示已经挂掉,实际登录机器进程还在。
原因:因为ambari-agent监控读取的是/var/run/hbase-hbase-node.pid文件(node是机器hostname)监控进程存活情况,
排查思路“ambari-agent启动时,会以hbase的身份去启动该进程,所以首先看/var/run/的pid文件是否是名为hbase-hbase-node.pid。如果是,那一般就非PID的问题。如果发现是hbase-root-node.pid,那么需要去检查环境变量的配置文件。是否有奖USER=XXX,非hbase都是不行的。
先 su - hbase,然后echo $USER,不是hbase那么这个进程可以说监控不到。
问题2:HBASE的regionserver启动了,然后挂掉,且pid文件也是正常的用户执行的。
原因:日志里面也无法看到关键信息,所以也是玄学
处理方法:chmod 777 -R 权限给予/usr/hdp/2.xxx即可
问题3:livy for spark2 server启动异常
原因:是因为limit限制导致了livy启动失败
处理方式:根据日志grep -i error,如果看到其中确实有out of memory之类的报错,那么就可以通过修改文件句柄数和进程数来解决。配置文件未/etc/security.limits.conf。
* soft nofile 65565
* hard nofile 65535
* soft noproc unlimited
* hard noproc unlimited
以上均为实际经验,其他情况都看日志,基本都能解决