概述
说明下,qichu这里是由于集群资源有限,在最初配置如下:
Master 172.20.10.100
Slave1 172.20.10.10
Slave2 172.20.10.20
问题描述
如下图所示,该主机与 Cloudera Manager Server 失去联系的时间过长。 该主机未与 Host Monitor 建立联系。
解决方法
要解决此问题,请确保以下的配置或设置正确:
-
问题节点所在的机器已经启动
-
问题节点上的代理Agent已经启动,即
service cloudera-scm-agent status
显示active(running)
-
问题节点与主机节点上的
/etc/hosts
配置文件中,ip
与hostname
是正确对应的。 -
如果使用的是mysql保存源数据,那么确保当前数据库端口启动(日志中有提到过9000端口无法访问),使用
netstat -an | grep 9000
查看是否启动
-
cm_uuid
不匹配问题,查看日志如下图:
在每个节点上,/var/lib/cloudera-scm-agent
这个目录是自动生成的,里面的cm_guid是ClouderaManager的guid:
所以如果重复添加主机,那就需要
5.1 先删除此节点上的cm_guid:即在问题节点上执行sudo rm /var/lib/cloudera-scm-agent/cm_guid
5.2 将此问题主机先从Clouera Manager中移除
5.3 然后再在集群中添加此问题主机:
可以发现不再出现报错: