cloudera manager给开发人员节省了维护成本,但是一旦cm节点不能启动,将导致集群组件无法管理。
问题描述:
服务器重启后cm节点未能正常启动,在排查问题过程中误删除uuid文件。该文件在cm-5.3.6/lib/cloudera-scm-agent目录下。
解决步骤:
- agent无法启动,由于对7180、7182混淆,以为端口配置错误,修改后出现闪退,原因是修改配置文件写错,cm-5.3.6/etc/cloudera-scm-agent/config.ini文件[General],少了右侧] 。修改后agent正常启动。
- 在cm管理界面中,无法接受到agent的检测信号。
出问题时,在原安装的集群中,看不到当前主机,查看所有主机时,发现当前主机作为一个新主机。而不属于当前集群。即当时上图中集群字段为空。 - 当前问题就是怎样让主机回到原来的集群。查找cm安装时的数据库,在HOSTS表中,存储了cm管理的所有主机。会看到当前主机被作为新主机添加,生成了不同的uuid。这样问题就好办了。在数据库中拿到原有的uuid放到uuid文件中。重启服务,解决问题。
弯路:
当找不到主机时,第一反应是要重装服务,但是面临的风险是巨大的,hdfs数据可能丢失。