问题描述:
修改静态资源池配置的时候,重启整个CM之后,突然发现一个YARN中的NodeManager重启失败,问题NodeManager服务不能重启也不能停止。通过链接(http://hadoopip:8088/cluster/nodes)发现问题节点资源配置还是以前的配置。
感觉是CDH的BUG,后期集群出现某个节点的DataNode 显示繁忙,重启繁忙节点的DataNode失败,如下报错
Cannot resart service when DataNode (hadoopap025) is in BUSY state.
后来也是通过修改数据库的roles表后重启。
解决方案:
具体原因未知,感觉这个属于CDH的一个bug,如下是解决方案:在元数据库把有问题的数据状态更新,更新后重启问题节点即可。
1、重启有问题的agent,
systemctl restart cloudera-scm-agent
2、在元数据库的CM用户下查询roles表,查找role_type不是RUNNING的那条数据,更新这条数据为RUNNING
select * from roles t where t.role_type = 'NODEMANAGER';
update roles t
set t.configured_status = 'RUNNING'
where t.role_type = 'NODEMANAGER'
and t.configured_status = 'STARTING'
3、回到CM界面重启有问题的NodeManager即可。