之前在测试集群在折腾Cloudera Manager,有一次误把cloudera-scm-agent给删了。原因是卸载httpd的时候,没有发现cloudera-scm-agent依赖http服务,卸载的时候连同cloudera-scm-agent一起给删了。那次我重新安装了cloudera-manager-agent,反复折腾,CM就是无法发现这台主机。无奈之下,由于是测试集群,我就重装了一遍Cloudera Manager。
仔细一想,分布式集群,挂了一台从节点,按道理从节点恢复后,根据IP或者主机名,从节点应该能连接上主结点的,不可能需要重装。难道出在连接IP或者主机名的过程中。
后来仔细看了这个节点的cloudera-scm-agent.log日志,发现原来真是IP的问题
[13/Sep/2020 05:01:33 +0800] 22503 MainThread agent ERROR Heartbeating to localhost:7182 failed.Traceback (most recent call last): File "/opt/cloudera/cm-agent/lib/python2.7/site-packages/cmf/agent.py", line 1390, in _send_heartbe