一、问题产生
搭建完 hadoop-HA 集群后,尝试了一下 kill 掉 active namenode 的进程发现可以快速的进行自动故障转移。在下午我准备尝试一下,直接将 active namenode 所在机器关机,用来模拟因为磁盘故障等物理因素导致服务器宕机的情况。但是发现,将 active namenode 关机后,standby namenode 无法自动故障转移,仍然是 standy 状态。这样,Hadoop 集群也无法正常工作,所以要解决这个问题。
二、查看日志
部分日志:
2020-03-13 14:47:22,993 WARN org.apache.hadoop.ha.HealthMonitor: Transport-level exception trying to monitor health of NameNode at hadoop101/192.168.2.101:9000: java.net.ConnectException: 拒绝连接 Call From hadoop101/192.168.2.101 to hadoop101:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
2020-03-13 14:47:24,996 INFO org.apache.hadoop.ipc.Client: Retrying connect to server: hadoop101/</