Hadoop HA 集群无法进行自动故障转移(Standby => Active)的解决办法(ConnectionRefuse)

在学习 HA 自动化配置,按照hadoop官网进行配置,最后所有的节点都启动正常

但我们在进行故障测试 kill 掉Active状态的NameNode后,其他Standby状态的NameNode无法转换成Active状态

我们知道Standby状态节点中zookepper客户端的zkfc进程一直在监视这Active状态下的节点,而一旦后者出现故障,且后者中的zkfc进程断开了与zookepper服务端的session,此时Standby状态节点中的zkfc进程就会去抢占zookepper服务端,并且会通过ssh杀死故障节点中的NameNode

下图是web中的日志包的错误 —— ConnectionRefuse,我们要首先想到是不是ssh免密配置的问题,是否配置了Standby状态节点免密登录到Active状态节点,如诺不是,请看后面的解决方案

虽然如下图我们在hdfs-site.xml 中已经配置过相关配置,但是因为没有 fuster 程序,导致无法进行 fence

 

 解决方法:在每个机器上安装包含fuster程序的软件包Psmisc

xcall yum -y install psmisc

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值