现象描述:
一体化集群,nn1和nn2都能正常启动,但是节点状态均为standby,手动切换状态nn就会挂掉,启动zkfc也会挂掉
原因查找:
主机防火墙关闭状态,没有异常;journalnode也能正常连接
发现journalnode nsid和namenode nsid不一致
nn2挂掉前的日志,大量刷日志:
查VERSION中的clusterid,namenode和datanode的一样,和journalnode的不一样
尝试解决一:
手动更改jn的VERSION,重启nn,仍然没解决问题
尝试解决二:
先查看存储为75%,再查看5台journalnode均没有数据
有数据的jn目录为:
所以jn均有问题,也没数据,备份好整个管理节点安装路径和数据
初始化jn后启动:
##初始化journalnode的数据,这个是ha需要做的
hdfs namenode -initializeSharedEdits
(init是初始化、format是格式化)