现象描述:
一体化集群,nn1和nn2都能正常启动,但是节点状态均为standby,手动切换状态nn就会挂掉,启动zkfc也会挂掉
原因查找:
主机防火墙关闭状态,没有异常;journalnode也能正常连接
发现journalnode nsid和namenode nsid不一致
nn2挂掉前的日志,大量刷日志:
查VERSION中的clusterid,namenode和datanode的一样,和journalnode的不一样
尝试解决一:
手动更改jn的VERSION,重启nn,仍然没解决问题
尝试解决二:
先查看存储为75%,再查看5台journalnode均没有数据
有数据的jn目录为: