服务器集群中某节点多次因为断开连接而强制物理重启,根据日志寻找原因,发现日志中每次出现如下错误时候,集群断开此node:

itszecommadm2(服务器名) restorecond: Will not restore a file with more than one hard link (/etc/resolv.conf) No such file or directory

或类似此格式的错误。由此断定是此错误导致网络断开。google之后发现可用解决方案:

            ls -i /etc/resolv.conf  # 找一下这个文件连接到哪

            find /etc -inum 1638416 # 数字是上面

            lsof | grep resolv.conf # 确认没有进程在使用

            rm /etc/sysconfig/networking/profiles/default/resolv.conf

            restorecon /etc/resolv.conf

            ln /etc/resolv.conf /etc/sysconfig/networking/profiles/default/resolv.conf

            service network restart

观察几天,服务器集群正常。

另外是什么原因导致此问题的发生,至今没有找到答案。如果有朋友知道详情,请留言,谢谢!