数据库rac集群由于做bond未关闭NetworkManager,网卡发生切换导致集群自动发生重启故障。
检查集群alert日志,发现三个节点相互被驱逐:
检查gipc日志,发现节点2和节点2心跳网络bond1存在”rank 0”现象:
根据文档HAIP Fails to Start as GIPC Has Rank 0 or -1 for Interconnect (Doc ID 1374360.1),bond1私网发生”rank -1”或着”rank 0”就说明私网有故障发生.
检查网络发现bond1网卡存在主备切换现象,正常情况下网卡主备切换不影响业务,但是发现“NetworkManager”为开启状态,导致切换网络恢复慢,最终集群节点遭驱逐重启:
NetworkManager是自动管理网络的服务,正常情况下配置bond需要关闭NetworkManager,不然会导致双网卡切换时发生异常,双网卡可以通过拔插网线来验证切换是否正常。