故障描述:
由于心跳网络出现问题,2号结点服务器被强制重启。重启之后2号结点上的haip丢失,haip服务无法启动,导致2号结点的asm实例和db实例均无法启动。
crs log里出校大量类似
2014-08-0914:21:51.057: [ CSSD][3358]clssnmvDHBValidateNCopy: node 1, rac01, has a disk HB, but no network HB, DHB has rcfg 217016033, wrtcnt, 255958170, LATS 1518252008, lastSeqNo 255958167, uniqueness 1406064021, timestamp 1407565310/1501762205
这样的信息。
最终解决方案为:
禁用HAIP,重启两台服务器crs服务,注意!仅重启一台服务器的crs服务无法解决问题。
[root@rac1 bin]#./crsctl modify res ora.cluster_interconnect.haip -attr "ENABLED=0" -init
[root@rac1 bin]#./crsctl stop crs
[root@rac1 bin]#./crsctl start crs