RAC被踢出节点的原因
1.kernel hang 服务器负载严重(oprocd Hangcheck-Timer)
2.内联网络心跳丢失
3.votedisk心跳丢失
4.oclsmon扫描到cssd Hang
如果是Hangcheck-Timer或者oprocd引起的节点被踢出,针对Hangcheck-Timer查看操作系统日志,
oprocd查看oprocd的日志文件。从11gR2开始Hangcheck-Timer不再被需要,oprocd也被cssdagent替代,但是仍然有可能因为内核的问题引起服务器Hang住导致节点被踢出
发生内联网络或者votedisk心跳丢失,查看cssd.log发现有关被踢出节点的详细信息。在这种情况下,需要从被踢出节点开始验证集群坏境内所有的cssd.log
oclsmon同样可能触发节点被踢出,这个集群进程用于验证css进程是否被hang住,它的失败会导致cssd守护进程被杀,cssd进程是监控网络心跳和磁盘心跳,它的失败会导致心跳丢失,节点被踢出。
由于oclsmon导致的节点踢出,检查oclsmon日志文件。
从11gR2开始cssd的验证工作被cssdagent代替。