内容提要:

 
在运行有Oracle RAC的AIX系统上,某些情况下RAC会重启系统。这个功能是从Oracle 10g以后被
 
引入的。一旦Oracle RAC被启动,那会开始检测其网络心跳和磁盘心跳。如果网络心跳长时间不通
 
(默认是10分钟),那么Oracle RAC将执行reboot将系统重新启动。而如果磁盘心跳长时间不
 
响应,Oracle RAC将执行sysdumpstart将系统重新启动。这样可以通过dump分析来找出磁盘心跳异
 
常的原因。通常这种情况都是由于系统比较差的performance造成的,比如大量pending的I/O。
 
 
 
 
sysdumpstart -p
 Immediately stops AIX and initiates a system dump to the primary dump device if the dump facility is properly configured. Afterwards the system will automatically reboot if the auto restart flag is true. Otherwise the system will halt.
 
Note: This command is sometimes used by cluster management software such as Oracle RAC to evict a node and create a system dump. If a node in an Oracle RAC is evicted with the sysdumpstart command, contact Oracle Support and IBM AIX support for assistance with analyzing the system dump. 
 
 
 
oracle RAC节点驱逐的三种情况  
 
1、Node is not pinging via the network heartbeat
 
2、Node is not pinging the Voting disk
 
3、Node is hung/busy and is unable to perform either of the earlier tasks
 
 
 
 
关于misscount和disktimeout.
 
(1)Network Heartbeat和Disk Heartbeat都在Misscount内完成. 节点不会reboot
(2)Network Heartbeat在Misscount内完成, Disk Heartbeat完成时间超过了Misscount, 但是在Disktimeout内. 节点不会reboot
(3)Network Heartbeat在Misscount内完成, Disk Heartbeat完成时间超过了Disktimeout. 节点会reboot
(4)Network Heartbeat完成时间超过了Misscount, Disk Heartbeat在Misscount内完成. 节点会reboot
总结:如果Network Heartbeat完成时间没有超过Misscount, 只要Disk Heartbeat完成时间没有超过Disktimeout, 节点就不需要reboot.如果Network Heartbeat完成时间超过了Misscount, 那么节点就需要reboot
 
 
 
 
我们看到ce2网卡配置的IP是192.168.0.1,而从hosts文件中看到,这个地址是private的地址。也就是说,SIAP1在启动的时候,去检查private地址的网卡是否up,如果up,实例才能正常启动。
http://www.oracleblog.org/working-case/can-not-startup-single-node-of-rac/