在RAC环境里,单节点的宕机,经常是由于节点被evict叻,
被驱逐的原因,一般都是heartbeat的延时或者失败,也有其他的一些原因导致。
可以概括为下面一些情况,这里可以检查ocssd日志,
1、网络问题
2、VOTE DISK读写问题,会有类似的日志:clssnmDiskPingMonitorThread: voting device access hanging (xxxxxx miliseconds)
3、系统资源紧张,比如CPU资源不足,在一个突发的业务高峰到来的时候,CSSD无法获得执行的CPU时间,这样无法和其他节点正常通讯,其他 节点会认为该节点不可用,从而导致驱逐
4、CRS安装目录中某些重要文件被误删(这估计不大可能)
5、CRS配置错误,比如选错了private通讯网卡,从日志上看, clssnmClusterListener: Listening on (ADDRESS= (PROTOCOL=tcp)(HOST =sol-pri1) (PORT=49895)) 确认一下sol-pri1是正确的(查HOSTS文件);VOTE DISK的IO出现问题(这个可能性很小)
6、init.cssd fatal进程或者ocssd进程被kill -9干掉
7、Oracle bug
被驱逐的原因,一般都是heartbeat的延时或者失败,也有其他的一些原因导致。
可以概括为下面一些情况,这里可以检查ocssd日志,
1、网络问题
2、VOTE DISK读写问题,会有类似的日志:clssnmDiskPingMonitorThread: voting device access hanging (xxxxxx miliseconds)
3、系统资源紧张,比如CPU资源不足,在一个突发的业务高峰到来的时候,CSSD无法获得执行的CPU时间,这样无法和其他节点正常通讯,其他 节点会认为该节点不可用,从而导致驱逐
4、CRS安装目录中某些重要文件被误删(这估计不大可能)
5、CRS配置错误,比如选错了private通讯网卡,从日志上看, clssnmClusterListener: Listening on (ADDRESS= (PROTOCOL=tcp)(HOST =sol-pri1) (PORT=49895)) 确认一下sol-pri1是正确的(查HOSTS文件);VOTE DISK的IO出现问题(这个可能性很小)
6、init.cssd fatal进程或者ocssd进程被kill -9干掉
7、Oracle bug
- 提供Oracle管理/故障处理/优化/安装/RAC/备份恢复技术服务,提供专业的Oracle培训和咨询服务。
- 邮件: inthirties@gmail.com
- MSN: inthirties@hotmail.com
- QQ: inthirties@qq.com
- 电话: 13828706466
- 技术博客 http://blog.csdn.net/inthirties
- 个人站点 http://blog.inthirties.com