环境,数据库:双节点rac11.2.0.1
操作系统:Red Hat Enterprise Linux Server release 5.6现象,节点B重启后无法连接
[grid@ora11b ~]$ crs_stat -v -t
CRS-0184: Cannot communicate with the CRS daemon.
尝试启动 crs
[root@ora11b ~]# /opt/app/11.2.0/grid/bin/crsctl start crs
/opt/app/11.2.0/grid/bin/crsctl start crs
CRS-4640: Oracle High Availability Services is already active
CRS-4000: Command Start failed, or completed with errors.
尝试停止 crs
[root@ora11b ~]#/opt/app/11.2.0/grid/bin/crsctl stop crs -f
/opt/app/11.2.0/grid/bin/crsctl stop crs -f
CRS-2791: 正在启动用于关闭 'ora11b' 上 Oracle High Availability Services 管理的资源的操作
CRS-2673: 尝试停止 'ora.crsd' (在 'ora11b' 上)
CRS-4549: 执行关闭请求时意外断开连接。
CRS-2675: 未能停止 'ora.crsd' (在 'ora11b' 上)
CRS-2679: 尝试清除 'ora.crsd' (在 'ora11b' 上)
CRS-4549: 执行关闭请求时意外断开连接。
CRS-2678: 'ora.crsd' (在 'ora11b' 上) 遇到了无法恢复的故障
CRS-0267: 要恢复其可用性, 需要人工干预。
CRS-2795: 关闭 'ora11b' 上 Oracle High Availability Services 管理的资源的操作已失败
CRS-4687: Shutdown command has completed with error(s).
CRS-4000: Command Stop failed, or completed with errors.
查看alert日志
[ohasd(14041)]CRS-2772:已将服务器 'ora11b' 分配到池 'Free'。
[client(14367)]CRS-10001:ACFS-9327: 正在验证 ADVM/ACFS 设备。
[client(14391)]CRS-10001:ACFS-9322: 完成。
2013-03-19 09:28:02.663
[gpnpd(14245)]CRS-2328:已在节点 ora11b 上启动 GPNPD。
2013-03-19 09:28:04.408
[cssd(14450)]CRS-1713:CSSD 守护程序已在 clustered 模式下启动
2013-03-19 09:28:13.852
[cssd(14450)]CRS-1707:节点 ora11b (编号为 2) 的租约获取已完成
2013-03-19 09:28:13.866
[cssd(14450)]CRS-1605:CSSD 表决文件联机: ORCL:OCR_VOT1; 详细资料见 /opt/app/11.2.0/grid/log/ora11b/cssd/ocssd.log。
2013-03-19 09:28:24.944
[cssd(14450)]CRS-1601:CSSD 重新配置完毕。活动节点为 ora11a ora11b 。
2013-03-19 09:28:26.525
[ctssd(14499)]CRS-2407:新的集群时间同步服务引用节点为主机 ora11a。
2013-03-19 09:28:26.038
[ctssd(14499)]CRS-2408:集群时间同步服务已将主机 ora11b 上的时钟更新为与集群标准时间同步。
2013-03-19 09:28:26.857
[ctssd(14499)]CRS-2401:已在主机 ora11b 上启动了集群时间同步服务。
2013-03-19 09:28:26.895
[/opt/app/11.2.0/grid/bin/oraagent.bin(14178)]CRS-5011:检查资源 "+ASM" 失败: 详细资料见 "(:CLSN00006:)" (位于 "/opt/app/11.2.0/grid/log/ora11b/agent/ohasd/oraagent_grid/oraagent_grid.log")
2013-03-19 09:28:29.040
[/opt/app/11.2.0/grid/bin/oraagent.bin(14178)]CRS-5011:检查资源 "+ASM" 失败: 详细资料见 "(:CLSN00006:)" (位于 "/opt/app/11.2.0/grid/log/ora11b/agent/ohasd/oraagent_grid/oraagent_grid.log")2013-03-19 09:28:43.296
[crsd(14718)]CRS-1012:已在节点 ora11b 上启动 OCR 服务。
2013-03-19 09:28:43.338
[evmd(14516)]CRS-1401:已在节点 ora11b 上启动 EVMD。
2013-03-19 09:28:44.889
[crsd(14718)]CRS-1201:已在节点 ora11b 上启动 CRSD。
2013-03-19 09:35:23.941
[/opt/app/11.2.0/grid/bin/cssdmonitor(14404)]CRS-5822:代理 '/opt/app/11.2.0/grid/bin/cssdmonitor_root' 已从服务器断开连接。详细资料见 (:CRSAGF00117:) (位于 /opt/app/11.2.0/grid/log/ora11b/agent/ohasd/oracssdmonitor_root/oracssdmonitor_root.log)。
2013-03-19 09:35:23.940
[/opt/app/11.2.0/grid/bin/oraagent.bin(14178)]CRS-5822:代理 '/opt/app/11.2.0/grid/bin/oraagent_grid' 已从服务器断开连接。详细资料见 (:CRSAGF00117:) (位于 /opt/app/11.2.0/grid/log/ora11b/agent/ohasd/oraagent_grid/oraagent_grid.log)。
2013-03-19 09:35:23.942
[/opt/app/11.2.0/grid/bin/orarootagent.bin(14180)]CRS-5822:代理 '/opt/app/11.2.0/grid/bin/orarootagent_root' 已从服务器断开连接。详细资料见 (:CRSAGF00117:) (位于 /opt/app/11.2.0/grid/log/ora11b/agent/ohasd/orarootagent_root/orarootagent_root.log)。
2013-03-19 09:35:23.941
[/opt/app/11.2.0/grid/bin/cssdagent(14425)]CRS-5822:代理 '/opt/app/11.2.0/grid/bin/cssdagent_root' 已从服务器断开连接。详细资料见 (:CRSAGF00117:) (位于 /opt/app/11.2.0/grid/log/ora11b/agent/ohasd/oracssdagent_root/oracssdagent_root.log)。
本次错误,也是很诡异,检查,除了连不上crs以外,其他检查都是可以通过
只不过ora.crsd报诡异错误。
[grid@ora11b ~]$ crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
[grid@ora11b ~]$
[grid@ora11b ~]$ crsctl stat res -t -init
--------------------------------------------------------------------------------
NAME TARGET STATE SERVER STATE_DETAILS
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.asm
1 ONLINE ONLINE ora11b Started
ora.crsd
1 ONLINE UNKNOWN ora11b
ora.cssd
1 ONLINE ONLINE ora11b
ora.cssdmonitor
1 ONLINE ONLINE ora11b
ora.ctssd
1 ONLINE ONLINE ora11b ACTIVE:0
ora.diskmon
1 ONLINE ONLINE ora11b
ora.drivers.acfs
1 ONLINE ONLINE ora11b
ora.evmd
1 ONLINE ONLINE ora11b
ora.gipcd
1 ONLINE ONLINE ora11b
ora.gpnpd
1 ONLINE ONLINE ora11b
ora.mdnsd
1 ONLINE ONLINE ora11b
将本rac全部节点重启后恢复正常。 原因是节点二一直在尝试清除ora.crsd 但一直无法成功【可能是因为节点1在占用(rac的性情太诡异,无法做出肯定答复)】