10G rac 因为ocr原因导致crs不能启动的排查二例

原创 2015年11月20日 22:24:54

近期遇到过两次RAC节点的主机后记 后CRS不能启动的情况。

案例1:LINUX+10.2.0.5RAC平台,OCR对应的裸设备权限在重启后不正确,因为设置裸设备权限的脚本设置有误。

案例2:主机版本为HP-UX B.11.31,使用的是的HP-UX Service Guard集群件,小机宕机重启后VG未挂载导致OCR所在磁盘无法访问。

记录如下:

案例1:

LINUX+10.2.0.5RAC平台,OCR对应的裸设备权限在重启后不正确,因为设置裸设备权限的脚本设置有误。

情况如下:

[root@rac02 ~]# ps -ef|grep css
root     16820     1  0 May25 ?        00:00:00 /bin/sh /etc/init.d/init.cssd fatal
root     16872 16818  0 May25 ?        00:01:48 /bin/sh /etc/init.d/init.cssd startcheck
root     16924 16820  0 May25 ?        00:01:38 /bin/sh /etc/init.d/init.cssd startcheck
root     17062 16823  0 May25 ?        00:01:50 /bin/sh /etc/init.d/init.cssd startcheck
root     17866 17636  0 19:32 pts/1    00:00:00 grep css

[root@rac02 ~]# tail /var/log/messages
Sep 11 19:33:04 rac02 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.16924.
Sep 11 19:33:04 rac02 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.17062.
Sep 11 19:33:04 rac02 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.16872.
Sep 11 19:34:04 rac02 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.16924.
Sep 11 19:34:04 rac02 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.17062.
Sep 11 19:34:04 rac02 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.16872.
[root@rac02 log]# cat /tmp/crsctl.17062
OCR initialization failed accessing OCR device: PROC-26: Error while accessing the physical storage Operating System error [Permission denied] [13]


[root@rac02 ~]# ls -al /dev/raw*
crw------- 1 root root 162, 0 May 25 01:46 /dev/rawctl

/dev/raw:
total 0
drwxr-xr-x  2 root   root         140 May 25 01:46 .
drwxr-xr-x 14 root   root        5860 May 25 01:46 ..
crw-------  1 root   root     162, 10 May 25 01:46 raw10
crw-------  1 oracle oinstall 162,  3 May 25 01:46 raw3
crw-------  1 oracle oinstall 162,  4 May 25 01:46 raw4
crw-------  1 oracle oinstall 162,  5 May 25 01:46 raw5
crw-------  1 root   root     162,  9 May 25 01:46 raw9


修改脚本使权限如下后正常:--注意脚本设置正确确保下次重启主机后权限仍正确 。
[root@rac02 ~]# ls -al /dev/raw*
crw------- 1 root root 162, 0 May 25 01:46 /dev/rawctl

/dev/raw:
total 0
drwxr-xr-x  2 root   root         140 May 25 01:46 .
drwxr-xr-x 14 root   root        5860 May 25 01:46 ..
crw-r-----  1 root   oinstall 162, 10 May 25 01:46 raw10
crw-r--r--  1 oracle oinstall 162,  3 May 25 01:46 raw3
crw-r--r--  1 oracle oinstall 162,  4 May 25 01:46 raw4
crw-r--r--  1 oracle oinstall 162,  5 May 25 01:46 raw5




案例2:

主机版本为HP-UX B.11.31,使用的是的HP-UX Service Guard集群件,小机宕机重启后VG未挂载导致OCR所在磁盘无法访问。

故障分析:

rac#[/etc]ps -ef|grep crs
    root  2249     1  0  Nov  5  ?         0:00 /bin/sh /sbin/init.d/init.crsd run
    root 29242 26214  0 16:12:54 pts/0     0:00 grep crs
rac#[/etc]ps -ef|grep init
    root     1     0  0  Nov  5  ?         0:01 init
    root    23     0  0  Nov  5  ?         0:00 pagetable_init_daemon
    root 29368 26214  0 16:15:29 pts/0     0:00 grep init
    root  2247     1  0  Nov  5  ?         0:00 /bin/sh /sbin/init.d/init.evmd run
    root  2248     1  0  Nov  5  ?         0:00 /bin/sh /sbin/init.d/init.cssd fatal
    root  2249     1  0  Nov  5  ?         0:00 /bin/sh /sbin/init.d/init.crsd run
    root  2281  2248  0  Nov  5  ?         0:08 /bin/sh /sbin/init.d/init.cssd startcheck
    root  2274  2249  0  Nov  5  ?         0:08 /bin/sh /sbin/init.d/init.cssd startcheck
root  2284  2247  0  Nov  5  ?         0:08 /bin/sh /sbin/init.d/init.cssd startcheck

rac$[/tmp]ls -lrt crsctl*
-rw-rw-rw-   1 oracle     dba            155 Nov  9 15:35 crsctl.2274
-rw-rw-rw-   1 oracle     dba            155 Nov  9 15:35 crsctl.2281
-rw-rw-rw-   1 oracle     dba            155 Nov  9 15:35 crsctl.2284
rac$[/tmp]cat crsctl.2284
OCR initialization failed accessing OCR device: PROC-26: Error while accessing the physical storage Operating System error [No such device or address] [6]
rac$[/tmp]cat crsctl.2281
OCR initialization failed accessing OCR device: PROC-26: Error while accessing the physical storage Operating System error [No such device or address] [6]
rac$[/tmp]cat  crsctl.2274
OCR initialization failed accessing OCR device: PROC-26: Error while accessing the physical storage Operating System error [No such device or address] [6]
检查OCR信息
nbrbdb2$[/home/oracle]ocrcheck
Status of Oracle Cluster Registry is as follows :
         Version                  :          2
         Total space (kbytes)     :     130852
         Used space (kbytes)      :       3312
         Available space (kbytes) :     127540
         ID                       :  245644703
         Device/File Name         : /dev/vgora/rocr0
                                    Device/File integrity check succeeded

                                    Device/File not configured

         Cluster registry integrity check succeeded

nbrbdb2$[/home/oracle]ls -al /dev/vgora/rocr0
crw-r-----   1 oracle     dba         64 0x020001 Jun 14  2013 /dev/vgora/rocr0


查看节点1上的信息:
rac$[/oracle/product/10.2.0/crs_1/log/rac/cssd]ls -al /dev/vgora/rocr0
crw-r-----   1 oracle     dba         64 0x020001 Sep 28  2012 /dev/vgora/rocr0

rac#[/]vgdisplay
--- Volume groups ---
VG Name                     /dev/vg00
VG Write Access             read/write     
VG Status                   available                 
Max LV                      255    
Cur LV                      10     
Open LV                     10     
Max PV                      16     
Cur PV                      1      
Act PV                      1      
Max PE per PV               4353         
VGDA                        2   
PE Size (Mbytes)            32              
Total PE                    4343    
Alloc PE                    4073    
Free PE                     270     
Total PVG                   0        
Total Spare PVs             0              
Total Spare PVs in use      0                     

vgdisplay: Volume group not activated.
vgdisplay: Cannot display volume group "/dev/vglog".
vgdisplay: Volume group not activated.
vgdisplay: Cannot display volume group "/dev/vglock".
vgdisplay: Volume group not activated.
vgdisplay: Cannot display volume group "/dev/vgora".

故障解决:
从以上信息可以看到VG未激活,导致OCR不可读写。
使用如下命令激活VG后CRS恢复正常:
#[/]vgchange -a s vgora
#[/]vgchange -a s vglog





版权声明:本文为博主原创文章,未经博主允许不得转载。

Oracle10g下手工重建CRS和RAC数据库

某个刚安装好的RAC库,由于需要更换存储,所以需要重建。由于主机系统并没有重新安装,因此只需要重建CRS和库就行了。 环境:AIX 5306+HACMP 5.2+ORACLE 10.2.0.1+...
  • alangmei
  • alangmei
  • 2014年01月24日 09:00
  • 1119

关于RAC CRS 自动启动

关于CRS自动重启实验 一.检查ASM [root@rac1 ~]# /etc/init.d/oracleasm status Checking if ASM is loaded: ye...
  • wanghui5767260
  • wanghui5767260
  • 2014年08月21日 15:39
  • 1839

11Gr2RAC使用备份恢复ocr和votedisk

11Gr2RAC使用备份恢复ocr和votedisk                                            环境: 2节点rac 软件版本:oracle ...
  • huoshuyinhua
  • huoshuyinhua
  • 2016年05月19日 17:42
  • 2033

RAC监听日志与CRS日志 及常用命令

RAC监听日志:tnsname.ora CRS日志: 位置:Oracle集群涉及的日志主要位于“$ORA_CRS_HOME/log”和“$ORACLE_HOME/log”目录中 目录...
  • u011436548
  • u011436548
  • 2014年09月27日 18:35
  • 1484

【翻译自mos文章】在11.2 和12.1 rac中,启动关闭CRS, OHAS, ASM, RDBMS & ACFS Services的步骤

【翻译自mos文章】在11.2 和12.1 rac中,启动关闭CRS, OHAS, ASM, RDBMS & ACFS Services的步骤...
  • msdnchina
  • msdnchina
  • 2015年10月25日 11:30
  • 1171

Oracle 10gR2 RAC的启动和关闭步骤

Oracle 10gR2 RAC的启动和关闭步骤     1.RAC有随服务器启动的脚本,放在/etc/inittab里:  [oracle@node1 bin]$ cat /etc/init...
  • lnwf5188588
  • lnwf5188588
  • 2013年03月17日 15:59
  • 1069

Oracle RAC OCR 的管理与维护

OCR相当于Windows的注册表。对于Windows而言,所有的软件信息,用户,配置,安全等等统统都放到注册表里边。而集群呢,同样如此,所有和集群相关的资源,配置,节点,RAC数据库统统都放在这个仓...
  • robinson_0612
  • robinson_0612
  • 2013年02月05日 20:31
  • 7248

10G RAC VIP漂移后客户端的连接

环境: 10.2.0.4 RAC 当节点1出现故障,节点的vip漂移到节点2后,客户端怎么连接节点1的VIP地址?? [oracle@rac2 ~]$ crs_stat -t Na...
  • u010692693
  • u010692693
  • 2016年08月12日 13:37
  • 805

通过 Oracle 日志文件了解 CRS 的启动过程

之所以要分享这个主题,是因为当我第一次遇见 CRS 无法正常启动的故障时,那种无从下手的无力感,找不到头绪的慌乱感,我至今记忆犹新。我想很多初学者也和那时的我一样,面对 CRS 的问题可能会没有什...
  • lzw5210
  • lzw5210
  • 2017年06月21日 16:22
  • 291

Oracle RAC OCR 磁盘组异常恢复

在11.2或者12.1的RAC中,ocr和votedisk可以放到asm中,而很多人安装系统把ocr和votedisk放到一个单独的asm 磁盘组里面,但是如果这个磁盘组坏了,而数据所在的磁盘组是好的...
  • jlhnxly
  • jlhnxly
  • 2014年06月19日 13:53
  • 1272
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:10G rac 因为ocr原因导致crs不能启动的排查二例
举报原因:
原因补充:

(最多只允许输入30个字)