clusterware和oracle10gr2软件升级到10.2.0.4时,重启系统后,节点一crs无法启动, crsctl start crs后系统立即重启。
以下是crs 和 css的日志记录。

 
  
  1. crsd.log: 
  2. 2012-12-25 08:11:56.757: [ CSSCLNT][1226828528]clsssInitNative: connect failed, rc 9 
  3.  
  4. 2012-12-25 08:11:56.757: [  CRSRTI][1226828528]0CSS is not ready. Received status 3 from CSS. Waiting for good status .. 
  5.  
  6. 2012-12-25 08:11:58.252: [ COMMCRS][1099401536]clsc_connect: (0xe18010) no listener at (ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_rac1_crs)) 
  7.  
  8. 2012-12-25 08:11:58.252: [ CSSCLNT][1226828528]clsssInitNative: connect failed, rc 9 
  9.  
  10. 2012-12-25 08:11:58.252: [  CRSRTI][1226828528]0CSS is not ready. Received status 3 from CSS. Waiting for good status .. 
  11.  
  12. 2012-12-25 08:11:59.789: [ COMMCRS][1099401536]clsc_connect: (0xe18010) no listener at (ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_rac1_crs)) 
  13.  
  14. 2012-12-25 08:11:59.789: [ CSSCLNT][1226828528]clsssInitNative: connect failed, rc 9 
  15.  
  16. 2012-12-25 08:11:59.789: [  CRSRTI][1226828528]0CSS is not ready. Received status 3 from CSS. Waiting for good status .. 
  17.  
  18. 2012-12-25 08:12:01.586: [ COMMCRS][1099401536]clsc_connect: (0xe18010) no listener at (ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_rac1_crs)) 
  19.  
  20. 2012-12-25 08:12:01.586: [ CSSCLNT][1226828528]clsssInitNative: connect failed, rc 9 
  21.  
  22. 2012-12-25 08:12:01.586: [  CRSRTI][1226828528]0CSS is not ready. Received status 3 from CSS. Waiting for good status .. 
  23.  
  24. 2012-12-25 08:12:04.174: [ COMMCRS][1099401536]clsc_connect: (0xe18010) no listener at (ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_rac1_crs)) 
  25.  
  26. 2012-12-25 08:12:04.174: [ CSSCLNT][1226828528]clsssInitNative: connect failed, rc 9 
  27.  
  28. 2012-12-25 08:12:04.175: [  CRSRTI][1226828528]0CSS is not ready. Received status 3 from CSS. Waiting for good status .. 
  29.  
  30. ocssd.log: 
  31. [    CSSD]2012-12-25 09:58:03.233 >USER:    Copyright 2012, Oracle version 10.2.0.4.0 
  32. [    CSSD]2012-12-25 09:58:03.233 >USER:    CSS daemon log for node rac1, number 1, in cluster crs 
  33. [  clsdmt]Listening to (ADDRESS=(PROTOCOL=ipc)(KEY=rac1DBG_CSSD)) 
  34. [    CSSD]2012-12-25 09:58:03.337 [547869936] >TRACE:   clssscmain: local-only set to false 
  35. [    CSSD]2012-12-25 09:58:03.351 [547869936] >TRACE:   clssnmReadNodeInfo: added node 1 (rac1) to cluster 
  36. [    CSSD]2012-12-25 09:58:03.386 [547869936] >TRACE:   clssnmReadNodeInfo: added node 2 (rac2) to cluster 
  37. [    CSSD]2012-12-25 09:58:04.159 [1138325824] >TRACE:   clssnm_skgxninit: Compatible vendor clusterware not in use 
  38. [    CSSD]2012-12-25 09:58:04.159 [1138325824] >TRACE:   clssnm_skgxnmon: skgxn init failed 
  39. [    CSSD]2012-12-25 09:58:04.341 [547869936] >TRACE:   clssnmNMInitialize: misscount set to (300) 
  40. [    CSSD]2012-12-25 09:58:04.342 [547869936] >TRACE:   clssnmNMInitialize: Network heartbeat thresholds are: impending reconfig 150000 ms, reconfig start (misscount) 300000 ms 
  41. [    CSSD]2012-12-25 09:58:04.350 [547869936] >TRACE:   clssnmDiskStateChange: state from 1 to 2 disk (0//dev/raw/raw4) 
  42. [    CSSD]2012-12-25 09:58:04.350 [1138325824] >TRACE:   clssnmvDPT: spawned for disk 0 (/dev/raw/raw4) 
  43. [    CSSD]2012-12-25 09:58:06.389 [1138325824] >TRACE:   clssnmDiskStateChange: state from 2 to 4 disk (0//dev/raw/raw4) 
  44. [    CSSD]2012-12-25 09:58:06.457 [547869936] >TRACE:   clssnmFatalInit: fatal mode enabled 
  45. [    CSSD]2012-12-25 09:58:06.522 [1148815680] >TRACE:   clssnmvKillBlockThread: spawned for disk 0 (/dev/raw/raw4) initial sleep interval (1000)ms 
  46. [    CSSD]2012-12-25 09:58:06.531 [1169795392] >TRACE:   clssnmClusterListener: Listening on (ADDRESS=(PROTOCOL=tcp)(HOST=rac1-priv)(PORT=49895)) 
  47.  
  48. [    CSSD]2012-12-25 09:58:06.542 [1169795392] >TRACE:   clssnmClusterListener: Probing node rac2 (2), probcon(0x1422bd90) 
  49. [    CSSD]2012-12-25 09:58:06.582 [1169795392] >TRACE:   clssnmConnComplete: MSGSRC 2, type 6, node 2, flags 0x0001, con 0x1422bd90, probe 0x1422bd90 
  50. [    CSSD]2012-12-25 09:58:06.582 [1169795392] >TRACE:   clssnmConnComplete: node 2, rac2, con(0x1422bd90), probcon(0x1422bd90), ninfcon((nil)), node unique 1356444601, prev unique 0, msg unique 1356444601 node state 0 
  51. [    CSSD]2012-12-25 09:58:06.582 [1169795392] >TRACE:   clssnmConnComplete: connected to node 2 (con 0x1422bd90), ninfcon (0x1422bd90), state (0), flag (1037) 
  52. [    CSSD]2012-12-25 09:58:06.594 [1138325824] >TRACE:   clssnmReadDskHeartbeat: node(2) is down. rcfg(2) wrtcnt(2797) LATS(207944) Disk lastSeqNo(2797) 
  53. [    CSSD]2012-12-25 09:58:06.756 [1092946240] >TRACE:   clssgmclientlsnr: listening on (ADDRESS=(PROTOCOL=ipc)(KEY=Oracle_CSS_LclLstnr_crs_1)) 
  54. [    CSSD]2012-12-25 09:58:06.756 [1092946240] >TRACE:   clssgmclientlsnr: listening on (ADDRESS=(PROTOCOL=ipc)(KEY=OCSSD_LL_rac1_crs)) 
  55. [    CSSD]2012-12-25 09:58:06.817 [1201264960] >TRACE:   clssgmPeerListener: Listening on (ADDRESS=(PROTOCOL=tcp)(DEV=20)(HOST=10.0.0.154)(PORT=33670)) 
  56. [    CSSD]2012-12-25 09:58:08.725 [1169795392] >TRACE:   clssnmHandleSync: diskTimeout set to (297000)ms 
  57. [    CSSD]2012-12-25 09:58:08.725 [1169795392] >TRACE:   clssnmHandleSync: Acknowledging sync: src[2] srcName[rac2] seq[0] sync[2] 
  58. [    CSSD]2012-12-25 09:58:08.725 [1232734528] >TRACE:   clssnmRcfgMgrThread: initial lastleader(2) unique(1356444601) 

各节点都能ping通,但根据日志总感觉是节点间通信问题,我将OCR恢复了一下,但问题依然。在这里记录一下整个处理过程。
 

1.停止两个节点crs
# crsctl stop crs

2.各节点运行crs/root脚本

--节点一
[root@rac1 ~]# /u01/app/oracle/product/10.2.0/crs/root.sh
WARNING: directory '/u01/app/oracle/product/10.2.0' is not owned by root
WARNING: directory '/u01/app/oracle/product' is not owned by root
WARNING: directory '/u01/app/oracle' is not owned by root
WARNING: directory '/u01/app' is not owned by root
WARNING: directory '/u01' is not owned by root
Checking to see if Oracle CRS stack is already configured
Oracle CRS stack is already configured and will be running under init(1M)

以上问题需要删除两个节点 /etc/oracle/scls_scr/<node_name>/oracle/cssfatal ,然后重新运行crs/root.sh脚本。

 
  
  1. --节点一 
  2. [root@rac1 oracle]# /u01/app/oracle/product/10.2.0/crs/root.sh  
  3. WARNING: directory '/u01/app/oracle/product/10.2.0' is not owned by root 
  4. WARNING: directory '/u01/app/oracle/product' is not owned by root 
  5. WARNING: directory '/u01/app/oracle' is not owned by root 
  6. WARNING: directory '/u01/app' is not owned by root 
  7. WARNING: directory '/u01' is not owned by root 
  8. Checking to see if Oracle CRS stack is already configured 
  9.  
  10. Setting the permissions on OCR backup directory 
  11. Setting up NS directories 
  12. Oracle Cluster Registry configuration upgraded successfully 
  13. WARNING: directory '/u01/app/oracle/product/10.2.0' is not owned by root 
  14. WARNING: directory '/u01/app/oracle/product' is not owned by root 
  15. WARNING: directory '/u01/app/oracle' is not owned by root 
  16. WARNING: directory '/u01/app' is not owned by root 
  17. WARNING: directory '/u01' is not owned by root 
  18. Successfully accumulated necessary OCR keys. 
  19. Using ports: CSS=49895 CRS=49896 EVMC=49898 and EVMR=49897. 
  20. node <nodenumber>: <nodename> <private interconnect name> <hostname> 
  21. node 1: rac1 rac1-priv rac1 
  22. node 2: rac2 rac2-priv rac2 
  23. Creating OCR keys for user 'root', privgrp 'root'.. 
  24. Operation successful. 
  25. Now formatting voting device: /dev/raw/raw4 
  26. Format of 1 voting devices complete. 
  27. Startup will be queued to init within 30 seconds. 
  28. Adding daemons to inittab 
  29. Expecting the CRS daemons to be up within 600 seconds. 
  30. CSS is active on these nodes. 
  31.         rac1 
  32. CSS is inactive on these nodes. 
  33.         rac2 
  34. Local node checking complete. 
  35. Run root.sh on remaining nodes to start CRS daemons. 
  36.  
  37.  --节点二 
  38. [root@rac2 ~]# /u01/app/oracle/product/10.2.0/crs/root.sh 
  39. WARNING: directory '/u01/app/oracle/product/10.2.0' is not owned by root 
  40. WARNING: directory '/u01/app/oracle/product' is not owned by root 
  41. WARNING: directory '/u01/app/oracle' is not owned by root 
  42. WARNING: directory '/u01/app' is not owned by root 
  43. WARNING: directory '/u01' is not owned by root 
  44. Checking to see if Oracle CRS stack is already configured 
  45.  
  46. Setting the permissions on OCR backup directory 
  47. Setting up NS directories 
  48. Oracle Cluster Registry configuration upgraded successfully 
  49. WARNING: directory '/u01/app/oracle/product/10.2.0' is not owned by root 
  50. WARNING: directory '/u01/app/oracle/product' is not owned by root 
  51. WARNING: directory '/u01/app/oracle' is not owned by root 
  52. WARNING: directory '/u01/app' is not owned by root 
  53. WARNING: directory '/u01' is not owned by root 
  54. clscfg: EXISTING configuration version 3 detected. 
  55. clscfg: version 3 is 10G Release 2. 
  56. Successfully accumulated necessary OCR keys. 
  57. Using ports: CSS=49895 CRS=49896 EVMC=49898 and EVMR=49897. 
  58. node <nodenumber>: <nodename> <private interconnect name> <hostname> 
  59. node 1: rac1 rac1-priv rac1 
  60. node 2: rac2 rac2-priv rac2 
  61. clscfg: Arguments check out successfully. 
  62.  
  63. NO KEYS WERE WRITTEN. Supply -force parameter to override. 
  64. -force is destructive and will destroy any previous cluster 
  65. configuration. 
  66. Oracle Cluster Registry for cluster has already been initialized 
  67. Startup will be queued to init within 30 seconds. 
  68. Adding daemons to inittab 
  69. Expecting the CRS daemons to be up within 600 seconds. 
  70. CSS is active on these nodes. 
  71.         rac1 
  72.         rac2 
  73. CSS is active on all nodes. 
  74. Waiting for the Oracle CRSD and EVMD to start 
  75. Oracle CRS stack installed and running under init(1M) 
  76. Running vipca(silent) for configuring nodeapps 
  77.  
  78. Creating VIP application resource on (2) nodes... 
  79. Creating GSD application resource on (2) nodes... 
  80. Creating ONS application resource on (2) nodes... 
  81. Starting VIP application resource on (2) nodes... 
  82. Starting GSD application resource on (2) nodes... 
  83. Starting ONS application resource on (2) nodes... 
  84.  
  85.  
  86. Done. 
  87. [root@rac2 ~]# crsctl check crs 
  88. CSS appears healthy 
  89. CRS appears healthy 
  90. EVM appears healthy     

3.各节点运行cluster升级时的两个脚本 

 
  
  1. --节点一 
  2. [root@rac1 oracle]# /u01/app/oracle/product/10.2.0/crs/bin/crsctl stop crs 
  3. Stopping resources. This could take several minutes. 
  4. Successfully stopped CRS resources. 
  5. Stopping CSSD. 
  6. Shutting down CSS daemon. 
  7. Shutdown request successfully issued. 
  8. [root@rac1 oracle]# /u01/app/oracle/product/10.2.0/crs/install/root102.sh 
  9. WARNING: directory '/u01/app/oracle/product/10.2.0' is not owned by root 
  10. WARNING: directory '/u01/app/oracle/product' is not owned by root 
  11. WARNING: directory '/u01/app/oracle' is not owned by root 
  12. WARNING: directory '/u01/app' is not owned by root 
  13. WARNING: directory '/u01' is not owned by root 
  14. Preparing to recopy patched init and RC scripts. 
  15. Recopying init and RC scripts. 
  16. Startup will be queued to init within 30 seconds. 
  17. Starting up the CRS daemons. 
  18. Waiting for the patched CRS daemons to start. 
  19.   This may take a while on some systems. 
  20. 10204 patch successfully applied. 
  21. clscfg: EXISTING configuration version 3 detected. 
  22. clscfg: version 3 is 10G Release 2. 
  23. Successfully accumulated necessary OCR keys. 
  24. Using ports: CSS=49895 CRS=49896 EVMC=49898 and EVMR=49897. 
  25. node <nodenumber>: <nodename> <private interconnect name> <hostname> 
  26. node 1: rac1 rac1-priv rac1 
  27. Creating OCR keys for user 'root', privgrp 'root'.. 
  28. Operation successful. 
  29. clscfg -upgrade completed successfully 
  30. [root@rac1 oracle]# /etc/init.d/init.crs enable 
  31. Automatic startup enabled for system boot. 
  32.  
  33.  --节点二 
  34. [root@rac2 ~]# /u01/app/oracle/product/10.2.0/crs/bin/crsctl stop crs 
  35. Stopping resources. This could take several minutes. 
  36. Successfully stopped CRS resources. 
  37. Stopping CSSD. 
  38. Shutting down CSS daemon. 
  39. Shutdown request successfully issued. 
  40. You have new mail in /var/spool/mail/root 
  41. [root@rac2 ~]# /u01/app/oracle/product/10.2.0/crs/install/root102.sh 
  42. WARNING: directory '/u01/app/oracle/product/10.2.0' is not owned by root 
  43. WARNING: directory '/u01/app/oracle/product' is not owned by root 
  44. WARNING: directory '/u01/app/oracle' is not owned by root 
  45. WARNING: directory '/u01/app' is not owned by root 
  46. WARNING: directory '/u01' is not owned by root 
  47. Preparing to recopy patched init and RC scripts. 
  48. Recopying init and RC scripts. 
  49. Startup will be queued to init within 30 seconds. 
  50. Starting up the CRS daemons. 
  51. Waiting for the patched CRS daemons to start. 
  52.   This may take a while on some systems. 
  53. 10204 patch successfully applied. 
  54. clscfg: EXISTING configuration version 3 detected. 
  55. clscfg: version 3 is 10G Release 2. 
  56. Successfully accumulated necessary OCR keys. 
  57. Using ports: CSS=49895 CRS=49896 EVMC=49898 and EVMR=49897. 
  58. node <nodenumber>: <nodename> <private interconnect name> <hostname> 
  59. node 2: rac2 rac2-priv rac2 
  60. Creating OCR keys for user 'root', privgrp 'root'.. 
  61. Operation successful. 
  62. clscfg -upgrade completed successfully 
  63. [root@rac2 ~]# crs_stat -t 
  64. Name           Type           Target    State     Host         
  65. ------------------------------------------------------------ 
  66. ora.rac1.gsd   application    ONLINE    ONLINE    rac1         
  67. ora.rac1.ons   application    ONLINE    ONLINE    rac1         
  68. ora.rac1.vip   application    ONLINE    ONLINE    rac1         
  69. ora.rac2.gsd   application    ONLINE    ONLINE    rac2         
  70. ora.rac2.ons   application    ONLINE    ONLINE    rac2         
  71. ora.rac2.vip   application    ONLINE    ONLINE    rac2         
  72. [root@rac2 ~]# /etc/init.d/init.crs enable 
  73. Automatic startup enabled for system boot. 

4.添加asm

 
  
  1. [oracle@rac1 db_1]$ srvctl add asm -n rac1 -i ASM1 -o /u01/app/oracle/product/10.2.0/db_1 
  2. [oracle@rac1 db_1]$ srvctl add asm -n rac2 -i ASM2 -o /u01/app/oracle/product/10.2.0/db_1 

5.然后建库。