客户的Oracle 11.2.0.2 RAC环境出现了故障,导致一个节点上CLUSTER无法启动,简单描述一下解决过程。
原本客户服务器上的CLUSTER也存在问题,但是大部分进程都可以正常启动,ASM实例也可以启动。
不过在客户的DBA进行过一系列的操作后,除了ohasd这个进程还在,服务器上所有的CLUSTER进程彻底起不来了。
询问客户进行了哪些具体的操作,客户说曾经做过ocrconfig的restore以及export和import操作。
比较巧合的是,前不久在测试OCRCONFIG的EXPORT和IMPORT功能时,还碰到了一个bug,初步怀疑就是由于这个操作,才使得整个cluster等无法启动。
尝试使用/etc/init.d/ohasd start来启动cluster,如果这时ohasd进程启动出于启动状态,会得到下面的信息:
CRS-4000: Command Start failed, or completed with errors.
如果关闭ohasd进程,重新启动,发现仍然是除了ohasd进程外,没有其他任何的进程启动,而且除了ohash进程对应的日志有内容以外,其他任何进程都没有新的日志信息。
检查ohash进程对应的日志,发现下面的信息:
OCR context init failure
2011-01-18 13:34:30.092: [ CRSOCR][3234501024] OCR context init failure. Error: PROCL-24: 消息传送层中出错 消息传送错误 [gipcretAddressInUse] [20]
看来问题确实和OCR配置有关系。不过CLUSTER还没有启动,因此还没有到启动ASM读取ASM磁盘组中ocr配置的步骤,因此这里多半是在读取本地OCR镜像是出现了错误。检查/etc/oracle下olr.loc中的配置,本地的ocr配置指向$ORA_CRS_HOME/cdata目录。将这个目录下的本地镜像,用另一个节点上的本地镜像来替换。
再次尝试启动CLUSTER,这次CLUSTER的进程可以正常启动了。
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/4227/viewspace-684399/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/4227/viewspace-684399/