RAC数据库一节点更换HBA卡导致emc存储设备序号变动处理记录
环境简介:
操作系统 redhat linux 5.5
数据库 Oracle RAC 10.2.0.4
存储 EMC
多路径 PowerPath
需求:
客户方一套oracle RAC系统,其中一个节点的机器坏了一个HBA卡,需要更换。
作为数据库技术人员,我协助配合,和同事一起处理该事情。
实施:
同事之前查阅资料,表示更换同型号的HBA卡,比较简单,操作步骤为停RAC节点,停机器,换hba卡,启动机器,启RAC节点实例相关服务。
和客户方负责人沟通,申请了中午停机时间一个半小时,本以为足够了,谁知后来的情况异常曲折。
停节点实例及相关服务,停机,很顺利;
问题:
取下坏的HBA卡,换上新的HBA卡,启动系统,两块HBA卡都没有被识别到
重启,还是识别不到;
换上坏的HBA卡,启动机器,原来的都识别不了了;
打电话,查资料,厂商的意见是同型号的HBA卡更换后,需要反复重启机器,肯定能识别到;
将信将疑,几次重启后,果然识别到了,但是emc存储设备序号好多都变了,节点实例起不来,实际上是crs起不来,报错CRS-0184 ,无法访问OCR物理设备;
最开始crs服务没有起来,root /etc/init.d/init.crs start
Oracle crs_start -all 始终 报错CRS-0184
/tmp目录下有生成一些crs相关的临时日志文件报错
再次停机,将坏的HBA卡光纤线拔掉,fdisk –l
powermt display dev=all
fdisk –l|grep ‘ ‘ 比对节点1和节点2的设备名称,然后将节点2上变化的设备序号重命名调整为和节点1一致,因为之前两个节点上识别的设备序号就是一致的。
emcpadm renamepseudo –s emcpowerx –t emcpowerz
中间还碰到设备名称已经被使用,无法重命名问题,后来想办法通过使用过渡名称解决了;
还有剩下几个设备名称多次尝试始终无法修改,后来发现节点crs等服务自动起来了,可能是某些设备已经被使用了,所以无法重命名;于是我果断停oracle相关服务,果然马上能重命名了。全部重命名完成后保存下配置powermt save,启动节点相关服务,正常。
教训:
维护工作尽量放到没有业务时操作,如晚上
详细的实施方案,审批流程规范
对所做的工作应该非常清楚详细步骤及风险、所需的时间等,全面控制
向客户申请维护窗口时,在估计所需的时间上加一些时间,以防出现意外情况
……
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/21256317/viewspace-1063988/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/21256317/viewspace-1063988/