一次RAC共享磁盘映射问题导致RAC异常重启的故障处理过程


1.故障现象

n 故障现象:

1.2011年8月18日上午9:30左右在检查数据库实例运行状态时发现ERPDB12、ERPDB62实例没有了,如下图所示:

2.第二个节点无法启动被挂掉的ERPDB12、ERPDB62实例。

3.2011年8月18日上午10点左右给研发人员打电话确认EBS的系统的运行正常状态,但报表业务运行比以前较慢。

n  影响范围:EBS系统;影响等级:较小

2.诊断过程

2.1系统层面操作

n  查看切点二的内存使用情况正常:

n  查看节点二的集群告警日志alerterpdb02.log,发现OCR盘是无法访问,猜想到可能是共享磁盘出了问题:

n  对比两个节点的查看emcpower盘的盘序,发现两个节点的盘序不一致:

3.处理过程

n  2011年8月18日下午3点多用emcpadm命令将节点一的emcpower磁盘的配置导出来导入到第二个节点:

n  再次对比两个节点的磁盘顺序发现已相同,如下:

节点1:

节点2:

n 2011-08-18 15:11:38重启第二节点的集群crs服务,却无法启动数据库服务

# crsctl stop crs

# crsctl start crs

n  2011-08-18 16:08:58重启节点二的操作系统尝试让节点二加入集群,结果节点二的实例起来后直接将第一个节点的实例驱逐出集群,此次直接影响到EBS的业务中断。

经过一系列的尝试,为了确保业务正常运行,2011-08-18 17:22,将节点二的CRS集群服务直接关闭:

2011-08-18 17:27:34将节点一的CRS集群服务启动来,保持EBS业务的正常运行:

n  小结:EBS RAC集群的两个节点无法同时开启,两个节点互斥,推测出可能是EMC的磁盘配置表信息不一致导致共享磁盘出问题了。

n  8月20日下午4点到凌晨12点一直在尝试各种方法试图解决两个节点不能同时启动的原因,观察两个节点的/var/log/messages的日志中出现大量unknown partition table,更加怀疑了EMC的磁盘配置表有问题

节点一的/var/log/messages日志信息:

节点二的/var/log/messages日志信息:

n  小结:如果两个节点磁盘信息不一致的原因不解决,则RAC集群的两个节点就无法同时启动,即使重装集群也无法成功。

n  EMC存储层面解决:

判断可能为EMC存储的故障,因此联系了EMC厂商对EMC存储硬件进行排查。

为避免上班时间影响EBS业务的正常运行,2011-8-22下午7点后开始对EMC的存储进行排查:

首先,根据EMC VNX5400存储报错信息排查存储端的问题,通过查看存储的告警日志确认在存储端的链路断开的动作是主动维护时人为重启产生的,故该告警忽略。

再次,查看存储路径的状态,在存储中查看到ERPDB01以及ERPDB02两台主机的四条注册路径均显示为logon in,无故障,可以忽略存储物理链路问题。

最后,通过主机端EMC powerpath多路径软件的命令powermt display dev=all查看多路径伪磁盘的信息,发现两台主机的伪磁盘信息不一致,所有检查完毕后,一共有5处磁盘信息不一致,分别为emcpowerd、emcpowere、emcpowerf、emcpowerg、emcpowerh,参照ERPDB01,我们将ERPDB02主机上的伪磁盘信息通过命令:emcpadm renamepseudo -semcpowera -t emcpowerd 依次修改为一致,并且通过powermt save进行操作保存,保存完成后进行重启测试,发现伪磁盘盘符和信息在重启后依然保持修改后的正确状态,说明修改成功。

至2011-08-22 20:54,两台主机的磁盘信息完全一致,重新启动oracle 集群服务,验证正常。

4.原因分析

本次故障根据目前的现象来看主要就是由于两台数据库主机的多路径伪磁盘信息不一致引起的,与Oracle数据库本身无关。

EMC powerpath在安装完成后会自动聚合生成新的多路径伪磁盘设备名称,大多数情况下,相同配置的主机磁盘信息会一致,但如果出现不一致的情况,需要手动进行修改。

查阅EMC官方文档PowerPath6.0 SP1 release note,发现在已知问题列表中有说明此问题,详见下表的310459

310459的BUG描述了目前的6.0SP1的版本试有可能出现设备名称改变的问题的,但是该问题的级别定义为低,表明出现的几率是极低的。我们也在实际操作中进行了多次重启验证,均未再次出现此问题

小结:

本次故障根据相关文档的佐证,是由于EMC PowerPath 已知问题列表中的310459引起的磁盘设备名称改变引起的,咨询了EMC售后人员,该问题会在后续发布的版本中进行针对性修复。

5.后续完善措施

1.跟踪EMC官网,查看新发布的版本是否解决了该bug,该新版本发布后,第一时间进行测试,并更新安装;

2.在未安装上新版本的EMC PowerPath软件时,定期查看RAC集群实例和进程的运行状态。

 

 


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值