故障描述
某数据库服务器在识别IBM DS6800的LUN时,只认到2条路径(应该是4条路径)。而且两次因为磁盘的报错,导致数据库异常停止。
[@more@]路径查询的情况如下:
# datapath query device
# datapath query device
Total Devices : 4
DEV#: 0 DEVICE NAME: vpath0 TYPE: 1750500 POLICY: Optimized
SERIAL: 13ADLLA0116
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk2 OPEN NORMAL 0 0
1 fscsi0/hdisk4 OPEN NORMAL 556091 0
2 fscsi1/hdisk10 OPEN NORMAL 0 0
3 fscsi1/hdisk12 OPEN NORMAL 1099717 0
DEV#: 1 DEVICE NAME: vpath1 TYPE: 1750500 POLICY: Optimized
SERIAL: 13ADLLA0201
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk3 OPEN NORMAL 339906 0
1 fscsi0/hdisk5 OPEN NORMAL 0 0
2 fscsi1/hdisk11 OPEN NORMAL 839075 0
3 fscsi1/hdisk13 OPEN NORMAL 0 0
DEV#: 2 DEVICE NAME: vpath2 TYPE: 1750500 POLICY: Optimized
SERIAL: 68947310116
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk6 OPEN NORMAL 63 0
1 fscsi0/hdisk8 OPEN NORMAL 1358237 4
DEV#: 3 DEVICE NAME: vpath3 TYPE: 1750500 POLICY: Optimized
SERIAL: 68947310201
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk7 OPEN NORMAL 1340724 0
1 fscsi0/hdisk9 OPEN NORMAL 0 0
操作系统不断在报磁盘的错误,如下:
# errpt|more
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
DCB47997 1202152710 T H hdisk8 DISK OPERATION ERROR
BFE4C025 1202151610 P H sysplanar0 UNDETERMINED ERROR
DCB47997 1202030810 T H hdisk7 DISK OPERATION ERROR
DCB47997 1202030610 T H hdisk7 DISK OPERATION ERROR
光纤卡FCS1,无法建立到存储的链路,光纤卡信息如下:
# lscfg -vl fcs1
fcs1 U7879.001.DQDKMAG-P1-C6-T1 FC Adapter
Network Address.............10000000C95A6A29
Device Specific.(YL)........U7879.001.DQDKMAG-P1-C6-T1
故障分析
确定是不是光纤卡FCS1有故障
让IBM公司定了一个相同型号的光纤卡,更换掉旧的FCS1卡,重新配置光纤交换机的ZONE,重新配置DS6800的hostconnect。在AIX中重新删除vpath及相关路径,重新cfgmgr识别设备,仍然还是2条路径,则判断不是原来的FCS1的问题。
确定是不是主机有故障
更换了一台主机,重新配置zone和hostconnect,让新的主机可以访问出现故障的DS6800 的LUN,仍然只有2条路径。则判断不是主机的问题。
确定是不是光纤交换机的故障
主机到存储经过了brocade 5000 与mcdata4400 的级联链路。收集了光纤交换的supportshow信息,提交给IBM后台技术支持进行分析,没有得到明确的答复。
检查了zone的信息,删除旧的zone,新建新的zone,重新认设备,仍然只有两条链路。很多主机都是通过这个级联方式访问该存储的,路径没有问题。由此判断不是光纤交换机和两个不同品牌交换机间的级联问题。
确定是不是IBM DS6800 的问题
收集了大量的IBM DS6800 的系统数据,提交给IBM 后台进行分析。后台发现了一些问题,主要是DS6800 的1个存储控制器找不到那张新换的光纤卡的信息。IBM 后台给出了两个解决方案:
1.在图形管理界面重新定义 hostconnect(不使用dscli的rmhostconnect,mkhostconnect命令),执行这个方案后,问题仍然存在。
2.使用图形管理界面,分别启动一下两个存储控制器,执行这个方案后,问题仍然存在。
故障解决
经过了前面多方面的分析与实验,我确定应该是DS6800 里面LUN与主机匹配出现了问题。
删除主机相关的volgrp,hostconnect,新建一个新的volgrp,并分配新的lun给volgrp,然后重新hostconnect,在主机端进行cfgmgr后,可以认到4条路,由此可以判断是旧的lun出了问题,lun(FBVOL)里面的数据应该没有问题,只是在DS6800 里面的一些匹配信息出现混乱,这与前段时间单模光纤链路被割断,然后长时间才恢复有一点关系。
认到4条新的LUN的路径后,删除对这个LUN的访问,恢复旧的LUN的访问设置,在AIX中进行cfgmgr,也可以认到4条路径,问题得到解决。
至于为何会这样,IBM也觉得很奇怪,至今无法解释。
# datapath query device
Total Devices : 4
DEV#: 0 DEVICE NAME: vpath0 TYPE: 1750500 POLICY: Optimized
SERIAL: 13ADLLA0116
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk2 OPEN NORMAL 0 0
1 fscsi0/hdisk4 OPEN NORMAL 2017407 11
2 fscsi1/hdisk10 OPEN NORMAL 0 0
3 fscsi1/hdisk12 OPEN NORMAL 1910209 0
DEV#: 1 DEVICE NAME: vpath1 TYPE: 1750500 POLICY: Optimized
SERIAL: 13ADLLA0201
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk3 OPEN NORMAL 2064767 0
1 fscsi0/hdisk5 OPEN NORMAL 0 0
2 fscsi1/hdisk11 OPEN NORMAL 1819045 0
3 fscsi1/hdisk13 OPEN NORMAL 0 0
DEV#: 2 DEVICE NAME: vpath2 TYPE: 1750500 POLICY: Optimized
SERIAL: 68947310116
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk6 OPEN NORMAL 0 0
1 fscsi0/hdisk8 OPEN NORMAL 1276713 9
2 fscsi1/hdisk14 OPEN NORMAL 0 0
3 fscsi1/hdisk16 OPEN NORMAL 1971563 3
DEV#: 3 DEVICE NAME: vpath3 TYPE: 1750500 POLICY: Optimized
SERIAL: 68947310201
==========================================================================
Path# Adapter/Hard Disk State Mode Select Errors
0 fscsi0/hdisk7 OPEN NORMAL 1443626 0
1 fscsi0/hdisk9 OPEN NORMAL 0 0
2 fscsi1/hdisk15 OPEN NORMAL 2299279 0
3 fscsi1/hdisk17 OPEN NORMAL 0 0
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/32980/viewspace-1043760/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/32980/viewspace-1043760/