Vsan节点报“Power-on Reset”和“Could not open device ‘naa...‘ for probing: Busy”错误处理记录

客户一套5台主机组成的Vsan集群,偶尔会出现某台主机的VSAN磁盘无法访问导致主机进入维护模式的问题,严重时甚至会导致整个VSAN集群挂起,无法对外提供服务。

Vsan集群的5号机在2020年7月曾经出现过这个故障,2022年1月初4号机也出现同样的报错,导致整个VSAN集群无法正常使用,2022年3月初4号机再次出现同样的问题。

故障发生时,报错的Vsan主机会进入维护模式:
在这里插入图片描述
查看vmkernel.log日志,故障发生时VSAN的磁盘都在报“Could not open device naa… for Probing: Busy”的错误:
在这里插入图片描述
查看vobd.log日志,VSAN的磁盘报“Power-on Reset”的错误,lsi-mr3驱动报“ABORT”错误::

/var/run/log/vobd.log
2022-01-05T12:05:06.736Z: [scsiCorrelator] 3751376538353us: [esx.problem.storage.connectivity.devicepor] Frequent PowerOn Reset Unit Attentions are occurring on device naa.5000cca04ec248b0. This may indicate a storage problem. Affected datas
tores: Unknown. 
2022-01-05T12:05:07.746Z: [scsiCorrelator] 3751279217932us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
2022-01-05T12:05:11.026Z: [scsiCorrelator] 3751282498409us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
2022-01-05T12:05:11.776Z: [scsiCorrelator] 3751283248058us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
2022-01-05T12:05:12.956Z: [scsiCorrelator] 3751284428147us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
...
...
2022-01-05T16:30:44.266Z: [VsanCorrelator] 3767215270589us: [vob.vsan.lsom.congestionthreshold] LSOM MemCong in 5293a11d-b4be-50f1-817b-cf309a8aa118 Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.
2022-01-05T16:30:44.266Z: [VsanCorrelator] 3767314068372us: [esx.problem.vsan.lsom.congestionthreshold] LSOM MemCong in 5293a11d-b4be-50f1-817b-cf309a8aa118 Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.

/var/run/log/vmkernel.4
2022-01-05T15:35:48.738Z cpu18:66416)ScsiCore: 1705: Power-on Reset occurred on naa.5000... 
2022-01-05T15:35:57.080Z cpu14:13288430)lsi_mr3: mfi_IssueTM:480: TM 1 SMID 392 ResponseCode 0 DevHandle d
2022-01-05T15:35:57.080Z cpu28:13288435)lsi_mr3: mfi_TaskMgmt:672: Processing taskMgmt abort for device: vmhba2:C0:T42:L0
2022-01-05T15:35:57.080Z cpu28:13288435)lsi_mr3: mfi_TaskMgmt:691: ABORT
2022-01-05T15:41:50.988Z cpu22:13232051)WARNING: LSOM: LSOMVsiGetVirstoInstanceStats:786: Throttled: Attempt to get Virsto stats on unsupported disk naa.5000...:2
2022-01-05T15:41:57.094Z cpu1:13288430)lsi_mr3: mfi_IssueTM:480: TM 1 SMID 392 ResponseCode 0 DevHandle d
2022-01-05T15:41:57.094Z cpu26:13288435)lsi_mr3: mfi_TaskMgmt:672: Processing taskMgmt abort for device: vmhba2:C0:T42:L0
2022-01-05T15:41:57.094Z cpu26:13288435)lsi_mr3: mfi_TaskMgmt:691: ABORT

1月初,原厂经过分析后,建议更换RAID卡。但是,如果是RAID卡有问题,正常来说RAID卡下的12块磁盘都会出现上面的报错,而不是只有Vsan下的10块磁盘报错。

查看新版本的RAID卡微码和for vmware的驱动说明,个人觉得以下RAID卡for vmware的新版本驱动中的两个Fix可能与这个故障相关,特别是7.07.11.00版本解决的bug列表中包含了在VSAN环境中使用非RAID的物理磁盘会出现TIMEOUT和reset的bug,与当前环境的现象很类似。
在这里插入图片描述
但是,vmware的相关维护人员说VSAN要求RAID卡的固件和驱动版本必须与当前的ESXi版本匹配,如下图的兼容列表所示,不允许升级驱动版本。于是,1月初先尝试更换了故障主机的RAID卡。
在这里插入图片描述
然而,3月初故障再次发生,原厂经过分析,又提出要更换RAID卡。

经过与vmware维护人员协调讨论,最后决定按照上图的兼容列表进行调整,将主机的磁盘配置由非RAID模式调整为RAID 0。

然后,通过BIOS将RAID卡的微码升级至版本4.680.00-8434:
在这里插入图片描述
在这里插入图片描述
同时,将vmware驱动升级至7.707.11.00版本。

从2022年3月8日调整完开始,观察VSAN的运行情况,确认问题是否真正得到解决。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值