Vsan节点报“Power-on Reset”和“Could not open device ‘naa...‘ for probing: Busy”错误处理记录

数语数行

已于 2022-03-15 11:48:47 修改

阅读量3.1k

点赞数

分类专栏： VMWare 文章标签： linux 运维服务器 vsan

于 2022-03-15 11:46:54 首次发布

本文链接：https://blog.csdn.net/jetliu05/article/details/123496137

版权

VMWare 专栏收录该内容

20 篇文章

订阅专栏

客户一套5台主机组成的Vsan集群，偶尔会出现某台主机的VSAN磁盘无法访问导致主机进入维护模式的问题，严重时甚至会导致整个VSAN集群挂起，无法对外提供服务。

Vsan集群的5号机在2020年7月曾经出现过这个故障，2022年1月初4号机也出现同样的报错，导致整个VSAN集群无法正常使用，2022年3月初4号机再次出现同样的问题。

故障发生时，报错的Vsan主机会进入维护模式：
在这里插入图片描述
查看vmkernel.log日志，故障发生时VSAN的磁盘都在报“Could not open device naa… for Probing: Busy”的错误：

查看vobd.log日志，VSAN的磁盘报“Power-on Reset”的错误，lsi-mr3驱动报“ABORT”错误：:

/var/run/log/vobd.log
2022-01-05T12:05:06.736Z: [scsiCorrelator] 3751376538353us: [esx.problem.storage.connectivity.devicepor] Frequent PowerOn Reset Unit Attentions are occurring on device naa.5000cca04ec248b0. This may indicate a storage problem. Affected datas
tores: Unknown. 
2022-01-05T12:05:07.746Z: [scsiCorrelator] 3751279217932us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
2022-01-05T12:05:11.026Z: [scsiCorrelator] 3751282498409us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
2022-01-05T12:05:11.776Z: [scsiCorrelator] 3751283248058us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
2022-01-05T12:05:12.956Z: [scsiCorrelator] 3751284428147us: [vob.scsi.scsipath.por] Power-on Reset occurred on naa.5000... 
...
...
2022-01-05T16:30:44.266Z: [VsanCorrelator] 3767215270589us: [vob.vsan.lsom.congestionthreshold] LSOM MemCong in 5293a11d-b4be-50f1-817b-cf309a8aa118 Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.
2022-01-05T16:30:44.266Z: [VsanCorrelator] 3767314068372us: [esx.problem.vsan.lsom.congestionthreshold] LSOM MemCong in 5293a11d-b4be-50f1-817b-cf309a8aa118 Congestion State: Exceeded. Congestion Threshold: 200 Current Congestion: 204.

/var/run/log/vmkernel.4
2022-01-05T15:35:48.738Z cpu18:66416)ScsiCore: 1705: Power-on Reset occurred on naa.5000... 
2022-01-05T15:35:57.080Z cpu14:13288430)lsi_mr3: mfi_IssueTM:480: TM 1 SMID 392 ResponseCode 0 DevHandle d
2022-01-05T15:35:57.080Z cpu28:13288435)lsi_mr3: mfi_TaskMgmt:672: Processing taskMgmt abort for device: vmhba2:C0:T42:L0
2022-01-05T15:35:57.080Z cpu28:13288435)lsi_mr3: mfi_TaskMgmt:691: ABORT
2022-01-05T15:41:50.988Z cpu22:13232051)WARNING: LSOM: LSOMVsiGetVirstoInstanceStats:786: Throttled: Attempt to get Virsto stats on unsupported disk naa.5000...:2
2022-01-05T15:41:57.094Z cpu1:13288430)lsi_mr3: mfi_IssueTM:480: TM 1 SMID 392 ResponseCode 0 DevHandle d
2022-01-05T15:41:57.094Z cpu26:13288435)lsi_mr3: mfi_TaskMgmt:672: Processing taskMgmt abort for device: vmhba2:C0:T42:L0
2022-01-05T15:41:57.094Z cpu26:13288435)lsi_mr3: mfi_TaskMgmt:691: ABORT

1月初，原厂经过分析后，建议更换RAID卡。但是，如果是RAID卡有问题，正常来说RAID卡下的12块磁盘都会出现上面的报错，而不是只有Vsan下的10块磁盘报错。

查看新版本的RAID卡微码和for vmware的驱动说明，个人觉得以下RAID卡for vmware的新版本驱动中的两个Fix可能与这个故障相关，特别是7.07.11.00版本解决的bug列表中包含了在VSAN环境中使用非RAID的物理磁盘会出现TIMEOUT和reset的bug，与当前环境的现象很类似。
在这里插入图片描述
但是，vmware的相关维护人员说VSAN要求RAID卡的固件和驱动版本必须与当前的ESXi版本匹配，如下图的兼容列表所示，不允许升级驱动版本。于是，1月初先尝试更换了故障主机的RAID卡。

然而，3月初故障再次发生，原厂经过分析，又提出要更换RAID卡。