Netapp FAS2750更换磁盘后不同步问题处理

1. 故障现象

客户的Netapp FAS2750存储的盘1.0.8和1.0.9先后分别出现故障,工程师利用备件将磁盘更换上去并手工assign owner后,却发现磁盘不进行数据同步,有aggr的状态处于降级状态,一直不进行重构。
1)从“storage disk show”的输出中可以看到,新换上的磁盘不属于任何一个aggr。在这里插入图片描述
2)“agrr show”的输出中有一个aggr的状态是“degraded”,没有进行重构。
在这里插入图片描述
在这里插入图片描述

3)“storage aggregate show-spare-disks”的输出中不包含新换上的两块硬盘,同时有一块热备盘1.0.23没有成功进行热备替换(怀疑是1.0.23的P1数据分区的owner和要顶替的故障磁盘1.0.9的P1数据分区的owner不是同一个节点的原因,需验证)。
在这里插入图片描述

2. 处理过程

1)尝试使用命令“storage disk unfail -s 1.0.8/1.0.9”手动设置两块新的硬盘为热备盘,操作失败。
在这里插入图片描述
2)执行命令“system node run -node FAS2750-nodename02 “disk show -v””进入节点查看磁盘的owner,发现新硬盘有分配owner,但是两块新硬盘的分区P1和P2都没有分配owner。
在这里插入图片描述
在这里插入图片描述
3)使用命令“set -privilege advanced”进入高级模式以使用分区属主操作命令。使用命令“system node run -node FAS2750-nodename2 “disk assign 0a.00.8P1; disk assign 0a.00.8P2””将新硬盘的两个分区的owner设置跟硬盘本身一样的owner节点2。然而,新硬盘还是没有开始同步,对比同一个aggr里的其他硬盘的分区的owner分配情况,发现其他硬盘的数据分区P1的owner是与硬盘本身的owner不同,属于另外一个节点。于是先使命令“system node run -node FAS2750-nodename1 “disk remove_ownership 0b.00.8P1””将P1分区的owner移除,再使用命令“system node run -node FAS2750-nodename1 “disk assign 0a.00.8P1 -o FAS2750-nodename1””将新硬盘的P1分区的owner设置为与硬盘的owner不同的节点1(9号盘的P1分区的owner则设置为节点2)。

在这里插入图片描述
在这里插入图片描述
4)设置好新硬盘的P1数据分区的owner后,新硬盘开始重构,问题得到解决。
在这里插入图片描述

3. 故障总结

1)按照后面的参考2链接中的说法“对于已经将P2 root分区给Node1 root volume使用的,需要将该磁盘的P1数据分区的owner分配给node2”,查看存储的节点1的root卷相关的磁盘来确认这个说法,这些磁盘的P1分区的owner确实都是节点2,客户的另外一台FAS2750也是同样的情况,因此参考2的说法是正确的。至于为什么会有这种要求,原因不大清楚,手工分配磁盘分区的owner时需要注意这点。
在这里插入图片描述
在这里插入图片描述

2)根据aggr的配置来看,8号盘出现故障时被22号热备盘进行了顶替。
在这里插入图片描述
在这里插入图片描述
但是9号盘出现故障 时23号盘却没有成功去顶替9号盘,从磁盘分区owner来看,9号盘的P1数据分区的owner是节点2,而热备盘23号盘的数据分区的owner则是节点1,不知道是不是因为两者的P1分区owner不同,导致不能成功顶替。如果是这个原因,在分配热备盘时要注意这个问题,存储至少得分配两个热备盘,每个热备盘的owner需要属于不同的节点。按理来说这个怀疑应该是错误的,存储的热备盘配置不会存在这么不合理的要求,这个问题可能是bug。
在这里插入图片描述

3)这次问题是在自动分配参数设置为关闭的情况下出现的,如果使用命令“storage disk option modify -node node_name -autoassign on”打开了自动分配owner的参数,问题可能就不会出现,当然,这只是一种猜测。不管如何,如果遇到更换硬盘后aggr不重构的情况,可以先执行命令“system node run -node FAS2750-nodename “disk show -v””进入节点查看磁盘分区的owner情况,看下是否遇到的是与本案例类似的问题。


后续:
2025-05-30存储再次出现硬盘故障的时候,热备盘又没有成功进行顶替,经过分析热备盘的P1分区的属主与故障盘的P1分区的属主不同,重新分配热备盘P1分区的属主后存储自动启动了重构替换过程。因此,根据两次故障的情况来看,这台存储必须至少设置两块热备盘,而且两个控制器上都必须有对应的P1和P2热备分区,这样任何第1块硬盘出现故障时才能成功进行顶替。第2块硬盘出现故障时,则不一定能继续进行顶替。如果第2块故障盘的分区的属主与第1块故障盘的属主相同,因为该控制器对应的热备盘已经用完,所以无法再继续顶替。如果第2块故障盘的分区的属主与第1块故障盘的属主不同,则能够利用控制器对应的热备盘成功顶替。目前来看,这个型号的存储要以2倍的热备盘数量来实现其他存储1倍热备盘的效果,即要想实现2块热备盘的效果则需要配置4块热备盘,才能完全实现成功顶替任意2块故障盘的目标。



参考

1.Broken disk replaced, now failed disk status

2.【NetApp】移除ADP分区后的disk的owner

3.NetApp FAS8200存储更换硬盘

4.NetApp FAS更换控制器详解 & 疑难杂症排查

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值