Netapp 3200 7mode排障经验

最近通过几起Netapp存储排障经历,积累了一些经验,集中总结一下。

本文基于以下情景:

  • 一个控制器发生了硬件故障,另一个控制器发生了Takeover接管操作,但单节点性能不足以承载全部业务,由此性能下降,后续更换了故障控制器的主板,重新拉起设备。
  • 设备是Netapp FAS3200系列的存储,配置为7-Mode。

1 初步判断

1.1 硬件_控制器告警灯

正面黄色灯:硬件故障或者failover状态未启动;

背部黄色灯:代表此控制器处于被takeover状态,而不是硬件故障。因此,在修复时不是先灭灯才可giveback。而是giveback成功后再灭灯。

1.2 系统_性能数据

当业务负载较大,存活的controller上性能出现瓶颈时,网页图表可能加载不出来。

此时可以SSH到命令行界面,使用sysstat命令检查。

storage>sysstat -x 2

Tips:

如看到cifs IO输出为0,不代表此存储上没有cifs业务。处于瓶颈状态时,存储优先提供fcp业务。

1.3 确认影响业务范围

在存活节点用Volume show查看输出,对判断业务影响范围往往最可靠。即使是管理员,记忆也可能有偏差,会影响到向业务干系方汇报的准确度。

在出现设备硬件故障时,除非能短时修复,否则立即尝试从应用层面调整解决,后续再选择时机更换故障控制器,修复HA。

2 硬件更换及修复

宕机的控制器访问不了,需要使用串口连接(在尾部控制器面板找串口标志)。

简易过程如下:

image-20201221110233376

完成giveback后,完成修复的故障控制器节点应该能够正常启动和进入系统。再次对端口、聚合、磁盘、Volume信息等做检查,确保基本工作状态正常。

3 主机识别

更换控制器之后,LUN的Serial可能发生改变。(不绝对

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值