最近通过几起Netapp存储排障经历,积累了一些经验,集中总结一下。
本文基于以下情景:
- 一个控制器发生了硬件故障,另一个控制器发生了Takeover接管操作,但单节点性能不足以承载全部业务,由此性能下降,后续更换了故障控制器的主板,重新拉起设备。
- 设备是Netapp FAS3200系列的存储,配置为7-Mode。
1 初步判断
1.1 硬件_控制器告警灯
正面黄色灯:硬件故障或者failover状态未启动;
背部黄色灯:代表此控制器处于被takeover状态,而不是硬件故障。因此,在修复时不是先灭灯才可giveback。而是giveback成功后再灭灯。
1.2 系统_性能数据
当业务负载较大,存活的controller上性能出现瓶颈时,网页图表可能加载不出来。
此时可以SSH到命令行界面,使用sysstat命令检查。
storage>sysstat -x 2
Tips:
如看到cifs IO输出为0,不代表此存储上没有cifs业务。处于瓶颈状态时,存储优先提供fcp业务。
1.3 确认影响业务范围
在存活节点用Volume show查看输出,对判断业务影响范围往往最可靠。即使是管理员,记忆也可能有偏差,会影响到向业务干系方汇报的准确度。
在出现设备硬件故障时,除非能短时修复,否则立即尝试从应用层面调整解决,后续再选择时机更换故障控制器,修复HA。
2 硬件更换及修复
宕机的控制器访问不了,需要使用串口连接(在尾部控制器面板找串口标志)。
简易过程如下:
完成giveback后,完成修复的故障控制器节点应该能够正常启动和进入系统。再次对端口、聚合、磁盘、Volume信息等做检查,确保基本工作状态正常。
3 主机识别
更换控制器之后,LUN的Serial可能发生改变。(不绝对