Netapp 3200 7mode排障经验

最新推荐文章于 2024-07-27 10:46:02 发布

Gujin's

最新推荐文章于 2024-07-27 10:46:02 发布

阅读量1.2k

点赞数 1

文章标签： netapp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jimkkl110/article/details/111505447

版权

本文分享了Netapp FAS3200系列7-Mode存储的故障排查经验，包括控制器告警灯分析、系统性能监控、LUN Serial匹配问题及其解决方法。通过初步判断、硬件更换、主机识别技巧以及性能计数器的使用，帮助解决存储性能下降和业务影响。

摘要由CSDN通过智能技术生成

最近通过几起Netapp存储排障经历，积累了一些经验，集中总结一下。

本文基于以下情景：

一个控制器发生了硬件故障，另一个控制器发生了Takeover接管操作，但单节点性能不足以承载全部业务，由此性能下降，后续更换了故障控制器的主板，重新拉起设备。
设备是Netapp FAS3200系列的存储，配置为7-Mode。

1 初步判断

1.1 硬件_控制器告警灯

正面黄色灯：硬件故障或者failover状态未启动；

背部黄色灯：代表此控制器处于被takeover状态，而不是硬件故障。因此，在修复时不是先灭灯才可giveback。而是giveback成功后再灭灯。

1.2 系统_性能数据

当业务负载较大，存活的controller上性能出现瓶颈时，网页图表可能加载不出来。

此时可以SSH到命令行界面，使用sysstat命令检查。

storage>sysstat -x 2

Tips:

如看到cifs IO输出为0，不代表此存储上没有cifs业务。处于瓶颈状态时，存储优先提供fcp业务。

1.3 确认影响业务范围

在存活节点用Volume show查看输出，对判断业务影响范围往往最可靠。即使是管理员，记忆也可能有偏差，会影响到向业务干系方汇报的准确度。

在出现设备硬件故障时，除非能短时修复，否则立即尝试从应用层面调整解决，后续再选择时机更换故障控制器，修复HA。

2 硬件更换及修复

宕机的控制器访问不了，需要使用串口连接（在尾部控制器面板找串口标志）。

简易过程如下：

完成giveback后，完成修复的故障控制器节点应该能够正常启动和进入系统。再次对端口、聚合、磁盘、Volume信息等做检查，确保基本工作状态正常。

3 主机识别

更换控制器之后，LUN的Serial可能发生改变。（不绝对

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Netapp 3200 7mode排障经验

Netapp 3200存储在目前是较老的型号了。总结了软硬件排障要点及经验，包括双控制器的takeover和giveback流程、Nvram状态位查看、performance counter命令使用方法等。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。