问题描述
分布式存储平台扩容了5台存储节点,存储版本为Fusion Storage V100R006C30SPC501(Block)。存储平台在扩容后,出现了1台服务器2块硬盘故障,另外2台服务器分别有1块硬盘故障。但服务器BMC界面无告警,硬件状态健康正常。
告警信息
处理过程
收集故障服务器的BMC日志和OS日志,所有硬盘无Media error报错,说明硬盘无坏块,硬盘本体状态健康。部分硬盘有一些other error报错,说明可能存在硬盘读写链路延迟或者有链路误码。
再次收集正常和非正常的服务器BMC日志和OS日志,发现正常和非正常的服务器都存在一些硬盘有other error的报错,排除了硬盘链路的可能性。
OS日志中显示,服务器Raid卡驱动和固件不配套。遂升级了其中一台故障节点服务器的Raid卡驱动,升级完重启机器后恢复正常,分布式存储平台告警消失,功能使用正常。服务器BMC日志中大量硬盘的other error也消失。
根因
分布式存储的产品文档中未描述安装Raid卡驱动,导致Raid卡驱动不配套,存储平台产生误告警导致硬盘状态不可用。
解决方案
服务器安装推荐的配套驱动和固件
建议与总结
1、此案例影响较大,建议存储平台推送此案例预警。
2、建议存储产品文档添加安装Raid卡驱动章节。
3、服务器安装操作系统时,建议安装配套固件和驱动。