故障详情:
- 硬盘故障。
05 槽位, 即第六块盘, 故障, 热背盘自动启用, 硬盘完成重构。
12 块 2TB 硬盘, 11 槽位为热备盘, 已启用, 11 盘 raid5, 一个 lun。 - BBU 故障。
A 控制器(左侧) BBU 故障, 策略修改为透写, 导致性能急剧下降。 - BBU 电量不足。
A,B 控制器均告警电量不足。 电量不足, 会导致在设备在意外断电时造成数据无法完全
下盘, 导致数据损坏或丢失。
风险预判:
一、 硬盘配置方面,目前已无热备盘可用,如再有硬盘故障,将导致无法进行硬盘重构,
损坏数据将通过校验获得, 将导致硬盘整体负荷增加, 增加其他硬盘故障风险, CPU、
缓存性能下降。 导致业务前端性能体验下降。
二、 BBU 故障, 导致数据直接下盘, 应能体验极差, 因数据未经队列优化, 极大增加硬
盘负荷, 容易导致硬盘大面积故障, 因未详细查看日志, 尚不明确当前故障盘与 BBU 故
障之间的关系。
三、 BBU 电量不足, 会导致在设备在意外断电时造成数据无法完全下盘, 导致数据损坏
或丢失。
目前处理方式: - 更改 lun 归属。 业务模型没有变化, B 控仍有故障风险。
- 修改写策略为回写, 进行观察, 如自动改为透写, 则将策略改为强制回写, 进一步
观察。 - 查看日志, 确定故障关联因素。
建议后期处理方式: - 尽快更换故障硬盘, 防止继续坏盘。
- 该型号设备, 15 年官方已停止提供备件, 17 年底将 EOS, 即停止服务。 官方将不在
提供设备的任何技术支持。 且设备本身已多出迸发故障, 建议尽早完成数据迁移。
该设备后续可承载非关键、 业务强度较低的业务。
2017 年 9 月 28 日
转载于:https://blog.51cto.com/xiangrui/2057405