情况是这样的,上周六同事上架新的服务器由于机架上的位置不够,于是就关机移动一下存储的位置,导致存储出错,我判断应该是强行断电造成的故障。登录控制台上的具体信息如下:Impending Drive Failure (Medium Data Availability Risk)检查一下报错的日志显示。在Summary菜单下Storage Subsystem Needs Attention,导出html日志来分析。
在Hard栏位可以检查硬件的状态。
从这个些故障问题来看有2点。
- 1, 有2块磁盘即将要损坏,有丢失数据的风险。
- 2, 磁盘扇区有坏道,不可以修复62个。
总体解决思路:
- 跟换新硬盘,先将其中一块硬盘Fail掉然热备盘顶替使用。
- 把Fail的磁盘拆下来,把新的硬盘换上去,等数据同步完成后在更换第二块磁盘,等新换好的硬盘变成optical下的Assigned,热备盘的状态变成Hot spare standby状态。
- 步骤不能错,不可以同时更换2块磁盘,如果同时换,数据一定会挂。
解决步骤:
1,先把故障的硬盘用热备盘来顶替损坏磁盘,到控制台选择slot7,操作如下。
2,这个时候你看一下热备盘的状态,从右边看热备盘在in-use 状态,左边看到热备盘正在顶替slot7这块磁盘。
3,这个时候就可以取下Slot7这块坏的磁盘,然后把新的磁盘更换上去,这个时候你一定不要去动第二块坏的磁盘,一定要等数据同步完成,具体说就是,换过的磁盘状态要变成optical,我们来参考一下Slot10的状态,如下图;
4,等slot7同步好了以后,然后到控制台选择slot11,也是先把它给Fail,然后等硬盘变成红叉状态,我们才能拔出slot11这块坏的硬盘换上新的硬盘,接下来的步骤就和上面一样了。
最后总结
思考一下,坏了2块硬盘,做了Raid5会不会整个存储挂了呢,答案是不会的Raid5默认允许挂一块盘,热备盘可以顶替一块坏的磁盘,因此坏了2块的IBM -3512还是可以正常运行,再要坏一块盘就是彻底玩完,所以赶紧换硬盘。