故障描述: 前方反馈电池即将过期,有2块磁盘损坏(去现场之前已经指导更换),磁阵目前读写缓慢。

设备信息: 品牌:IBM    型号:DS4300

故障处理过程:

1, 观察磁阵前面板状态灯发现磁阵Power-on LED为稳定的绿色,General-system-error LED为×××亮起,所有磁盘的Drive activity LED为绿色常亮或闪烁,没有某个磁盘该指示灯熄灭的情况,所有磁盘的Drive fault LED为熄灭状态。以上现象说明所有磁盘状态都正常,没有磁盘发生故障。但是整个磁阵的某个部件有问题,导致了磁阵的告警灯亮。

2, 检查磁盘阵列背部部件状态指示灯发现磁阵背部的电源部件,风扇部件的状态都正常。发现磁阵控制器A的Cache active灯处于熄灭状态,而磁阵控制器B的Cache active灯处于亮起状态。而其它状态指示灯,都正常,没有异常。于是认为导致磁阵告警的原因是两个控制器的Cache状态不一样,需要解决磁阵两个Cache状态不一样的问题。

3, 给笔记本电脑安装最新的storage manager,找一个网线,连接磁阵的管理网口与笔记本的网口,将笔记本的网卡IP地址,设置在和磁阵控制器管理网口同一个网段类,避免IP地址冲突。

4, 打开storage manager程序,第一次打开时,提示搜索,等搜索完毕后,点击要管理的磁阵,此例是ds4300进入。

5, 通过storage manager收集日志选择AdvancedàTroubleshootingàCollect All Support Data,出现Collect All Support Data对话框,选择文件存放的路径和文件名,然后选择Start开始收集日志,收集完毕后,显示Complete.

6,对日志内容进行检查:打开日志压缩文件,选择storageSubsystemProfile对所有部件进行检查,发现电池状态为:

Batterystatus: Near expiration Location: Controller A Age: 1,140 days Days until replacement: 29 days Batterystatus: Near expiration Location: Controller B Age: 1,140 days Days until replacement: 29 days

发现所有LOGICAL DRIVER的cache状态为:

Read cache: Enabled

Write cache: Enabled (currently suspended) 即写缓存暂时关闭。

Write cache without batteries: Disabled

Write cache with mirroring: Enabled (currently suspended) 即写缓存暂时关闭

Flush write cache after (in seconds): 10.00

Dynamic cache read prefetch: Enabled

7, 分析可能造成cache关闭的原因:

针对两个控制器的cache active状态指示灯的状态不一致情况,查看了DS4300的硬件手册,发现造成该灯没有亮的可能原因是CACHE没有用;电池损坏;CACHE损坏。

从收集的日志中查看,cache是再用的,因此cache没有用的原因可以被排除;从收集的日志中查看,发现两个控制器都识别到了128M的内存,说明内存应该是好的,因此cache损坏的原因也可以排除。从收集的日志中查看,发现电池报Near expiration,说明是电池即将过期导致磁阵暂时停止了cache的使用,因此需要更换电池。

8,与软创人员沟通,制定维修方案经过交流得知,目前国内只发过来一块电池,如果更换一块,另一块不更换,会造成仍旧无法使用,因为两个cache的写数据是镜像的。最后决定,先不换电池,先尝试把电池的时间清零操作(因为电池的状态不是failed,因此感觉还可以用)。最后决定,将电池的时间清零。

9, 将电池的时间清零点击storage manager中的系统状态图标在出现的图中,选择batteries,然后选择reset然后再用网线连接到另一个控制器上,用同样的方法,对另一个控制器上的电池进行reset.

10, 检查电池的状态发现电池的计数器已经清零,电池的状态变为optimal,说明电池的状态正常了。 Batterystatus: Optimal Location: Controller A Age: 0 days Days until replacement: 1,169 days Batterystatus: Optimal Location: Controller B Age: 0 days Days until replacement: 1,169 days

11, 检查cache情况发现cache都是激活的 Read cache: Enabled Write cache: Enabled Write cache without batteries: Disabled Write cache with mirroring: Enabled Flush write cache after (in seconds): 10.00 Dynamic cache read prefetch: Enabled

12, 重新收集两个控制器的日志发现所有部件状态都正常。

13, 对磁阵进行读写测试发现原来要读写2个多小时的数据,现在几分钟就完成了,说明性能问题解决。 至此磁阵问题解决完毕