1       前期工作

1    

 

2    

 

2.1     问题描述

7133阵列中硬盘损坏,影响阵列中raid安全,需要更换7133硬盘。

2.2     根因分析

硬盘故障,主要是由于时间的原因,磁头划伤硬盘,造成坏道,属于计算机设备中使用过程中的正常损耗。

2.3     解决方案总结

热插拔更换硬盘,依据不同情况在线rebuilding阵列数据或加入热备盘。

2       详细操作步骤

热插拔更换硬盘,依据不同情况在线rebuilding阵列数据或加入热备盘。

这里设定的时间根据硬盘容量大小、转速等因素不同而不同,这里是估算时间;

3    

 

3.1     操作前准备工作

1     

 

2     

 

3     

 

3.1     

 

1     

 

2     

 

3     

 

3.1     

 

3.1.1      提前备份数据库及阵列相关数据

(包括但不仅限于相关vg备份,应单独备份系统和应用配置信息等),请系统管理员及时完成,以下步骤非特别注明均由我方维护人员完成;

3.1.2      检查设备和硬盘状态,保存必要信息和文件

lscfglspvlsvgerrptsnap等),查看raid类型、raid目前状态(应为gooddegraded状态)、raid中是否有热备盘、raid5中故障硬盘应不超过1块等情况;

3.1.3      确定需要更换硬盘的槽位(闪灯确认);

3.2     维护操作步骤

3.2     

 

3.2.1      查看是否必要手工删除硬盘

T时(T时为开始维护动作开始时间),如果故障硬盘所在Array已是Degraded,跳过本步;如果不是(既硬盘频繁报错,但是Array还没有变为Degraded),从阵列中删除硬盘(选择change member disks In an array中的remove a disk from ssa raid array);

3.2.2      故障硬盘设为service mode

T5分,diag中选择SSA Service Aidsset service mode将故障硬盘设为service mode

3.2.3      物理更换硬盘

T10,物理更换硬盘

3.2.4      退出service mode,更新硬盘信息到系统

T15分,退出service mode,此时新加盘标识灯熄灭,但pdiskn还是原来的硬盘信息,需要更新,Rmdev –dl pdiskn n为故障硬盘,下同),cfgmgr –vl ssar;这样的方法不产生新的pdisk以及hdisk

3.2.5      修改新加硬盘属性

T20分,如果系统中热备盘已加入故障硬盘所在raid,则修改新加硬盘属性为热备盘,      现在查看raid应有此热备盘定义;

如果系统中没有热备盘,则改变新加硬盘属性为阵列候选盘,并加入raid(如果在add时没有可选的盘,则在Swap Members of an SSA RAID Array子菜单下选择replace子菜单进入,选空白盘和新加盘对换),raid数据开始重组;

3.2.6      rebuilding完成;检查阵列状态good

T1时,rebuilding完成;检查阵列状态good

1   

 

2   

 

3   

 

3.1   

 

3.2   

 

3.2.1   

 

3.2.2   

 

3.2.3   

 

3.2.4   

 

3.2.5   

 

3.2.6   

 

3.2.7      hacmp中定义的另一台机器上刷新硬盘信息
T13分,Hacmp中定义的另外一台机器上Rmdev –dl pdiskncfgmgr –vl ssar,以保持pvid等信息的一致性;

3.3     收尾工作

3.3     

 

3.3.1      测试

T15分,请系统管理员进行相关测试;

再次检查确认、填写相应表单

3.3.2      再次检查确认、填写相应表单,工作完毕。

3.4     应急回退方案

1、           如果阵列rebuliting失败,若raid状态为degraded状态,则更换新加硬盘,重做raid rebuilding

2、           如果阵列rebuliting失败,若raid状态为failed,则更换raid中硬盘,使用备份恢复vg数据。

 

 

实践情况:

维护操作步骤

收尾工作

1、 T15分,请系统管理员进行相关测试;

2、 再次检查确认、填写相应表单,工作完毕。

应急回退方案

3、 如果阵列rebuliting失败,若raid状态为degraded状态,则更换新加硬盘,重做raid rebuilding

4、 如果阵列rebuliting失败,若raid状态为failed,则更换raid中硬盘,使用备份恢复vg数据。

 

二、备件

8509         9.1GB SSA disk

8518

 

SSA 18GB 10000

7133-D40(T40)

8536

07N9438

SSA 36GB 10000

7133

 

18P3548

 

7133

 

18P2200

 

7133

 

18P1126

 

7133

8572

07N9428

SSA 73GB 100007133-D40(T40)

7133

8646

 

SSA 146GB 100007133-D40(T40)

7133

6536

 

SSA 36GB 150007133-D40(T40)

7133

6572

 

SSA 73GB 150007133-D40(T40)

7133

  

SSA 146GB 150007133-D40(T40)

7133