这是一个2009年的案例:
客户ibm小型机内存故障。具体过程记录如下:
去之前已经确认是P1-C9-C8位置上的内存报错
1、到达现场,与客户沟通,确定好时间
2、进P5 55a 系统 查看系统状态,用到的命令:#errpt –dH,#errpt –aj errorID,#lsattr –El sys0 | gerp realmem,#lsdev –C |grep proc, #lsattr –El proc#(#可以是0 1 2 等等)
3、确定好报错设备的具体位置,一般根据物理位置代码,对于有些设备可能还要配合AIX的位置代码信息
客户停止业务
4、shutdown-F
5、等待机器指示灯变为standby状态(闪烁)双手放静电,将机器前面板卸下。
6、到机器后面将两根电源线拔掉,将四对光纤线标记好(注意收发线的位置)。
7、将面板上的两个螺丝拧开,将机器向前推到维修位置,会听到喀哒的响声。
8、将面板卸下,观察上面的S/N号确定无误,将C9插槽中的CPU板卡拔出,动作要慢,轻。总之要细心。
9、将P1-C9-C1和P1-C9-C8上的两条内存卸下,分别换上带来的两条内存(之前P/N号及S/N号已经记好)
10、按相反的顺序将机器复位,重点是不要挤到后面的线,和光纤线的连接顺序(收发口)
11、确定连线及机器正确复位后,机器加电,等待机器启动到standby状态(绿灯闪烁),按POWER ON键启动机器。
12、进入系统,检测系统状态及报错。相关命令:#errpt –dH,#lsattr –El mem0,#instfix –i |grep ML,#df –k #diag (进入关报警灯选项进行logrepair,防止以后误报)
13、检查确认系统无硬件报错,客户启动相关应用,一切正常
14、添报告单,并由客户确认后签字。
总结:(热拔插某些部件)将机器推到维护位置时,要保证线的顺畅,如果规划时,线缆长度不够,则需关机更换。一些细节问题,在手册上可能描述不到,在现场要灵活处理。