1、客户环境:
570两个系统柜,分两个逻辑分区,用HMC进行管理,共8C、32G
2、9117-570 2-WAY CPU板卡有8个内存插槽,分两个QUAD 。第一个QUAD的位置是P2-Cn-C1, P2-Cn-C3, P2-Cn-C6, P2-Cn-C8;第二个QUAD的位置是:P2-Cn-C2,P2-Cn-C4,P2-Cn-C5,P2-Cn-C7。
3、内存的型分DDR1、DDR2 适合不同的CPU,不可混插。
4、此次报错的内存位置号:U7879.001.DQDMVDZ-P2-C1-C6,属于第一个QUAD,要更换此QUAD里的四条内存。
5、客户停应用(两个分区全停),#errpt 看有无新的报错,并核对报错内存的位置及SN
6、两个分区分别执行#shutdown -F用HMC power off 机器
7、观察570面板指示灯变为闪烁状态,同时观察橘红灯是否亮。拔掉两个系统柜的电源线,共四条。
8、卸下内存报错的那个分区的系统柜的前面板,及CPU前面的挡板(拧下螺丝即可卸下),拉开把手,将CPU抽屉从机器内取出,观察P2-C1的位置(因为有2块CPU卡,昨天晚上查了一晚上,也没查到P2-C1的具体位置是靠外边的还是靠里面的,估计机器上标着)
9、拉开两边的把手,将CPU从抽屉中取出(要细心,注意之前要放去手上的静电)
10、卸下盖板,找到P2-C1-C6位置的内存,拆下来观察其SN号是否与报错的内存的SN号YL10650450ZS相符合,确定后进行更换,将1、3、6、8位置的内存条全部更换。
11、按相反的步骤还原机器。
12、机器上电,通过HMC观察内存是否是32G
13、机器power on ,等待面板指示灯长亮后,active两个分区,分别看下两个分区的errpt.
14、#lsattr –El sys0 |grep mem ;prtconf –m 查看下内存 ,两个分区的总数是否近似32G。
15、HMC中消除报警灯的方法:serviceapplication-->service focal point-->service utility-->
选择需要处理的服务器,根据序列号选中后,在最左面的菜单中,选择system attention led.
在server那里deactivatesystem attention led
16、用户起应用,如正常则收工。