一、故障定位
1.1.故障信息
Error/Event Logs Platform Event Log - 509E55BB Created at : 11/20/2013 07:38:35 Driver Name : fips240/b1118a_0637.240 Subsystem : Power/Cooling Subsystem Event Severity : Unrecoverable Error, Loss of Redundancy Action Flags : Report to Operating System Service Action Required HMC Call Home Action Status : Sent to Hypervisor Primary System Reference Code Reference Code : 11001631 Hex Words 2 - 5 : 003C0002 00000000 00000000 00000000 Hex Words 6 - 9 : 00000000 00000000 00000000 00000000 Normal Hardware FRU Priority : Lowest priority replacement Location Code : U7879.001.DQDKZVX-P2-C5 Part Number : 39J2557 CCIN : 51B8 Serial Number : YL1025039473 Machine Type Model : 9117-570 Serial Number : 65EBFDF0 Normal Hardware FRU Priority : Lowest priority replacement Location Code : U7879.001.DQDFLYL-P1-C8 Part Number : 80P5319 CCIN : 28EA Serial Number : YL12C5149035 Machine Type Model : 9117-570 Serial Number : 65EBFDF0 Log Hex Dump Error/Event Logs Platform Event Log - 509E55E0 Created at : 11/20/2013 07:39:29 Driver Name : fips240/b1118a_0637.240 Subsystem : Fan (AMD) Event Severity : Unrecoverable Error, Loss of Redundancy Action Flags : Report to Operating System Service Action Required HMC Call Home Action Status : Sent to Hypervisor Primary System Reference Code Reference Code : 11007620 Hex Words 2 - 5 : 003C0001 00000000 00000000 00000000 Hex Words 6 - 9 : 00000000 00000000 00000000 00000000 Normal Hardware FRU Priority : Lowest priority replacement Location Code : U7879.001.DQDFLYL-A2 Part Number : 53P5070 CCIN : 6B0C Serial Number : Machine Type Model : 9117-570 Serial Number : 65EBFDF Normal Hardware FRU Priority : Lowest priority replacement Location Code : U7879.001.DQDFLYL-P1-C8 Part Number : 80P5319 CCIN : 28EA Serial Number : YL12C5149035 Machine Type Model : 9117-570 Serial Number : 65EBFDF Log Hex Dump |
1.2.故障定位
根据ERR信息,由最早故障时间定位,所触及到的硬件为:
Location Code : U7879.001.DQDKZVX-P2-C5 Voltage regulator 3
Location Code : U7879.001.DQDFLYL-P1-C8 Service processor card
Location Code : U7879.001.DQDFLYL-A2 FAN2
从故障关联位置初步判段,由于稳压器(P2-C5)故障,而引起风扇模块(A2)误告警。
先更换稳压器(P2-C5)模块,以待观察。
二、故障处理
1.1.先决条件
注意 |
离线关机更换操作 确保系统关机,电源断开 操作时,使用防静电护腕 添加或更换硬件组件之前请作好数据备份。 |
1.2.准备项
准备确认项 | ||
类型 | 准备项 | 状态 |
硬件 | 笔记本一台 | 已准备就绪 |
网线一根 | 已准备就绪 | |
一字、十字螺丝刀各一把 | 已准备就绪 | |
防静电护腕一个 | 已准备就绪 | |
新稳压器1个 | 已准备就绪 | |
软件 | HMC环境 | 已准备就绪 |
其它 | ||
1.3.操作项
操作项列表 | |||
序号 | 操作项 | 操作内容 | 状态 |
1 | 确认系统关机 | 建议客户应用及业务数据备份 | |
2 | 佩戴防静电护腕 | 确认已经佩戴防静电护腕,并且防静电护腕连接到机柜上的未涂漆部分 | |
3 | 断开电源 | 断开主电源和次电源 | |
4 | 标识线缆 | 拔下影响操作的线缆,并做好标记 | |
5 | 移除服务检修盖 | ||
7 | 确认稳压器模块位置 | ||
8 | 取下稳压器模块 | ||
9 | 从防静电包装中取出稳压器模块 | ||
10 | 安装稳压器模块 | ||
11 | 复原服务检修盖 | ||
12 | 确认故障影响消失 | 确认新更换的硬件无告警 | |
确认新的硬件在系统中就绪 | |||
用户确认应用及业务数据不受影响 | |||
13 | 收尾 | 清理现场,结束工作 |
2.参考信息
转载于:https://blog.51cto.com/xiaozhuang/1333608