ibm x3850 x5连接存储后,linux操作系统无法正常启动,《七小服公开课》— IBM X3850 X5服务器无法开机故障 处理步骤...

原标题:《七小服公开课》— IBM X3850 X5服务器无法开机故障 处理步骤

一、 问题描述

接到客户报修,一台IBM X3850X5服务器宕机后无法开机,诊断面板上BRD指示灯亮起,立即赶往现场处理。

经过现场确认,设备电源可以正常加电,但按下开机按钮后无法启动,液晶面板在01、FR间循环显示,断电重新加电现象相同。通过用客户管理电脑连接IMM管理端口查看日志,有如下报错信息:

1. I -- -- 7/6/2016:6:24:35 -- N -- 0x4000000e00000000 -- Remote Login Successful. Login ID: USERID from Web at IP address 192.168.70.1

2. E -- -- 7/2/2016:2:6:35 -- C -- 0x800706081410ffff -- Sensor "I/O Board VRD" has transitioned to non-recoverable

3. I -- -- 7/2/2016:2:6:29 -- N -- 0x806f00091381ffff -- "Host Power" has been turned off

4. E -- -- 7/2/2016:2:6:26 -- C -- 0x80070608140bffff -- Sensor "CPU 2 VRD" has transitioned to non-recoverable

二、 处理步骤

通过设备维护手册查询,报错内容“Sensor "CPU 2 VRD" has transitioned to non-recoverable”为CPU板故障,报错内容“Sensor "I/O Board VRD" has transitioned to non-recoverable”为PCI板故障。这两个故障都可能导致目前无法开机的现象,从时间点看CPU板首先故障,所以CPU板故障可能性最大并准备备件准备更换,同时准备PCI板现场备用。

CPU板更换步骤如下:

1. 现场准备好新的备件。

2. 关闭服务器和外围设备,并根据需要断开电源线和所有外部电缆连接,以更换设

备。

3. 卸下顶盖。

4. 卸下顶盖支架)。

5. 卸下电源。

6. 从微处理器板组合件卸下I/O 板滑盖。

7. 卸下内存卡。

8. 卸下ServeRAID 适配器。

9. 卸下中间风扇。

10. 卸下内存卡仓。

11.卸下微处理器。

12. 断开以下电缆连接:前部风扇、可扩展指示灯、操作员信息面板和CD/DVD 电源。

13. 拧松服务器后部的指旋螺钉。

14. 将组合件轻轻向服务器前部滑动;然后使用左侧的微处理器板手柄,从一定角度

取出组合件。

15. 更换成新的CPU板,按相反步骤进行安装后加电开机测试。

6550c4335d83cd540ba07657c9c36a12.png

更换新CPU板后主机可以正常开机,但在启动过程中会有如下报错并无法进入操作系统:

there are offline or missing virtual drives with preserved cache.

please check the cables and ensure that all drives are present.

Press any key to continue or 'C' load the configuration utility.

按照提示进行RAID卡管理界面,有如下内容提示:

916352136b6185e54b27f077c6a5b074.png

以上提示内容原因为RAID卡cache中有脏数据未能正常写入磁盘,选择Discard cache选项丢弃,然后退出管理界面,设备正常进入操作系统。

自此设备硬件故障已经修复,但查看诊断面板仍然有Log报错灯亮起,通过登陆IMM管理台查看,有如下报错信息:

79d77d8a50927f4a48a8f1018a4a91aa.png

报错为FPGA微码版本不匹配,通过看到VPD信息发现FPGA微码版本高于IMM和UEFI微码版本,于是与客户沟通将所有微码升级到最新版本。升级前先进入主机BIOS,将system log events清除,升级过程如下:

1.到官网下载最新的微码版本;

a)IMM:ibm_fw_imm_yuooh2b-1.51_linux_32-64

b)FPGA: ibm_fw_fpga_g0ud92b-5.02_linux_32-64

c)UEFI:ibm_fw_uefi_g0e185a-1.85_linux_32-64

2.重启服务器,按F1到UEFI界面下;

3.打开浏览器连接IMM管理台,默认IP地址:192.168.70.125,用户名/密码:USERID/PASSW0RD(0为数量0);

4.首先升级IMM模块微码,点击Firmware Update菜单中的浏览,选择下载好的IMM微码包,点击update进行升级,升级过程大概10-15分钟,升级完成后点击Restart IMM菜单重启IMM模块,整体升级过程中千万不要重启服务器;

3549924a0f794dfcd82df678e85cbc0d.png

1.重新连接IMM后,按照以上方法分别顺序升级FGPA和UEFI微码;

2.都升级完成后,关闭服务器电源并拔掉电源线;

3.等待5-10分钟,连接电源线并启动到BIOS界面,查看Vital Product Data (VPD)中微码版本是否更新(在IMM也可以查看),同时检查CPU、内存状态是否都正常;

a4e18ae86d13413102c2e5b30d386942.png

1.确认状态都正常后,退出BIOS并进行操作系统,同时LOG报警灯亮的问题也已解决,故障处理完成。

三、经验总结

对于服务器无法开机的问题,首先判断电源是否正常,同时结合服务器诊断面板和IMM管理台,综合判断可以快速定位故障。

责任编辑:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值