【vSphere故障案例】

案例三:服务器内存故障 ESXi5.0主机挂起(或死机)

Dell R720服务器的LED面板上亮黄灯,显示报错信息:“MEM0702 Correctable memory error rate exceeded for DIMM_A12. Reseat memory。”

发生时间:2012-11-28 (星期三)

硬件:DELL PowerEdge R720  Intel Xeon E5-26090 2.40GHz 4x1/192G/1TBx12

软件:VMware ESXi 5.0-623860

故障现象:主机失去连接,部分虚拟主机不能网络连接,物理主机不能连接控制台vCenter

故障原因:内存报错,主机负载太大,发烫、散热小。

解决建议:关机,更换内存(或重新插拔内存),重启。

处理故障过程(方法):1、接显视器,查看主机208.212运行状况和网络配置信息,均正常,切换Shell界面查看,显示内存告警,服务器进入死机状态;2、服务器指示灯亮黄灯,显示内存告警,重启服务器报B5B6B9B10内存错误、服务器关机,将B5B6B9B10内存拔下启动自检不能通过;3、更换新采购8G内存4条,开机启动,自检通过,服务器重启并能正常启动;