上个月,有一台ESXi主机突然紫屏死机,重启后主机可以恢复正常,当时的紫屏信息如下:
紫屏画面中直接报了Hardware Error - Please contact the hardware vendor。
硬件错误,建议联络硬件厂商。
于是赶紧查看一下dump日志信息,在/var/core中找到了zdump文件。查看发现有如下信息:
Backtrace for current CPU #88
Machine Check Exception: Fatal MCE on PCPU88
System has encountered a Hardware Error - Please contact the hardware vendor
查询VMware官方KB也说明了MCE的错误是硬件故障导致。KB中明确说明如果抛出 MCE 并显示紫色诊断屏幕,则说明是硬件问题引起的。没有其他方法可以生成 MCE。
KB如下:
https://kb.vmware.com/s/article/1005184?lang=zh_CN
由于CPU核心的编号是从0开始,所以CPU88就是第89个物理核心。
使用esxcfg-info -a命令查看,得到如下信息:CPU88在node2上也就是第三个槽位的CPU。
\==+CpuImpl :
|----ID........................................88
|----Family....................................6
|----Model.....................................85
|----Type......................................0
|----Stepping..................................4
|----Name......................................GenuineIntel
|----CPU Speed.................................2095077810
|----Bus Speed.................................24941398
|----APIC ID...................................0x00000058
|----Node......................................2
联络硬件厂商,更换CPU,更换后运行一周时间,目前没有紫屏现象发生,本次故障应该是得到解决了。