一:概述

相信VMware的工程师对紫屏不会陌生,紫屏死机(PSoDs, Purple Screen of Death)是发生在ESXI上的一种故障,类似于微软Windows操作系统的蓝屏。紫屏情况通常是由于硬件和软件故障导致的,比如软件bug、CPU、内存泄露等原因。当发生紫屏故障时整个ESXI主机会突然崩溃,当紫屏故障发生后管理员能做的只有记录紫屏信息以及重启主机,也就是说ESXI主机上面的虚拟机将会受到影响;如果有HA机制的话则会迁移到其他可用的ESXI主机。

当发现ESXI主机出现紫屏现状时第一时间应该将紫屏的信息记录下来,简单的办法就是将当前的屏幕信息截图或者拍照下来,因为里面包括很多重要的信息;在里面可以显示和了解到ESXI版本和build号、异常类型、寄存器转储(register dump)、崩溃时每个CPU正在跑什么、回溯追踪(back-trace)、服务器运行时间、错误日志、内存硬件信息等。当将ESXI主机重启后,还可以通过ESXI主机的/root或者//var/core/获取vmkernel-zdump文件,当发生紫屏后会有一个以vmkernel-zdump开头(命名)的文件,可以将该文件提交给VMware的技术支持帮助进行故障分析;同时也可以额借助通过vmkdump工具提取 VMkernel日志信息、寻找与PSoDs有关的线索,从而判断PSoDs发生的原因。关于提取和识别vmkernel-zdump查阅官方KB:https://kb.vmware.com/s/article/1006796?lang=zh_CN

clip_image002

二:理解紫屏信息

通过紫屏后屏幕信息都可以获取到很多关键信息,管理员可以快速的借助这些信息进行故障定位和排查。错误会显示在紫色诊断屏幕中。紫色诊断屏幕大致如下所示:

clip_image004

通过以上内容可以查看到几个关键信息

· 产品和内部版本