VMware ESXi 宕机分析过程

这篇博客记录了ESXi 6.0主机因CPU心跳超时导致宕机的问题分析过程。从vCenter收集日志、检查历史日志文件,发现紫屏dump文件,通过vmkdump命令分析后,判断可能是CPU通信超时问题。虽然未找到特定故障原因,但参考ESXi 6.0U2发行说明,确认类似问题已在更新中解决。最终建议升级到ESXi 6.0 U3来解决此问题。
摘要由CSDN通过智能技术生成

近期发现ESXI主机宕机导致视频会议系统故障,整理分析过程如下:
环境为ESXi 6.0,被vCenter 6.7U1管理,宕机后并未拍屏幕而直接重启了主机。

  1. 从vCenter层面收集ESXi 系统日志,只看到实时日志,未看到宕机前的日志信息。
  2. ssh 连接到esxi, cd /var/log也未看到压缩的历史日志文件,从vmksummary.log看到主机重启后的时间,并有提示已经找到DUMP文件,故障时间点基本确认

2019-04-16T19:54:13Z bootstop: Host has booted
2019-04-16T19:54:13Z bootstop: partition core dump found

  1. cd /scratch 看到有log文件夹,ls log 看到了大量压缩的历史日志文件

VMware ESXi 宕机分析过程

原来日志被重定向到这里来了。

4、根据时间点查看历史日志文件内容,并未发现有用信息。

5、ls /scratch/core 看到有一个vmkernel-zdump.1 的dump文件,基本确认主机发了生紫屏才宕机的

6、如何分析打开这个文件呢?网上查询了VM 也有KB说明,根据KB使用一个命令:
vmkdump -l vmkernel-zdump.1 会创建一个vmkernel.log.1 的文件,可用cat 或vi或其它文本工具查看:
^[[7m2019-04-15T11:31:36.550Z cpu30:32805)WARNING: Heartbeat: 781: PCPU 26 didn't have a heartbeat for 21 seconds; may be locked up.^[[0m
^[[31;1m2019-04-15T11:31:36.550Z cpu26:33339)ALERT: NMI: 681: NMI IPI recvd. We Halt. eip(base):ebp:cs [0x3080cd(0x41800d800000):0x1:0x4010](Src0x1, CPU26)^[[0m
2019-04-15T11:31:36.550Z cpu30:32805)World: 9729: PRDA 0x418047800000 ss 0x0 ds 0x10b es 0x10b fs 0x10b gs 0x0
20

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值