故障说明
在12月19日晚19点半左右,客户收到内部告警信息,二节点集群无法连接服务器,并且通过显示器直连服务器时,任然无法直接连接。
故障描述
12月19日故障,工程师分析故障时间点集群日志,在17点53分到18点50分之前,都存在大量线程未分配的报错
故障分析
查看2022年12月19日2节点的主机日志,发现报大量的内核死锁故障,从而导致后面主机卡死,即使显示器直连服务器也是连接不上。
出现死锁原因有如下可能:
1、CPU高负载时间过长
2、服务器电源供电不足,导致CPU电压不稳定
3、vcpus超过物理cpu cores
4、虚机所在的宿主机的CPU太忙或磁盘IO太高
5、虚机机的CPU太忙或磁盘IO太高
6、BIOS开启了超频,导致超频时电压不稳,容易出现CPU死锁
7、Linux kernel或KVM存在bug
8、BIOS Intel C-State开启导致,关闭可解决
9、BIOS spread spectrum开启导致
如上情况都可能导致本次错误。
建议
1.建议主机工程师排查2022年12月19日2节点的系统内核死锁报错。
2. 将watchdog(看门狗)关闭从而关闭cpu死锁检测
检测语句(1为开启,0为关闭)
sysctl kernel.nmi_watchdog
临时关闭
sysctl kernel.nmi_watchdog=0
永久关闭
# 在/etc/sysctl.conf中增加如下内容,开机自动关闭
kernel.nmi_watchdog = 0