oracle一次看门狗(watchdog)导致的卡顿案例

故障说明

在12月19日晚19点半左右,客户收到内部告警信息,二节点集群无法连接服务器,并且通过显示器直连服务器时,任然无法直接连接。

故障描述

12月19日故障,工程师分析故障时间点集群日志,在17点53分到18点50分之前,都存在大量线程未分配的报错

故障分析

查看2022年12月19日2节点的主机日志,发现报大量的内核死锁故障,从而导致后面主机卡死,即使显示器直连服务器也是连接不上。
在这里插入图片描述

出现死锁原因有如下可能:
1、CPU高负载时间过长
2、服务器电源供电不足,导致CPU电压不稳定
3、vcpus超过物理cpu cores
4、虚机所在的宿主机的CPU太忙或磁盘IO太高
5、虚机机的CPU太忙或磁盘IO太高
6、BIOS开启了超频,导致超频时电压不稳,容易出现CPU死锁
7、Linux kernel或KVM存在bug
8、BIOS Intel C-State开启导致,关闭可解决
9、BIOS spread spectrum开启导致
如上情况都可能导致本次错误。

建议

1.建议主机工程师排查2022年12月19日2节点的系统内核死锁报错。
在这里插入图片描述
2. 将watchdog(看门狗)关闭从而关闭cpu死锁检测
检测语句(1为开启,0为关闭)
sysctl kernel.nmi_watchdog

临时关闭
sysctl kernel.nmi_watchdog=0

永久关闭
# 在/etc/sysctl.conf中增加如下内容,开机自动关闭
kernel.nmi_watchdog = 0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

汪灵骅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值