原先不知从哪里保存的笔记、然后自己加上了了自己的注解(尤其是红色部分),并理顺了逻辑。所以,“魂”是原创,而“身体”不见得是原创。
——但无论如何,我自认为将linux softlock和hardlock说的比较清楚了。
一、先说说我所接触到的watchdog
简而言之,watchdog是为了保证系统正常运行,或者从死循环,死锁等一场状态退出的一种机制。
我所接触的看门狗有两类:
第一类是 Intel 的FRB机制,算是硬件狗吧。
也就是 Intel x86架构使用BMC 的 watchdog实现:
FRB levels 1, 2, and 3 三类故障重启,对应着:
BSP CPU has failed BIST 超时;
BIOS POST 超时;
Hardreset 时,BSP successfully resets and starts executing 超时。
——这里我们将不再继续讨论硬件看门狗。
第二类就是linux操作系统内核的软件看门狗,也是今天的主要内容。
二、软件看门狗 以及softlockup、hardlockup
软件看门狗分为两种,用于检测softlockup的watchdog线程软狗(CPU调度该线程运行来喂狗,基于hrtimer定时器中断来判断是否超过时间阈值),以及检测hard lockup的hrtimer定时器狗(hrtimer定时器溢出中断服务函数来喂狗,基于NMI中断来判断中断计数是否有变化)。
注1:时钟中断优先级小于NMI中断。
注2:lockup,是指某段内核代码占着CPU不放。Lockup严重的情况下会导致整个系统失去响应。
soft lockup 和 hard lockup,soft lockup 是指cpu无法进行线程调度、但仍能够响应中断;而hard lockup 发生在CPU屏蔽中断的情况下,也就是说CPU已经不能响应中断了。
Softlock
标志着单个cpu检测线程已不能正常调度。
watchdog线程软狗的正常流程如下(假设软狗超时的时间为20s)
可能产生softlock的原因:
1.频繁处理硬中断以至于没有时间正常调度线程。
2.长期处理软中断
3.对于非抢占式内核,某个线程长时间执行而不触发调度
4.以上all
hardlock NMI 检测
单个CPU检测中断是否能够正常上报
当CPU处于关中断状态达到一定时间会被判定进入hard lockup
NMI检测流程:
可能产生hardlock狗溢出的原因:
1.长期处理某个硬中断
2.长时间在禁用本地中断下处理
NMI检测hrtimer狗机制也是用一个percpu的hrtim