安装linux系统报softlock_linux系统 之 softlock 和 hardlock

本文详细解析了Linux内核中的watchdog机制,包括硬件看门狗和软件看门狗。重点讨论了softlockup和hardlockup的区别,介绍了它们的检测原理和流程,如watchdog线程、hrtimer中断和NMI中断的角色。通过监控中断次数和调度情况,判断系统是否出现lockup状态,以确保系统的稳定运行。
摘要由CSDN通过智能技术生成

原先不知从哪里保存的笔记、然后自己加上了了自己的注解(尤其是红色部分),并理顺了逻辑。所以,“魂”是原创,而“身体”不见得是原创。

——但无论如何,我自认为将linux softlock和hardlock说的比较清楚了。

一、先说说我所接触到的watchdog

简而言之,watchdog是为了保证系统正常运行,或者从死循环,死锁等一场状态退出的一种机制。

我所接触的看门狗有两类:

第一类是 Intel 的FRB机制,算是硬件狗吧。

也就是 Intel x86架构使用BMC 的 watchdog实现:

FRB levels 1, 2, and 3 三类故障重启,对应着:

BSP CPU has failed BIST 超时;

BIOS POST 超时;

Hardreset 时,BSP successfully resets and starts executing 超时。

——这里我们将不再继续讨论硬件看门狗。

第二类就是linux操作系统内核的软件看门狗,也是今天的主要内容。

二、软件看门狗 以及softlockup、hardlockup

软件看门狗分为两种,用于检测softlockup的watchdog线程软狗(CPU调度该线程运行来喂狗,基于hrtimer定时器中断来判断是否超过时间阈值),以及检测hard lockup的hrtimer定时器狗(hrtimer定时器溢出中断服务函数来喂狗,基于NMI中断来判断中断计数是否有变化)。

注1:时钟中断优先级小于NMI中断。

注2:lockup,是指某段内核代码占着CPU不放。Lockup严重的情况下会导致整个系统失去响应。

soft lockup 和 hard lockup,soft lockup 是指cpu无法进行线程调度、但仍能够响应中断;而hard lockup 发生在CPU屏蔽中断的情况下,也就是说CPU已经不能响应中断了。

Softlock

标志着单个cpu检测线程已不能正常调度。

watchdog线程软狗的正常流程如下(假设软狗超时的时间为20s)

6188eb18c18e518aec5a4c7433efc163.png

可能产生softlock的原因:

1.频繁处理硬中断以至于没有时间正常调度线程。

2.长期处理软中断

3.对于非抢占式内核,某个线程长时间执行而不触发调度

4.以上all

hardlock NMI 检测

单个CPU检测中断是否能够正常上报

当CPU处于关中断状态达到一定时间会被判定进入hard lockup

NMI检测流程:

c76061edf1c219da075ad217d645947e.png

可能产生hardlock狗溢出的原因:

1.长期处理某个硬中断

2.长时间在禁用本地中断下处理

NMI检测hrtimer狗机制也是用一个percpu的hrtim

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值