ksoftirqd/n 占用cpu 100%

1.背景

当来自设备的中断时,操作系统会暂停它正在执行的操作并开始寻址该中断。

在某些情况下,IRQ一个接一个地非常快,操作系统无法在另一个到达之前完成一个服务。当高速网卡在短时间内收到大量数据包时,就会发生这种情况。

因为操作系统在到达时无法处理IRQ(因为它们一个接一个地到达得太快),

操作系统会将它们排队等待稍后由名为ksoftirqd的/n(n为cpu的逻辑号)的内核线程处理。

每个ksoftirqd/n内核线程都运行ksoftirqd()函数,实际上该函数执行下面的循环:

for (;;)
{
    set_current_state(TASK_INTERRUPTIBLE);
    schedule();
    while (local_softirq_pending())
    {
        preempt_disable();
        do_softirq(); // 处理软中断
        preempt_enable();
        cond_resched();
    }
}

如果ksoftirqd占用的CPU时间超过一小部分,则表示机器处于严重的中断负载下。

2.解决方法

可以用cat /proc/interrupts来查看设备造成的中断情况

例如某天我的是这样

           CPU0       CPU1       CPU2       CPU3       CPU4       CPU5       CPU6       CPU7       
  0:         44          0          0          0          0          0          0          0   IO-APIC   2-edge      timer
  1:          0          1          1          0          0          0          0          1   IO-APIC   1-edge      i8042
  8:          1          0          0          0          0          0          0          0   IO-APIC   8-edge      rtc0
  9:          0          0          0          0          0          0          0          0   IO-APIC   9-fasteoi   acpi
 12:          0          0          0          0          2          1          1          0   IO-APIC  12-edge      i8042
 14:         16      35619    2171878      33951    2172032      35710    2172366      35859   IO-APIC  14-edge      ata_piix
 15:          0          0          0          0          0          0          0          0   IO-APIC  15-edge      ata_piix
 16:       1492       1492       1492   38096398       1489       1492       1496       1491   IO-APIC  16-fasteoi   ioc0
 19:         38         38         37         38         37         39         38         38   IO-APIC  19-fasteoi   radeon
 20:          3          3          4          4          5          3          4          4   IO-APIC  20-fasteoi   uhci_hcd:usb3, uhci_hcd:usb5
 21:          4          3          4          3          5          4          4          4   IO-APIC  21-fasteoi   ehci_hcd:usb1, uhci_hcd:usb2, uhci_hcd:usb4
 24:          0          0          0          0          0          0          0          0   PCI-MSI 32768-edge      PCIe PME
 25:          0          0          0          0          0          0          0          0   PCI-MSI 49152-edge      PCIe PME
 26:          0          0          0          0          0          0          0          0   PCI-MSI 65536-edge      PCIe PME
 27:          0          0          0          0          0          0          0          0   PCI-MSI 81920-edge      PCIe PME
 28:          0          0          0          0          0          0          0          0   PCI-MSI 98304-edge      PCIe PME
 29:          0          0          0          0          0          0          0          0   PCI-MSI 114688-edge      PCIe PME
 30:          0          0          0          0          0          0          0          0   PCI-MSI 458752-edge      PCIe PME
 31:       1380       1346       1353       1339       1339       1357       1329       1360   PCI-MSI 3670016-edge      eno2
 32:   85511967   85513711   85083641   83994544   85084225   85501922   85093691   85515746   PCI-MSI 1572864-edge      eno1
NMI:     234694     241328     233682     235747     227371     232679     239850     230941   Non-maskable interrupts
LOC:  809615451  844980307  827224481  872760389  798336595  856256586  824716208  858800687   Local timer interrupts
SPU:          0          0          0          0          0          0          0          0   Spurious interrupts
PMI:     234694     241328     233682     235747     227371     232679     239850     230941   Performance monitoring interrupts
IWI:     234691     241323     233680     235741     227368     232677     239846     230941   IRQ work interrupts
RTR:          0          0          0          0          0          0          0          0   APIC ICR read retries
RES:   50636771   36959166   32328971   32915351   29242823   29889193   29928230   31502838   Rescheduling interrupts
CAL:    4443659    7479033    5592654    1507128    4465404    8053047    5214542    1501877   Function call interrupts
TLB:    6476601    6460251    6517362    6225272    6466684    6345076    6491077    6193616   TLB shootdowns
TRM:          0          0          0          0          0          0          0          0   Thermal event interrupts
THR:          0          0          0          0          0          0          0          0   Threshold APIC interrupts
DFR:          0          0          0          0          0          0          0          0   Deferred Error APIC interrupts
MCE:          0          0          0          0          0          0          0          0   Machine check exceptions
MCP:      22724      22724      22724      22724      22724      22724      22724      22724   Machine check polls
ERR:          0
MIS:          0
PIN:          0          0          0          0          0          0          0          0   Posted-interrupt notification event
PIW:          0          0          0          0          0          0          0          0   Posted-interrupt wakeup event

注意到序号32那爆炸的中断数量,可以断定是网卡瘫痪了。只需要ifdown eno1 && ifup eno1重启网卡即可。

当你想要查询Linux系统CPU状态时,可以使用top命令。Top命令可以显示系统当前的进程信息以及资源占用情况,其中包括CPU占用情况。 以下是一个简单的脚本,使用top命令查询CPU状态并输出到终端: ``` #!/bin/bash while true do clear top -b -n 1 | head -n 20 sleep 1 done ``` 这个脚本会循环执行top命令,每秒钟更新一次CPU状态信息。执行脚本后,你可以在终端上看到类似下面的输出: ``` top - 12:45:15 up 5 min, 1 user, load average: 0.74, 0.47, 0.24 Tasks: 211 total, 1 running, 210 sleeping, 0 stopped, 0 zombie %Cpu(s): 25.3 us, 4.3 sy, 0.0 ni, 70.3 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st KiB Mem : 2048000 total, 151664 free, 272236 used, 1629100 buff/cache KiB Swap: 1048572 total, 1048572 free, 0 used. 1496540 avail Mem PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 4054 user 20 0 112548 5764 3208 R 16.7 0.3 0:00.02 top 1 root 20 0 225280 6356 3876 S 0.0 0.3 0:01.17 systemd 2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd 3 root 20 0 0 0 0 S 0.0 0.0 0:00.02 ksoftirqd/0 5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:+ 7 root RT 0 0 0 0 S 0.0 0.0 0:00.00 migration/0 8 root RT 0 0 0 0 S 0.0 0.0 0:00.00 rcu_bh 9 root RT 0 0 0 0 S 0.0 0.0 0:00.00 rcu_sched 10 root 20 0 0 0 0 S 0.0 0.0 0:00.00 lru-add-dr+ 11 root 20 0 0 0 0 S 0.0 0.0 0:00.00 watchdog/0 12 root 20 0 0 0 0 S 0.0 0.0 0:00.00 cpuhp/0 13 root 20 0 0 0 0 S 0.0 0.0 0:00.00 cpuhp/1 14 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kdevtmpfs 15 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 netns ``` 其中,%Cpu(s)行显示了CPU占用情况,包括用户态进程占用时间(us)、系统态进程占用时间(sy)、空闲时间(id)等。PID、COMMAND等列则显示了当前正在运行的进程信息。 你可以按q键退出top命令并停止脚本的执行。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值