docker容器cpu高问题排查_CPU飙高，系统性能问题如何排查？

最新推荐文章于 2024-07-08 17:35:04 发布

weixin_39635373

最新推荐文章于 2024-07-08 17:35:04 发布

阅读量1.4k

点赞数

文章标签： docker容器cpu高问题排查

本文链接：https://blog.csdn.net/weixin_39635373/article/details/112484990

版权

本文详细探讨了Linux系统中CPU高和Load Average升高的原因，以及如何进行性能排查。通过分析进程状态，如D态、R态、S态等，解释了Load Average不仅反映CPU负载，还包含I/O负载。当遇到CPU使用率高时，可能是CPU sys、软中断或用户进程导致。而Load高但CPU低的情况则暗示I/O问题。排查策略包括使用top、vmstat、iostat等工具，从资源瓶颈定位到热点进程、线程及内部资源分析，最后通过perf、jstack等工具精确定位问题。

摘要由CSDN通过智能技术生成

一背景知识

LINUX进程状态

LINUX 2.6以后的内核中，进程一般存在7种基础状态：D-不可中断睡眠、R-可执行、S-可中断睡眠、T-暂停态、t-跟踪态、X-死亡态、Z-僵尸态，这几种状态在PS命令中有对应解释。

D (TASK_UNINTERRUPTIBLE)，不可中断睡眠态。顾名思义，位于这种状态的进程处于睡眠中，并且不允许被其他进程或中断(异步信号)打断。因此这种状态的进程，是无法使用kill -9杀死的(kill也是一种信号)，除非重启系统(没错，就是这么头硬)。不过这种状态一般由I/O等待(比如磁盘I/O、网络I/O、外设I/O等)引起，出现时间非常短暂，大多很难被PS或者TOP命令捕获(除非I/O HANG死)。SLEEP态进程不会占用任何CPU资源。

R (TASK_RUNNING)，可执行态。这种状态的进程都位于CPU的可执行队列中，正在运行或者正在等待运行，即不是在上班就是在上班的路上。

S (TASK_INTERRUPTIBLE)，可中断睡眠态。不同于D，这种状态的进程虽然也处于睡眠中，但是是允许被中断的。这种进程一般在等待某事件的发生(比如socket连接、信号量等)，而被挂起。一旦这些时间完成，进程将被唤醒转为R态。如果不在高负载时期，系统中大部分进程都处于S态。SLEEP态进程不会占用任何CPU资源。

T&t (__TASK_STOPPED & __TASK_TRACED)，暂停or跟踪态。这种两种状态的进程都处于运行停止的状态。不同之处是暂停态一般由于收到SIGSTOP、SIGTSTP、SIGTTIN、SIGTTOUT四种信号被停止，而跟踪态是由于进程被另一个进程跟踪引起(比如gdb断点)。暂停态进程会释放所有占用资源。

Z (EXIT_ZOMBIE), 僵尸态。这种状态的进程实际上已经结束了，但是父进程还没有回收它的资源(比如进程的描述符、PID等)。僵尸态进程会释放除进程入口之外的所有资源。

X (EXIT_DEAD), 死亡态。进程的真正结束态，这种状态一般在正常系统中捕获不到。

Load Average & CPU使用率

谈到系统性能，Load和CPU使用率是最直观的两个指标，那么这两个指标是怎么被计算出来的呢？是否能互相等价呢？

Load Average

不少人都认为，Load代表正在CPU上运行&等待运行的进程数，即

但Linux系统中，这种描述并不完全准确。

以下为Linux内核源码中Load Average计算方法，可以看出来，因此除了可执行态进程，不可中断睡眠态进程也会被一起纳入计算，即：

staticunsignedlongcount_active_tasks(void) {structtask_struct*p;unsignedlongnr=0;read_lock(&tasklist_lock);for_each_task(p) {if ((p->state==TASK_RUNNING610 (p->state&TASK_UNINTERRUPTIBLE)))nr+=FIXED_1; }read_unlock(&tasklist_lock);returnnr; }......staticinlinevoidcalc_load(unsignedlongticks) {unsignedlongactive_tasks; /* fixed-point */628staticintcount=LOAD_FREQ;count-=ticks;if (count<0) {count+=LOAD_FREQ;active_tasks=count_active_tasks();CALC_LOAD(avenrun[0], EXP_1, active_tasks);CALC_LOAD(avenrun[1], EXP_5, active_tasks);ALC_LOAD(avenrun[2], EXP_15, active_tasks); } }

在前文 Linux进程状态中有提到过，不可中断睡眠态的进程(TASK_UNINTERRUTED)一般都在进行I/O等待，比如磁盘、网络或者其他外设等待。由此我们可以看出，Load Average在Linux中体现的是整体系统负载，即CPU负载 + Disk负载 + 网络负载 + 其余外设负载，并不能完全等同于CPU使用率(这种情况只出现在Linux中，其余系统比如Unix，Load还是只代表CPU负载)。

CPU使用率

CPU的时间分片一般可分为4大类：用户进程运行时间 - User Time, 系统内核运行时间 - System Time, 空闲时间 - Idle Time, 被抢占时间 - Steal Time。除了Idle Time外，其余时间CPU都处于工作运行状态。