本系列文章索引
一般在类unix系统上,都会有系统负载(load average)这个指标,用来形容系统的繁忙程度,值越大则代表系统越繁忙。
查看负载
$ uptime
19:59:57 up 29 days, 7:08, 1 user, load average: 0.57, 0.26, 0.18
我们关注load average后的3个值,分别代表1分钟、5分钟、15分钟的系统平均负载,如果1分钟值>5分钟值>15分钟值,则代表近15分钟内系统压力越来越大,反之亦然。 同样,在top命令的第一行,也能看到系统负载,它的含义和uptime是一样的。
负载是什么
一般来说,系统线程基本都在这3个状态上:运行中,可运行,阻塞等待,其中,运行中的线程正在CPU上跑,可运行的线程等待CPU调度,而阻塞的线程等待锁释放或io完成。
在传统unix系统上(如BSD),系统负载由正在运行的线程以及可运行的线程这2个部分组成。 它能很好的说明CPU的饱和情况,比如4核的CPU,如果负载一直高于4,那说明CPU资源饱和了。
而Linux扩大了负载的定义,如下: Linux负载由正在运行的线程和可运行的线程,以及D状态的线程(一般是等待io完成)这3个部分组成。
因为Linux认为,虽然D状态的线程并不消耗CPU资源,但是它会消耗磁盘、网卡等硬件资源以及锁这样的软件资源,因此它也应该被用来计算系统负载,想来也合理,毕竟系统负载是用来描述整个系统的繁忙程度的,而不仅仅是CPU的。
线程状态D
在Linux里面,线程有如下常见状态:
-
R: 正在运行或可运行状态
-
S: 睡眠状态,被阻塞等待唤醒
-
D: 不可中断睡眠状态,一般是等待io完成
这里面的R与D状态的线程会影响系统负载,因此,当系统负载较高时,可以通过如下命令了解是哪些线程导致的:
ps -eLo pid,tid,stat,comm | grep -E " R|D"
小实验:将系统负载升到100
使用vfork函数创建一个子进程,子进程如果不调用exec系统调用,它的状态会一直是D。
$ cat uninterruptible.c
int main() {
vfork();
sleep(600);
return 0;
}
编译成可执行程序
$ gcc -o uninterruptible uninterruptible.c
运行100个程序
$ for i in {1…100}; do ./uninterruptible &; done
等待1分钟,就会发现系统负载升到了快100,如下:
$ uptime
20:24:42 up 29 days, 7:32, 1 user, load average: 99.94, 74.82, 35.87
可以看到很多D状态的进程
$ ps -eLo pid,tid,stat,pcpu,wchan:32,comm | grep " D"
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!