1. 概念
平均负载:指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数。用人话说,就是指定时间单位内,有多少个可以执行的线程。
我们举个例子:假设你的服务器只有一个进程(单线程),这个进程跑满了CPU(CPU使用率100%),那么你服务器的负载就是1。
2. 负载的影响
负载低:表明该服务器啥都没运行,空闲状态,浪费资源,浪费电。
负载高:多个进程争抢资源(IO/CPU),导致服务响应较慢,影响用户体验。
3. 负载的查看
很简单,top命令即可查看,如图:
右上角的load average就是平均负载的意思,从左到右分别是1分钟内的平均负载,5分钟内的平均负载,15分钟内的平均负载。
有人说了你的例子看起来负载不是1就是2,这图上咋显示0.12呢?
我们注意了,1分钟内的平均负载是0.12,假设每隔60s统计一次,那么第0秒有一个进程在占用cpu(使用率100%),第60s统计一次,没有进程在用cpu(使用率0%),那么这一分钟内的平均负载就是(0+1)/2 就是0.5,当然这样算下来0.12也很正常。
4. 导致负载变高的原因
在1. 概念中,我们的人话里介绍了,负载表达的是:指定时间单位内,有多少个可以执行的线程。
如何定义可执行的线程呢:
- 真的在CPU上执行(线程状态为Running)
- CPU不够了,在等待执行(线程状态为Runnable)
- CPU在等待资源(状态wait)
以上三种进程的状态会被归纳到负载里。
所以:
- CPU密集型的程序会导致负载急速上升。
- IO密集型的程序也会导致负载上升。
- 一台机器上布置了大量服务也会导致负载上升。
5. 负载多高才算正常呢
负载越低,表明服务器上的资源越多,还可以部署的服务就越多。负载低时,服务能快速获取资源,服务响应较快。
负载越高,表明服务器上的资源越少,还可以部署的服务就越少。负载高时,进程们争抢资源(IO/CPU),服务响应就会下降。
那么多少的负载才能达到一个资源与服务的平衡呢。
平均负载最理想的情况是等于 CPU 个数,通过以下命令可以知道CPU个数:
grep 'model name' /proc/cpuinfo | wc -l
大致负载达到CPU个数的70%为理想状态,负载再多就该扩容或者优化程序啦。
6. 查找负载高的进程
以前老东家一台机器上就布置一个服务进程,机器负载升高一定是我们的服务影响的。
但新东家整个集群整个公司一起用,虽然有隔离,但还是不可避免的有相互影响。
给大家介绍一个工具:pidstat,注释:坑爹的需要root权限,对于大厂来说,线上机器不可能有这个软件,有root权限的不会出负载问题。
第一步:top
根据top,第一个红框高代表CPU(user, system)高,第二个红框(IOWait)高代表IO高。
第二步:pdistat
根据第一步分析的到底是IO高还是CPU高。找出IO、CPU高对应的进程,如下:
pidstat -u 5 1
该命令可打印出每个进程的IOWait和CPU,找到CPU/IO高的进程,即可找到对应的进程号啦。