平均负载:系统处于可运行状态和不可终端状态的平均进程数,也就是平均活跃进程数,和cpu使用率没有直接关系。
假设我们在一个单 CPU 系统上看到平均负载为 1.73,0.60,7.98,那么说明在过去 1 分钟内,系统有 73% 的超载,而在 15 分钟内,有 698% 的超载,从整体趋势来看,系统的负载在降低。
不可中断状态实际上是系统对进程和硬件设备的一种保护机制。
通常当平均负载高于 CPU 数量 70% 的时候,就应该分析排查负载高的问题了。
cpu使用率和平均负载区别
平均负载,不仅包括了正在使用 CPU 的进程,还包括等待 CPU 和等待 I/O 的进程。
CPU 使用率,是单位时间内 CPU 繁忙情况的统计,跟平均负载并不一定完全对应。
- CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的;
- I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高;
- 大量等待 CPU 的进程调度也会导致平均负载升高,此时的 CPU 使用率也会比较高。
命令
1. uptime
root@lwj:~# uptime
09:59:07 up 79 days, 22:06, 1 user, load average: 0.00, 0.00, 0.00
//当前时间,系统运行时间,登陆用户数,过去1,5,15分钟的平均负载
2. ps
root@lwj:~# ps -r
PID TTY STAT TIME COMMAND
22390 pts/0 R+ 0:00 ps -r
//可运行状态的进程
root@lwj:~# ps -d
PID TTY TIME CMD
2 ? 00:00:00 kthreadd
...
//不可打断的进程(比如等待硬件设备的I/O相应)
3. 查看CPU 个数命令
方法1.root@lwj:~# grep 'model name' /proc/cpuinfo | wc -l
1
方法2.top命令
实例(平均负载分析)
用 iostat、mpstat、pidstat 等工具
stress,Linux系统压力测试工具
sysstat包含常用的linux性能工具,用来监控和分析系统的性能(mpstat和pidstat)
- mpstat多核 CPU 性能分析工具,用来实时查看每个 CPU 的性能指标,以及所有 CPU 的平均指标。
- pidstat 是一个常用的进程性能分析工具,用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。
实例一:cpu密集型进程
第一个终端运行 stress 命令,模拟一个 CPU 使用率 100% 的场景:
root@lwj:~# stress --cpu 1 --timeout 600
stress: info: [22452] dispatching hogs: 1 cpu, 0 io, 0 vm, 0 hdd
在第二个终端运行 uptime 查看平均负载的变化情况:
# -d 参数表示高亮显示变化的区域
$ watch -d uptime
..., load average: 1.00, 0.75, 0.39
第三个终端运行 mpstat 查看 CPU 使用率的变化情况:
//-P ALL 表示监控所有CPU,后面数字5表示间隔5秒后输出一组数据
root@lwj:~# mpstat -P ALL 5
Linux 4.4.0-165-generic (lwj) 01/29/2020 _x86_64_ (1 CPU)
10:48:05 AM CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
10:48:10 AM all 99.80 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00
10:48:10 AM 0 99.80 0.00 0.20 0.00 0.00 0.00 0.00 0.00 0.00 0.00
从终端二中可以看到,1 分钟的平均负载会慢慢增加到 1.00,而从终端三中还可以看到,正好有一个 CPU 的使用率为 100%,但它的 iowait 只有 0。这说明,平均负载的升高正是由于 CPU 使用率为 100% 。
//查询哪个进程导致了 CPU 使用率为 100% ,用pidstat
root@lwj:~# pidstat -u 5 1
Linux 4.4.0-165-generic (lwj) 01/29/2020 _x86_64_ (1 CPU)
10:51:58 AM UID PID %usr %system %guest %CPU CPU Command
10:52:03 AM 0 22453 99.80 0.00 0.00 99.80 0 stress
Average: UID PID %usr %system %guest %CPU CPU Command
Average: 0 22453 99.80 0.00 0.00 99.80 - stress
//stree进程占用100%cpu
场景二:I/O密集型进程
//1.模拟I/O压力(不停执行sync)
stress -i 1 --timeout 600
//2.查看平均负载情况
$ watch -d uptime
..., load average: 1.06, 0.58, 0.37
//3.用mpstat查看cpu使用率,iowait 的升高。
$ mpstat -P ALL 5 1
13:41:28 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
13:41:33 all 0.21 0.00 12.07 32.67 0.00 0.21 0.00 0.00 0.00 54.84
//4.pidstat 查询导致iowait升高原因
//还是commod:stree进程
场景三:大量进程的场景
//1.用 stress模拟的是 8 个进程:
$ stress -c 8 --timeout 600
//系统只有1个CPU,严重过载
$ uptime
..., load average: 7.97, 5.93, 3.02
总结
- 平均负载高有可能是 CPU 密集型进程导致的;
- 平均负载高并不一定代表 CPU 使用率高,还有可能是 I/O 更繁忙了;
- 当发现负载高的时候,可以使用 mpstat、pidstat 等工具,辅助分析负载的来源。