平均负载

最新推荐文章于 2022-06-23 10:31:57 发布

lwj~

最新推荐文章于 2022-06-23 10:31:57 发布

阅读量176

点赞数

分类专栏： linux

本文链接：https://blog.csdn.net/qq_41754573/article/details/104104652

版权

linux 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

平均负载：系统处于可运行状态和不可终端状态的平均进程数，也就是平均活跃进程数，和cpu使用率没有直接关系。

假设我们在一个单 CPU 系统上看到平均负载为 1.73，0.60，7.98，那么说明在过去 1 分钟内，系统有 73% 的超载，而在 15 分钟内，有 698% 的超载，从整体趋势来看，系统的负载在降低。

不可中断状态实际上是系统对进程和硬件设备的一种保护机制。

通常当平均负载高于 CPU 数量 70% 的时候，就应该分析排查负载高的问题了。

cpu使用率和平均负载区别

平均负载，不仅包括了正在使用 CPU 的进程，还包括等待 CPU 和等待 I/O 的进程。

CPU 使用率，是单位时间内 CPU 繁忙情况的统计，跟平均负载并不一定完全对应。

CPU 密集型进程，使用大量 CPU 会导致平均负载升高，此时这两者是一致的；
I/O 密集型进程，等待 I/O 也会导致平均负载升高，但 CPU 使用率不一定很高；
大量等待 CPU 的进程调度也会导致平均负载升高，此时的 CPU 使用率也会比较高。

命令
1. uptime

root@lwj:~# uptime
 09:59:07 up 79 days, 22:06,  1 user,  load average: 0.00, 0.00, 0.00
//当前时间，系统运行时间，登陆用户数，过去1，5，15分钟的平均负载

2. ps

root@lwj:~# ps -r
  PID TTY      STAT   TIME COMMAND
22390 pts/0    R+     0:00 ps -r
//可运行状态的进程

root@lwj:~# ps -d
  PID TTY          TIME CMD
    2 ?        00:00:00 kthreadd
    	...
//不可打断的进程（比如等待硬件设备的I/O相应）

3. 查看CPU 个数命令

方法1.root@lwj:~# grep 'model name' /proc/cpuinfo | wc -l
1
方法2.top命令

实例（平均负载分析）

用 iostat、mpstat、pidstat 等工具
stress，Linux系统压力测试工具
sysstat包含常用的linux性能工具，用来监控和分析系统的性能（mpstat和pidstat）

mpstat多核 CPU 性能分析工具，用来实时查看每个 CPU 的性能指标，以及所有 CPU 的平均指标。
pidstat 是一个常用的进程性能分析工具，用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。

实例一：cpu密集型进程
第一个终端运行 stress 命令，模拟一个 CPU 使用率 100% 的场景：

root@lwj:~# stress --cpu 1 --timeout 600
stress: info: [22452] dispatching hogs: 1 cpu, 0 io, 0 vm, 0 hdd

在第二个终端运行 uptime 查看平均负载的变化情况：

# -d 参数表示高亮显示变化的区域
$ watch -d uptime
..., load average: 1.00, 0.75, 0.39

第三个终端运行 mpstat 查看 CPU 使用率的变化情况：

//-P ALL 表示监控所有CPU，后面数字5表示间隔5秒后输出一组数据
root@lwj:~# mpstat -P ALL 5
Linux 4.4.0-165-generic (lwj) 	01/29/2020 	_x86_64_	(1 CPU)

10:48:05 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
10:48:10 AM  all   99.80    0.00    0.20    0.00    0.00    0.00    0.00    0.00    0.00    0.00
10:48:10 AM    0   99.80    0.00    0.20    0.00    0.00    0.00    0.00    0.00    0.00    0.00

从终端二中可以看到，1 分钟的平均负载会慢慢增加到 1.00，而从终端三中还可以看到，正好有一个 CPU 的使用率为 100%，但它的 iowait 只有 0。这说明，平均负载的升高正是由于 CPU 使用率为 100% 。

//查询哪个进程导致了 CPU 使用率为 100% ，用pidstat
root@lwj:~# pidstat -u 5 1
Linux 4.4.0-165-generic (lwj) 	01/29/2020 	_x86_64_	(1 CPU)

10:51:58 AM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
10:52:03 AM     0     22453   99.80    0.00    0.00   99.80     0  stress


Average:      UID       PID    %usr %system  %guest    %CPU   CPU  Command
Average:        0     22453   99.80    0.00    0.00   99.80     -  stress
//stree进程占用100%cpu

场景二：I/O密集型进程

//1.模拟I/O压力（不停执行sync）
stress -i 1 --timeout 600

//2.查看平均负载情况
$ watch -d uptime
..., load average: 1.06, 0.58, 0.37

//3.用mpstat查看cpu使用率，iowait 的升高。
$ mpstat -P ALL 5 1
13:41:28 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
13:41:33 all 0.21 0.00 12.07 32.67 0.00 0.21 0.00 0.00 0.00 54.84

//4.pidstat 查询导致iowait升高原因
//还是commod：stree进程

场景三：大量进程的场景

//1.用 stress模拟的是 8 个进程：
$ stress -c 8 --timeout 600

//系统只有1个CPU，严重过载
$ uptime
..., load average: 7.97, 5.93, 3.02

总结

平均负载高有可能是 CPU 密集型进程导致的；
平均负载高并不一定代表 CPU 使用率高，还有可能是 I/O 更繁忙了；
当发现负载高的时候，可以使用 mpstat、pidstat 等工具，辅助分析负载的来源。

lwj~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
平均负载

平均负载：系统处于可运行状态和不可终端状态的平均进程数，也就是平均活跃进程数，和cpu使用率没有直接关系。假设我们在一个单 CPU 系统上看到平均负载为 1.73，0.60，7.98，那么说明在过去 1 分钟内，系统有 73% 的超载，而在 15 分钟内，有 698% 的超载，从整体趋势来看，系统的负载在降低。不可中断状态实际上是系统对进程和硬件设备的一种保护机制。通常当平均负载高于 CPU...
复制链接

扫一扫