linux性能优化之平均负载

最新推荐文章于 2024-08-14 22:57:51 发布

weixin_34254823

最新推荐文章于 2024-08-14 22:57:51 发布

阅读量99

点赞数

文章标签：操作系统运维

原文链接：http://blog.51cto.com/12924846/2335289

版权

1. 当系统变慢的时候，我们通常通过命令来查看，top、htop、uptime，但是对于每一列的含义又知道多少。

$uptime 
22:10:59 up 160 days, 13:01,  3 ,  load average: 0.00, 0.01, 0.0

22:10:59 当前时间
up 160 days, 13:01 系统运行时间
3 users 正在登录的用户数量
0.00, 0.01, 0.05 系统1分钟、5分钟、15分钟平均负载

2. 什么是平均负载？

平均负载对于很多人既熟悉又陌生。简单的说，平均负载是指单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数，它和CPU使用率并没有直接关系。

可运行状态：指正在使用CPU或者正在等待CPU的进程，也就是我们常用ps命令查看，处于R状态（Running或Runnable）的进程。

不可中断状态：指正处于内核态关键流程中的进程，并且这些流程是不可中断的，比如常见的是等待硬件设备的I/O响应，也就是我们ps命令看到的D状态（Uninterruptible Sleep，也称为Disk Sleep）的进程。

比如：当一个进程向磁盘读写数据时，为了保证数据的一致性，在得到磁盘回复前，这个进程是不可中断的状态。如果中断，意味着数据将不一致。所以，不可中断状态实际上是系统对进程和硬件设备的一种保护机制。

因此，简单理解为，平均负载其实就是平均活跃进程数。平均活跃进程数，直观上的理解就是单位时间内的活跃进程数，但它实际上是活跃进程数的指数衰减平均值。

既然平均的是活跃进程数，那么最理想的，就是每个CPU上刚好运行着一个进程，这样每个CPU都得到了充分的利用。比如当平均负载为2时，指什么？

在只有2个CPU的系统上，指的是所有CPU都刚好完全占用。

在4个CPU的系统上，指CPU有50%的空闲。

在一个CPU的系统中，指的是有一半的进程竞争不到CPU

3. 平均负载为多少时合理

我们知道，平均负载最理想的情况就是等于CPU的个数。所以在判断平均负载时，首先你要知道系统由几个CPU。

查看CUP个数方法：

1、top =>按数字1，即可显示cpu个数

2、查看文件统计

    grep 'model name' /proc/cpuinfo |wc -l
    8

3、平均负载有三个数值，到底该参考哪一个呢？

三个不同时段的平均值，其实给我们提供了，分析系统趋势的数据来源，让我们更加全面的理解目前的负载情况。

1、如果1分钟、5分钟、15分钟三个值基本相同，表示系统负载很平稳。

2、如果1分钟的值小于15分钟的值，就说明系统最近1分钟的负载在减少，而过去15分钟负载在增加。

3、反之，如果1分钟的值大于15分钟的值，表示在最近1分钟，系统负载在增加，这种增加有可能是临时性的，也有可能持续增加下去，所以就需要持续观察。一旦1分钟的平均负载接近超过了cpu个数，意味着系统正在发生过载的问题，这时，就应该分析哪里导致的问题，并想办法优化。

如：一个单cpu的系统上看到平均负载为 1.73，0.60，7.98，说明在过去1分钟内，系统有73%的超载，在15分钟内，有698%的超载，从整体趋势看，系统的负载在降低。

4、生产环境中，平均负载的问题？

在实际生产环境中，平均负载多高，需要我们关注？

当平均负载高于cpu个数70%的时候，就应该分析哪里出问题了。最好的方法还是把负载监控起来，根据历史数据，判断负载的趋势。当发现负载有明显升高趋势时，如：负载翻倍了，你再去做分析和调查。

4、平均负载与cpu使用率

平均负载指的是，处于可运行状态和不可中断状态的进程数。所以，它不仅包括了正在使用cpu的进程，还包括等待cpu和等待IO的进程。

而cpu使用率，是单位时间内cpu繁忙情况的统计，跟平均负载并不一定完全对应。

如：

cpu密集型进程，使用大量cpu会导致平均负载升高，此时这两者是一致的。

io密集型进程，等待io也会导致平均负载升高，但cpushiyl不一定很高。

大量等待cpu的进程调度也会导致平均负载升高，此时cpu使用率也会比较高。

5、平均负载案例

安装工具

预先安装 stress 和 sysstat 包，如 yum install stress sysstat

stress：是一个linux系统压力测试工具。

sysstat：包含常用的linux性能工具，用来监控和分析系统的性能。案例会用到mpstat和pidstat。

mpstat是一个常用的多核cpu性能分析工具，用来实时查看每一个cpu的性能指标，以及所有cpu的平均指标。

pidstat是常用的进程性能分析工具，用来实时查看进程的cpu、内存、io、以及上下文切换。

案例：此时我的平均负载

[root@localhost test]# uptime 
11:25:04 up 2 days,  2:20,  4 users,  load average: 0.47, 0.32, 0.30

1、模拟cpu密集型进程（cpu使用率100%）

运行命令

$ stress --cpu 1 --timeout 600
[root@localhost test]# uptime 
11:27:41 up 2 days,  2:22,  4 users,  load average: 1.58, 0.65, 0.42

因为我的cpu数量为1。此时1分钟内的平均负载已经过载58%。

运行命令

mpstat -P ALL 5

参数： -P ALL 表示监控所有cpu， 5 表示5s输出一组数据。

[root@localhost ~]# mpstat -P ALL 5
Linux 3.10.0-957.el7.x86_64 (localhost.localdomain)     2019年01月24日     _x86_64_    (1 CPU)
11时36分00秒  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
11时36分05秒  all   96.59    0.00    3.41    0.00    0.00    0.00    0.00    0.00    0.00    0.00
11时36分05秒    0   96.59    0.00    3.41    0.00    0.00    0.00    0.00    0.00    0.00    0.00

查看此时，发现负载的原因是cpu跑满，接近100%，此时io为0%，接下来查看哪个进程导致cpu跑满。

运行命令

[root@localhost ~]# pidstat -u 5 1
Linux 3.10.0-957.el7.x86_64 (localhost.localdomain)     2019年01月24日     _x86_64_    (1 CPU)
11时38分51秒   UID       PID    %usr %system  %guest    %CPU   CPU  Command
11时38分56秒     0      8600    0.00    0.20    0.00    0.20     0  vmtoolsd
11时38分56秒     0     12339    0.00    0.20    0.00    0.20     0  containerd
11时38分56秒     0     24993    0.40    0.20    0.00    0.60     0  phdaemon
11时38分56秒     0    103226   91.65    0.00    0.00   91.65     0  stress
11时38分56秒     0    104114    0.00    0.20    0.00    0.20     0  pidstat

发现stress进程占用cpu很高。

2、IO密集型进程

运行命令

$ stress -i 1 --timeout 600

不停地执行sync：

[root@localhost test]# uptime 
11:46:12 up 2 days,  2:41,  5 users,  load average: 2.41, 2.49, 1.95

系统过载

运行命令，查看cpu指标

# 显示所有 CPU 的指标，并在间隔 5 秒输出一组数据

$ mpstat -P ALL 5 1
Linux 4.15.0 (ubuntu)     09/22/18     _x86_64_    (2 CPU)
13:41:28     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
13:41:33     all    0.21    0.00   12.07   32.67    0.00    0.21    0.00    0.00    0.00   54.84
13:41:33       0    0.43    0.00   23.87   67.53    0.00    0.43    0.00    0.00    0.00    7.74
13:41:33       1    0.00    0.00    0.81    0.20    0.00    0.00    0.00    0.00    0.00   98.99

1分钟的负载慢慢增加，cpu使用率升高到23.87，而iowait高代67.53.平均负载升高的由于iowait的升高。

运行命令，查看哪个进程导致io高

# 间隔 5 秒后输出一组数据，-u 表示 CPU 指标

$ pidstat -u 5 1
Linux 4.15.0 (ubuntu)     09/22/18     _x86_64_    (2 CPU)
13:42:08      UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
13:42:13        0       104    0.00    3.39    0.00    0.00    3.39     1  kworker/1:1H
13:42:13        0       109    0.00    0.40    0.00    0.00    0.40     0  kworker/0:1H
13:42:13        0      2997    2.00   35.53    0.00    3.99   37.52     1  stress
13:42:13        0      3057    0.00    0.40    0.00    0.00    0.40     0  pidstat

stress进程导致的。

3、大量进程

当系统中运行进程超出cpu运行能力，就会出现等待cpu的进程。

$ stress -c 8 --timeout 600

模拟8个进程抢占cpu

$ uptime
..., load average: 7.97, 5.93, 3.02

运行pidstat

# 间隔 5 秒后输出一组数据
$ pidstat -u 5 1
14:23:25      UID       PID    %usr %system %guest   %wait    %CPU   CPU Command
14:23:30        0      3190   25.00    0.00    0.00   74.80   25.00     0 stress
14:23:30        0      3191   25.00    0.00    0.00   75.20   25.00     0 stress
14:23:30        0      3192   25.00    0.00    0.00   74.80   25.00     1 stress
14:23:30        0      3193   25.00    0.00    0.00   75.00   25.00     1 stress
14:23:30        0      3194   24.80    0.00    0.00   74.60   24.80     0 stress
14:23:30        0      3195   24.80    0.00    0.00   75.00   24.80     0 stress
14:23:30        0      3196   24.80    0.00    0.00   74.60   24.80     1 stress
14:23:30        0      3197   24.80    0.00    0.00   74.80   24.80     1 stress
14:23:30        0      3200    0.00    0.20    0.00    0.20    0.20     0 pidstat

8个进程在抢占2个cpu，每个进程等待cpu的时间（也就是%wait）高达75%。

总结：在工作中，大家可以利用合理的工具来分析性能。

最后，邀请大家，一起来讨论平均负载问题，以及更好，更快的解决工作问题，欢迎大家留言评论。

转载于:https://blog.51cto.com/12924846/2335289

weixin_34254823

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux性能优化之平均负载

1. 当系统变慢的时候，我们通常通过命令来查看，top、htop、uptime，但是对于每一列的含义又知道多少。$uptime22:10:59up160days,13:01,3,loadaverage:0.00,0.01,0.022:10:59当前时间up160days,13:01系统运行时间3users正在登录的用户数量0....
复制链接

扫一扫