怎么理解“平均负载”?
平均负载是指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数,它和CPU使用率并没有直接关系。
当平均负载为2时,意味着什么呢?
1.在只有2个CPU的系统上,意味着所有的CPU都刚好被完全占用。
2.在4个CPU的系统上,意味着CPU有50%的空闲。
3.而在只有1个CPU的系统中,则意味着有一半的进程竞争不到CPU。
在 uptime 命令的结果里,那三个时间段的平均负载数,多大的时候能说明系统负载高?或是多小的时候就能说明系统负载很低呢?
首先你要知道系统有几个 CPU,这可以通过 top 命令或者从文件 /proc/cpuinfo 中读取,
1.如果1分钟、5分钟、15分钟的三个值基本相同,或者相差不大,那就说明系统负载很平稳。
2.如果1分钟的值远小于15 分钟的值,就说明系统最近1分钟的负载在减少,而过去15分钟内却有很大的负载。
3.如果1分钟的值远大于 15 分钟的值,就说明最近1分钟的负载在增加,这种增加有可能只是临时性的,也有可能还会持续增加下去,所以就需要持续观察。一旦1分钟的平均负载接近或超过了CPU的个数,就意味着系统正在发生过载的问题,这时就得分析调查是哪里导致的问题,并要想办法优化了。
按照经验来看,当平均负载高于 CPU 数量70%的时候,就应该分析排查负载高的问题了。
既然平均负载代表的是活跃进程数,那平均负载高了,就意味着 CPU 使用率高吗?
CPU 使用率,是单位时间内 CPU 繁忙情况的统计,跟平均负载并不一定完全对应。比如:
1.CPU 密集型进程,使用大量 CPU 会导致平均负载升高,此时这两者是一致的;
2.I/O 密集型进程,等待 I/O 也会导致平均负载升高,但 CPU 使用率不一定很高;
3.大量等待 CPU 的进程调度也会导致平均负载升高,此时的CPU使用率也会比较高。
平均负载提供了一个快速查看系统整体性能的手段,反映了整体的负载情况。但只看平均负载本身,我们并不能直接发现,到底是哪里出现了瓶颈。所以,在理解平均负载时,也要注意:
1.平均负载高有可能是 CPU 密集型进程导致的;
2.平均负载高并不一定代表 CPU 使用率高,还有可能是 I/O 更繁忙了;
3.当发现负载高的时候,你可以使用 mpstat、pidstat 等工具,辅助分析负载的来源。