背景
本文主要解决如何在 Linux 容器中正确获取 Loadavg 信息。
我们 cat /proc/loadavg 时会发现如下值:
$ > cat /proc/loadavg
0.64 0.81 0.86 3/364 6930
这些值的含义依次为:
- 0.64:1-分钟平均负载。
- 0.81:5-分钟平均负载。
- 0.86:15-分钟平均负载。
- 3: 在采样时刻,运行队列的任务的数目。
- 364: 在采样时刻,系统中活跃的任务的个数(不包括运行已经结束的任务)。
- 6930: 最大的 pid 值,包括轻量级进程,即线程。
平均负载定义:在特定时间间隔内运行队列中的平均进程数。
进程状态定义
- R (TASK_RUNNING),可执行状态。
- S (TASK_INTERRUPTIBLE),可中断的睡眠状态。
- D (TASK_UNINTERRUPTIBLE),不可中断的睡眠状态。
- T (TASK_STOPPED or TASK_TRACED),暂停状态或跟踪状态。
- Z (TASK_DEAD – EXIT_ZOMBIE),退出状态,进程成为僵尸进程。
- X (TASK_DEAD – EXIT_DEAD),退出状态,进程即将被销毁。
如何计算 Loadavg?
计算公式:
load(t) = load(t-1) * exp(-5/60R) + n(t) * (1 – exp(5/60R))
n(t) 是系统活动的进程数, R 对应1、5、15分钟(如当计算15分钟的平均负载时,R 的值就为15)。
Linux 内核认为进程的生存时间服从参数为 1 的指数分布,指数分布的概率密度为:内核计算负载 load1 为例,设相邻两个计算时刻之间系统活动的进程集合为 S0。从 1 分钟前到当前计算时刻这段时间里面活动的 load1 的进程,设他们的集合是 S1,内核认为的概率密度是:λe-λx,而在当前时刻活动的 n 个进程,设他们的集合是 Sn 内核认为的概率密度是 1-λe-λx。其中 x = 5 / 60,因为相邻两个计算时刻之间进程所耗的 CPU 时间为 5 秒,而考虑的时间段是 1 分钟(60 秒)。那么可以求出最近 1 分钟系统运行队列的长度:
load1 = |S1| * λe-λx + |Sn| * (1-λe-λx) = load1 * λe-λx + n * (1-λe