很多监控系统中经常会有一项是系统负载,而往往这个负载会放在CPU信息上去,最后观察CPU状态时,就会看负载和利用率,那么负载到底是啥,这个数据是怎么算出来的. uptime 会有过去三个时间范围内的负载数据,这个数据如何计算的呢,他反映的是系统哪里比较繁忙?
之前google多次的结论是 这是cpu运行队列上的进程数,也就是就绪状态,可立即运行或正在运行的进程数,(多cpu系统,每个cpu核都会维护这么一个队列).按照这个解释,我在处理一个大量磁盘文件读写的操作中,发现了CPU的load数基本等同于开启的读写进程数。这就有些解释不通了,磁盘读写是一个很耗时的操作 ,cpu应该都是在等待IO完成,这个时候wa会比较高是可以理解的,为何负载也会高,每次IO操作,进程等待IO完成时,都是处于睡眠状态,是不会消耗cpu资源的(linux进程状态 阻塞也是属于睡眠).为何负载会很高呢?这个时候系统需要CPU资源的其他进程还是可以很好的运行的,这个时候,负载高,对系统其实也无大的影响.
找了下计算负载的源码
static void calc_load_account_active(struct rq *this_rq)
{
long nr_active, delta;
nr_active = this_rq->nr_running;
nr_active += (long) this_rq->nr_uninterruptible; /*这里还会加上uninterruptible状态的进程数*/
if (nr_active != this_rq->calc_load_active) {
delta = nr_active - this_rq->calc_load_active;
this_rq->calc_load_active = nr_active;
atomic_long_add(delta, &calc_load_tasks);
}
}
看下了计算的规则,那么就很容易理解了 ,由于IO操作的时候,进程会进入uninterruptible状态,系统负载的准确定义就是 CPU运行队列进程数和等待队列中uninterruptible状态的进程数之和。
最后负载其实也不是CPU维度的信息了,应该算是系统活动进程的繁忙程度了. 与CPU无关. 衡量CPU繁忙程度只有CPU利用率。