Linux 平均负载

本文首发自公众号「 LinuxOK 」,ID 为:Linux_ok。
关注公众号第一时间获取更新,分享不仅技术文章,还有关于职场生活的碎碎念。

在 Linux 系统中,所谓平均负载,指的是单位时间内,系统中处于可运行状态和不可中断状态的平均进程数,即平均活跃进程数,确切的说,是指活跃进程数的指数衰减平均值。具体算法暂不关注,这里简单理解为活跃进程数的平均值就可以。

1、uptime 命令的含义

在这里插入图片描述
当前系统时间:13:35:55
系统运行来多长时间:up 4:00
正在登陆的用户数:7 users
过去1分钟、5分钟、15分钟的平均负载:0.15,0.43,0.25

如上,uptime 命令为我们提供了三个不同时间间隔的平均值,方便我们分析系统负载的趋势:
若最近 1 分钟、5 分钟、15 分钟的取值相差不大,说明系统负载平稳;
若最近 1 分钟的值远大于15分钟的值,说明最近 1 分钟的负载在增加,需要我们持续观察分析。
若最近 1 分钟的值远小于 15 分钟的值,说明系统的负载正在减少,15 分值分钟前有很大负载。

举例:在单核 CPU 系统上的平均负载依次为:1.66,0.43,6.32,说明系统负载整体在降低:
系统负载最近 1 分钟内超载: (1.66 - 1) * 100 = 66%
系统负载最近 5 分钟内正常,没有超载
系统负载最近 15 分钟内 (6.32 - 1)* 100 = 532%

在理想情况下平均负载应等于 CPU 的个数,但是当平均负载大于 CPU 个数就说明系统过载了么,这是不确定的,因为在 Linux内核中,平均负载的设计,关注的不仅仅是正在使用 CPU 的进程(CPU使用率),还包括来等待 CPU 和等待 IO 的进程。

为什么要这么设计?这是因为平均负载是为了反映系统对性能的需求量。假设我们想办法降低系统性能,如更换读写速度非常卡慢的磁盘,其他运行的程序、CPU 等都不变,那此时系统反映出来的对性能的需求量理应是增加的,即平均负载呈是增加趋势,然而如果平均负载关注的仅是 CPU 使用率,那就不增反减了。

2、不可中断睡眠状态对平均负载的影响

在前面的文章我们了解到进程的 D状态表示不可中断睡眠状态(Uninterruptible sleep),一般说明进程正跟硬件交互中,我们写一个简单的内核模块来构造进程处于 D 状态的现象,从而验证对系统平均负载的影响。

内核模块代码:

//说明:本代码逻辑并非十分完善,仅为了构造不可中断睡眠状态
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/init.h>
#include <linux/fs.h>
#include <linux/cdev.h>
#include <linux/device.h>
#include <linux/sched.h>

#define DEVICE_NAME "load_average_test"
static int major_num = 0;

static int load_average_test_open(struct inode *inode, struct file *file)
{
    printk("%s\n", __func__);
    return 0;
}

static int load_average_test_release(struct inode *inode, struct file *file)
{
    printk("%s\n", __func__);
    return 0;
}

static ssize_t load_average_test_write(struct file *file,
                               const char *buffer, size_t length, loff_t *offset)
{
    printk("%s %u\n", __func__, length);

    //设置线程为不可中断的睡眠状态
    __set_current_state(TASK_UNINTERRUPTIBLE);
    schedule();

    return length;
}

struct file_operations fops = {
    .owner = THIS_MODULE,
    .open = load_average_test_open,
    .release = load_average_test_release,
    .write = load_average_test_write,
};

int load_average_test_init(void)
{
    printk("kernel load average init.\n");

    major_num = register_chrdev(0, DEVICE_NAME, &fops);
    if (major_num < 0) {
        printk("Registering char device failed with %d\n", major_num);
        return major_num;
    }

    struct class *my_class_class = class_create(THIS_MODULE, DEVICE_NAME);
    if(IS_ERR(my_class_class))
    {
        printk("Err: failed in creating class.\n");
        return -1;
    }

    device_create(my_class_class, NULL, MKDEV(major_num, 0), NULL, DEVICE_NAME);
    return 0;
}

void load_average_test_exit(void)
{
    printk("kernel load average exit.\n");
}

module_init(load_average_test_init);
module_exit(load_average_test_exit);

MODULE_LICENSE("GPL");

Makefile:

obj-m += load_average.o

all:
    make -C /lib/modules/3.10.0-1127.el7.x86_64/build M=$(PWD) modules
clean:
    make -C /lib/modules/3.10.0-1127.el7.x86_64/build M=$(PWD) clean

编译内核代码需要注意,在 /lib/modules/ ( u n a m e − r ) / b u i l d 需 要 有 内 核 代 码 , 否 则 需 要 先 下 载 。 以 我 的 c e n t o s 7 环 境 为 例 , / l i b / m o d u l e s / (uname -r)/build 需要有内核代码,否则需要先下载。以我的 centos7 环境为例,/lib/modules/ (unamer)/buildcentos7/lib/modules/(uname -r)/build 是一个软连接,目标目录并没有相关代码:
在这里插入图片描述
需要执行下载,重新创建软连接:

$ yum -y install kernel-devel.x86_64
$ rm /lib/modules/3.10.0-1127.el7.x86_64/build
$ ln -s /usr/src/kernels/3.10.0-1160.62.1.el7.x86_64 /lib/modules/3.10.0-1127.el7.x86_64/buil

在这里插入图片描述
编译:
在这里插入图片描述
应用程序代码:

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdio.h>
#include <string.h>

int main()
{
    int fd = open("/dev/load_average_test", O_RDWR);
    if (fd < 0) {
        perror("open");
        return -1;
    }

    write(fd, "load_average_test", strlen("load_average_test"));

    close(fd);
    return 0;
}

编译:

$ gcc load_average_app.c -o load_average_app

加载内核模块后执行 load_average_app 程序:

$ insmod kernel_load_average.ko

在这里插入图片描述
此时使用 mpstat 查看系统 CPU 的执行情况,从 %idle为 100.00可知当前 CPU 是处于空闲状态的。

在这里插入图片描述
在使用 uptime 查看平均负载,单核系统下最近一分钟平均负载已经超过 2 了。
在这里插入图片描述

3、总结

平均负载反映的是系统整体的负载情况,日常工作中它是一个快速查看系统整体性能的方法法,而不单指 CPU 性能;比如有时候IO设备出现了瓶颈导致系统出现大量处于等待 IO 状态的进程,也会导致平均负载升高。所以当我们发现平均负载升高时,还要结合 mpstat、top 等命令,分析具体是什么原因导致的,是 CPU 使用率问题还是 IO 问题。

本文首发自公众号「 LinuxOK 」,ID 为:Linux_ok。
关注公众号第一时间获取更新,分享不仅技术文章,还有关于职场生活的碎碎念。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值