CPU 使用率过高问题排查

CPU 使用率过高问题排查

1. CPU使用率过高常见问题

  1. 无法SSH连接

  2. 操作卡顿

  3. 用户访问服务响应失败,超时

2. 压力测试

2.1 stress

stress 是一款简单但功能强大的工具,可对 Linux 系统施加可配置的 CPU、内存、I/O 或磁盘压力。通过模拟繁重的工作负载,系统管理员可以观察系统在压力下的表现反应。

这一工具的价值在于找出系统潜在的薄弱环节,确保系统能够在不影响性能的情况下处理繁重的任务。

stress-ng:

stress-ngstress 的扩展版本,它超越了前者的基本功能,提供的压力测试范围更广,不仅包括 CPU、内存、I/O 和磁盘压力,还包括对进程间通信、套接字和各种文件操作的额外测试。

stressstress-ngLinux 系统的前瞻性管理都有很大帮助,使管理员和程序员能够优化系统配置、识别潜在问题并提高系统的整体可靠性

安装

使用 stress 命令进行压力测试,这个命令需要单例安装

可参考文档:https://blog.csdn.net/cronaldo91/article/details/131214903

  • 使用 yum 安装
yum install -y epel-release.noarch && yum -y update
yum install -y stress stress-ng
  • 源码安装

源码地址:https://fossies.org/linux/privat/stress-ng-0.17.08.tar.gz/

在这里插入图片描述

参数说明

参考:https://blog.csdn.net/qq_34777982/article/details/137334439

[root@105 ~]# stress --help
`stress' imposes certain types of compute stress on your system

Usage: stress [OPTION [ARG]] ...
 -?, --help         show this help statement
     --version      show version statement
 -v, --verbose      be verbose
 -q, --quiet        be quiet
 -n, --dry-run      show what would have been done
 -t, --timeout N    timeout after N seconds
     --backoff N    wait factor of N microseconds before work starts
 -c, --cpu N        spawn N workers spinning on sqrt()
 -i, --io N         spawn N workers spinning on sync()
 -m, --vm N         spawn N workers spinning on malloc()/free()
     --vm-bytes B   malloc B bytes per vm worker (default is 256MB)
     --vm-stride B  touch a byte every B bytes (default is 4096)
     --vm-hang N    sleep N secs before free (default none, 0 is inf)
     --vm-keep      redirty memory instead of freeing and reallocating
 -d, --hdd N        spawn N workers spinning on write()/unlink()
     --hdd-bytes B  write B bytes per hdd worker (default is 1GB)

Example: stress --cpu 8 --io 4 --vm 2 --vm-bytes 128M --timeout 10s

Note: Numbers may be suffixed with s,m,h,d,y (time) or B,K,M,G (size).
参数说明
-c–cpu N: 产生 N 个进程,每个进程都反复不停的计算随机数的平方根;
-i–io N: 产生 N 个进程,每个进程反复调用 sync() 将内存上的内容写到硬盘上;
-m–vm N: 产生 N 个进程,每个进程不断分配和释放内存;
–vm-bytes B指定分配内存的大小;
–vm-stride B不断的给部分内存赋值,让 COW(Copy On Write)发生;
–vm-hang N指示每个消耗内存的进程在分配到内存后转入睡眠状态 N 秒,然后释放内存,一直重复执行这个过程;
–vm-keep一直占用内存,区别于不断的释放和重新分配(默认是不断释放并重新分配内存);
-d–hadd N: 产生 N 个不断执行 write 和 unlink 函数的进程(创建文件,写入内容,删除文件);
–hadd-bytes B指定文件大小;
-t–timeout N: 在 N 秒后结束程序;
–backoff N等待N微妙后开始运行;
-q–quiet: 程序在运行的过程中不输出信息;
-n–dry-run: 输出程序会做什么而并不实际执行相关的操作;
–version显示版本号
-v–verbose: 显示详细的信息
测试示例
  • CPU压测
# stress 消耗 CPU 资源是通过调用 sqrt() 函数(计算由 rand() 函数产生的随机数的平方根)实现。命令会产生 8 个这样的子进程不断计算,超时时间为20秒,结束后再次运行 uptime 比较平均负载
stress --cpu 8 --timeout 20

# 启动 8 个 sqrt() 子进程,超时时间 30s,同时显示有关操作的详细信息
stress --cpu 8 -v --timeout 30s
  • 内存测试
# 产生 8 个子进程,超时时间 20s,每个进程不断分配和释放内存
stress --vm 8 --timeout 20s

# 产生 2 个子进程,每个进程分配 2048M 内存
stress --vm 2 --vm-bytes 2048M --vm-keep --timeout 20s
  • IO测试
# 产生 8 个进程,每个进程都反复调用 sync() 函数将内存上的内容写到硬盘上
stress -i 8 --timeout 20s

# 产生 1 个进程不断的在磁盘上创建 10M 大小的文件并写入内容
# 使用 top 命令查看 CPU 的状态(此时的 CPU 主要消耗在内核态),iostat 2 输出,高 iowait,瓶颈是写磁盘
stress -d 1 --hdd-bytes 10M --timeout 20s

# 执行多个类型的任务,比如产生 4 个 CPU 进程、3 个 IO 进程、2 个 256M 的 vm 进程,并且每个 vm 进程中循环分配释放内存:
stress --cpu 4 --io 3 --vm 2 --vm-bytes 256M --vm-keep --timeout 20s

2.2 stress-ng

stress-ng 完全兼容 stress, 并且在此基础上通过几百个参数,可以产生各种复杂的压力

安装
yum install stress-ng
参数说明
-h,--help:显示帮助信息;
 
--version:显示版本信息;
 
-t,–timeout:指定程序运行结束的时间,后面直接跟数字,单位为秒;
 
-c,–-cpu:后面空格跟一个整数,表示测试CPU的进程数,--cpu 4 :表示生成4个worker循环调用sqrt()产生cpu压力;
 
-i,--io:后面空格跟一个整数,表示测试磁盘I/O的进程数, --io 4 :表示生成4个worker循环调用sync()产生io压力;
 
-m,--vm:后面空格跟一个整数,表示测试内存的进程数,--vm 4 :表示生成4个worker循环调用malloc()/free()产生内存压力;
 
-d,--hdd:后面空格直接跟数字,表示产生执行write和unlink函数的进程数,用于磁盘负载测试;
 
--cpu-method:指定CPU的测试方法,后面空格直接跟方法名;
 
--metrics:输出命令执行指标;
 
--vm-bytes:指定在内存测试时malloc的字节数,默认256M;
 
--class:指定测试类别,后面空格跟类别名;
 
--matrix:启用矩阵测试模式,后面空格跟矩阵模式名;
 
--random-seed:指定测试随机种子,后面空格跟种子名;
 
--sequential:启用顺序测试模式;
 
--hdd-bytes:指定写的字节数;
 
--cpu-load:CPU负载占比,后面空格直接跟数字,单位为百分比;
测试示例
  • CPU测试
# 使用 4 个 CPU 进程数,进行矩阵乘法计算以进行压力测试,持续时间为20秒
stress-ng --cpu 4 --cpu-method matrixprod --timeout 20s

# 产生 2 个 worker 做圆周率算法压力
stress-ng -c 2 --cpu-method pi --timeout 20s

# 产生 2 个 worker 迭代使用 30 多种不同的压力算法,包括pi, crc16, fft等等
stress-ng -c 2 --cpu-method all --timeout 20s

# 产生 2 个 worker 调用 socket 相关函数产生压力
stress-ng --sock 2 --timeout 20s

# 产生 2 个 worker 读取 tsc 产生压力
stress-ng --tsc 2 --timeout 20s

# 将压力指定到特定的cpu 0上
stress-ng --tsc 2 --taskset 0 --timeout 20s
  • 内存测试
# 用 4 个内存分配进程, 每次分配大小512M,分配后不释放,保持测试20秒
stress-ng --vm 4 --vm-bytes 512M --timeout 20s
  • IO测试
# 使用 4 个 IO 进程 ,保持测试20秒
stress-ng --io 4 --timeout 20s
  • 磁盘IO压测
# 使用 4 个I/O进程, 1 个写进程,每次写1G 文件块,测试20秒
stress-ng --io 4 --hdd 1 --hdd-bytes 1G --timeout 20s

3. 问题排查

3.1 使用 top 命令

  • top 命令简介
  1. 命令选项
参数说明
-b以批处理模式操作
-c显示完整的治命令
-d屏幕刷新间隔时间
-I忽略失效过程
-s保密模式
-S累积模式
-i<时间>设置刷新间隔时间
-u<用户名>指定用户名
-p<进程号>指定进程
-n<次数>循环显示的次数
  1. 在该命令中常用快捷键
参数说明
h显示快捷键帮助
k终止一个进程
i开/关忽略闲置和僵死进程
q退出程序
r重新安排一个进程的优先级别
S切换到累计模式
s更改刷新间隔时间,单位秒
f,F从当前显示中添加或者删除项目
o,O改变显示项目的顺序
l切换显示平均负载和启动时间信息
m切换显示内存信息
t切换显示进程和CPU状态信息
c切换显示命令名称和完整命令行
M根据内存使用大小排序
P根据CPU使用率进行排序 (默认排序)
T根据时间/累计时间进行排序
w将当前设置写入~/.toprc文件中
1展开多核cpu显示
  1. 说明

在这里插入图片描述

参数说明
top -系统当前时间
up系统已开机多长时间
user当前用户数
load averagecpu平均负载,三个数值分别为,1分钟,5分钟,15分钟
Tasks系统当前进程数,total:总进程数,running:正在运行的进程数,sleeping:睡眠的进程数,stopped:停止的进程数,zombie:僵尸进程数
%Cpu(s)cpu使用率 us:(user)用户使用cpu百分百,sy:(system)系统内核使用cpu百分百,ni:(niced)运行已调整优先级的用户进程的CPU时间,id:剩余的cpu百分百,wa:(IO wait)用于等待IO完成的CPU时间,hi:处理硬件中断的CPU时间,si: 处理软件中断的CPU时间,st:这个虚拟机被hypervisor偷去的CPU时间(译注:如果当前处于一个hypervisor下的vm,实际上hypervisor也是要消耗一部分CPU处理时间的)
Mem内存使用信息,total:总内存大小,free:空闲的内存,used:已使用的内存,buff/cache:缓存的内存大小
Swap虚拟内存信息
PID进程id
USER进程所有者
PR优先级
NInice值,负值表示高优先级,正值表示低优先级
VIRT进程使用的虚拟内存总量
RES进程使用的物理内存大小
SHR共享内存大小
S进程状态,D:不可中断的睡眠状态,R:运行,S:睡眠,T:跟踪/停止,Z:僵尸进程
%CPU进程使用的CPU占用百分比
%MEM进程使用的物理内存百分比
TIME+进程使用的CPU时间总计
COMMAND命令名

在这里插入图片描述

3.2 使用 ps 命令

ps aux --sort=-%cpu | head -n 10

参数说明:
	ps aux			可以用来查看进程的 CPU 内存使用情况
	--sort=-%CPU	以参数%CPU进行降序排列,升序排列可使用 --sort=+%CPU,同理也可以使用 %MEM 参数进行排序
	head -n 10		取前10行

在这里插入图片描述

3.3 使用 perf top

它能够实时显示占用 CPU 时钟最多的函数或者指令,因此可以用来查找热点函数

在这里插入图片描述

第一行包含三个数据,分别是采样数(Samples)、事件类型(event)和事件总数量(Event count)

第一列 Overhead ,是该符号的性能事件在所有采样中的比例,用百分比来表示。

第二列 Shared ,是该函数或指令所在的动态共享对象(Dynamic Shared Object),如内核、进程名、动态链接库名、内核模块名等。

第三列 Object ,是动态共享对象的类型。比如 [.] 表示用户空间的可执行程序、或者动态链接库,而 [k] 则表示内核空间。

最后一列 Symbol 是符号名,也就是函数名。当函数名未知时,用十六进制的地址来表示

3.4 vmstat 命令

是一个常用的系统性能分析工具,主要用来分析系统的内存使用情况,也常用来分析 CPU 上下文切换和中断的次数

CPU 上下文切换,就是先把前一个任务的 CPU 上下文(也就是 CPU 寄存器和程序计数器)保存起来,然后加载新任务的上下文到这些寄存器和程序计数器,最后再跳转到程序计数器所指的新位置,运行新任务。

而这些保存下来的上下文,会存储在系统内核中,并在任务重新调度执行时再次加载进来。这样就能保证任务原来的状态不受影响,让任务看起来还是连续运行。

常用信息
# 每隔5秒输出一组数据,一共输出5组
[root@105 ~]# vmstat 5 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
10  0     64 388948   4172 1305068    0    0    23    44   35   18  1  0 99  0  0
 8  0     64 388932   4172 1305068    0    0     0     0 1837  211 100  0  0  0  0
 8  0     64 388932   4172 1305068    0    0     0     0 1777  206 100  0  0  0  0
 8  0     64 388932   4172 1305068    0    0     0     0 1772  206 100  0  0  0  0
 8  0     64 388932   4172 1305068    0    0     0     1 1775  207 100  0  0  0  0
  • 参数说明
参数说明
r运行队列中进程数量
b等待IO的进程数量
swpd使用虚拟内存大小
free可用内存大小
buff用作缓冲的内存大小(是内核缓冲区用到的内存,对应的是 /proc/meminfo 中的 Buffers 值)
cache用作缓存的内存大小(是内核页缓存和 Slab 用到的内存,对应的是 /proc/meminfo 中的 Cached 与 SReclaimable 之和。(有遇到过些系统是Cached 与 Slab之和,具体还以自己系统为准))
si每秒从交换区写到内存的大小
so每秒写入交换区的内存大小
bi每秒读取的块数(现在的Linux版本块的大小为1024bytes)
bo每秒写入的块数(现在的Linux版本块的大小为1024bytes)
in每秒中断数,包括时钟中断。【interrupt】
cs每秒上下文切换数。 【count/second】
us用户进程执行时间(user time)
sy系统进程执行时间(system time)
id空闲时间(包括IO等待时间),中央处理器的空闲时间 。以百分比表示。
wa等待IO时间

注:

  1. 如果 r 经常大于 4,id 经常少于 40,表示 cpu 的负荷很重。
  2. 如果 bi,bo长期不等于 0,表示内存不足。
  3. 如果 disk 经常不等于 0 ,且在 b 中的队列大于 3 ,表示 io 性能不好。
  4. Linux在具有高稳定性、可靠性的同时,具有很好的可伸缩性和扩展性,能够针对不同的应用和硬件环境调整,优化出满足当前应用需要的最佳性能。因此企业在维护Linux系统、进行系统调优时,了解系统性能分析工具是至关重要的。

在这里插入图片描述

内存信息
[root@105 ~]# vmstat -s
      1867044 K total memory
       168700 K used memory
       623160 K active memory
       639964 K inactive memory
       389004 K free memory
         4172 K buffer memory
      1305168 K swap cache
      1048572 K total swap
           64 K used swap
      1048508 K free swap
       871742 non-nice user cpu ticks
          190 nice user cpu ticks
        46726 system cpu ticks
     57724331 idle cpu ticks
         3661 IO-wait cpu ticks
            0 IRQ cpu ticks
         3668 softirq cpu ticks
            0 stolen cpu ticks
     13153817 pages paged in
     25607239 pages paged out
           11 pages swapped in
           20 pages swapped out
     21641981 interrupts
     10865763 CPU context switches
   1716926093 boot time
        64048 forks

注:这些信息的分别来自于 /proc/meminfo,/proc/stat/proc/vmstat

在这里插入图片描述

磁盘信息
[root@105 ~]# vmstat -d
disk- ------------reads------------ ------------writes----------- -----IO------
       total merged sectors      ms  total merged sectors      ms    cur    sec
sr0       18      0    2056     316      0      0       0       0      0      0
sda    44509     22 26305578  419857 116587  12097 51219286 2593733      0     89
dm-0   43003      0 26218018  416346 128402      0 51040550 2808927      0     87
dm-1     145      0    6616     112     20      0     160      61      0      0

注:这些信息主要来自于 /proc/diskstats

在这里插入图片描述

显示指定磁盘分区统计信息

[root@105 ~]# vmstat -p /dev/sda1
sda1          reads   read sectors  writes    requested writes
                1182      73488        252     178576

注:这些信息主要来自于 /proc/diskstats

在这里插入图片描述

  • 18
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值