性能测试瓶颈：CPU 问题的深度分析和调优

最新推荐文章于 2024-07-14 23:00:23 发布

程序员小雷

最新推荐文章于 2024-07-14 23:00:23 发布

阅读量825

点赞数 15

文章标签：测试用例功能测试压力测试 selenium python 测试工具单元测试

本文链接：https://blog.csdn.net/OKCRoss/article/details/139378337

版权

我们做性能测试的时候，除了使用工具编写脚本并执行之外，最核心的工作就是做性能测试结果分析和问题调优。然后在做性能测试的时候，非常常见的一类问题就是CPU的问题。所以，要专业做性能测试就免不了要深入学习一下CPU的原理和常见的分析和监控的命令。

CPU的介绍

概念：CPU（中央处理器：Central Processing Unit)），是一块超大规模的集成电路，是计算机的运算核心【拿到数据后先计算】和控制核心【然后再根据计算结果去控制】。

计算机程序编译后 0101二进制代码，CPU接受到这个指令，解释指令拿到数据，处理数据。

控制单元：根据计算结果去控制数据的流向，把内存的指令、数据读入寄存器，控制计算机
运算单元：拿到数据先计算数据
存储单元：临时的数据存储在存储单元，比磁和-内存更小，速度更快。

功能：主要是解释计算机指令以及处理计算机软件中的数据。电脑中所有操作都由CPU负责读取指令，对指令译码并执行指令的核心部件。
CPU由3个模块组成，三个部分由内部总线连接起来：

CPU的信息查看命令

我们搭建好性能测试环境后，进行性能测试之前，最好能先去看一下服务器CPU的基本信息和参数。所以，我们先来学习几个CPU查看的命令。

1、查看物理CPU的个数：cat /proc/cpuinfo

通过上图：这个虚拟机的物理cpu2个，每个物理cpu的逻辑CPU个数为1个，所以逻辑CPU的个数就是2个。

2、也可以直接用命令：cat /proc/cpuinfo| grep "processor"| wc -l 查看逻辑CPU的个数。

wc -l: wc 是一个命令，用于计算文件中的字节数、字数和行数。-l 选项告诉 wc 只计算行数。

3、通过lscpu命令查看：显示CPU制造商、架构、CPU数量、型号、主频以及缓存等信息。

Sockets=物理cpu
Cores per Socket=一个插槽上CPU核数
Threads per core=每个核上超线程数
CPUs=逻辑cpu

CPU关注性能指标

我们真正需要重点学习的是CPU在性能测试的时候，我们分析应该关注哪些指标。这个是性能分析的关键。如下图所示：

关注指标1：CPU使用率

CPU使用率是我们最直观能看到的指标，所以会优先去关注。CPU利用率行业内标准是一般不要超过75%，如果超过了就需要分析原因，并找到问题和调优了。

CPU使用率=非空闲时间占总CPU时间的百分比，越高说明CPU越繁忙，就可能需要进行性能问题分析和调优。

%us：用户 CPU，比如java程序，应用程序等：用户态使用CPU的百分比（user）。用户CPU使用率高，通常说明有应用程序比较繁忙。
%sy：系统CPU：表示CPU在内核态运行的时间百分比。系统CPU 使用率高，说明内核比较繁忙。
%iowait：等待I/O：表示等待I/O的时间百分比。iowait高，说明系统与硬件设备的I/O 交互时间比较长，比如跟键盘、网卡、显示器等交互。
ni【软/硬中断】：分别表示内核调用软中断处理程序、硬中断处理程序的时间百分比。它们的使用率高，通常说明系统发生了大量的中断。

• 当CPU的时间分片正在处理某个任务还没完成时钟时间的时候，突然收到硬中断或软中断指令，CPU被打断需要去响应，才能继续执行任务；

• 如果ni参数很高，说明中断的数量很多，说明CPU不停的被打扰，需要分析是什么中断。一般ni比较高的情况比较少，不过ni高也会导致sy【内核占比】比较高，是环环相扣的，要能分析。
%st/gu：steal/guest：在虚拟化环境中会用到的窃取CPU使用率(steal）和客户CPU使用率（guest），分别表示被其他虚拟机占用的CPU时间百分比，和运行客户虚拟机的CPU时间百分比。

• 这两个一般比较低，不会成为cpu的瓶颈不太需要关注
%id：空闲 CPU百分比，CPU使用率 = (100-id)%

• 比较简单的算法：100% - id% = CPU使用率

我们需要关注的是CPU非空闲部分，具体可以细分如下，加粗部分是重点：

关注指标2：平均负载

平均负载指系统的平均活跃进程数，一个时间段内平均有多少进程数在活跃，跟cpu核数做比较，算出繁忙情况；这是服务器性能的重点关注值，一般CPU的使用率高的话，平均负载也是高的。

主要包括三个数值，过去1、5、15钟的平均负载。可以通过这三个值看到负载整体的趋势。

逐步降低，是CPU后来越来越空闲；逐步增加，CPU越来越繁忙；或者持平，就是CPU稳定。
理想情况下，平均负载=逻辑 CPU个数，这表示每个CPU都恰好被充分利用；如果大于逻辑 CPU 个数，就表示负载较重；如果平均负载的值高于CPU的3- 5倍，那么很有可能CPU存在瓶颈，就需要分析和调优。

关注指标3：上下文的切换cs

系统内核和应用存储共用CPU的内核，就会需要不停的争抢资源，就会出现上下文切换。

上下文切换多了不是好事儿，过多的上下文切换，会将原本运行进程的CPU时间，消耗在寄存器、内核栈以及虚拟内存等数据的保存和恢复上，很少有时间真正计算和处理数据，减少和缩短了进程真正运行的时间，通常会导致CPU内核【sy】消耗资源比较高，会成为性能瓶颈，需要优化。

性能的基本Linux命令

了解CPU需要关注的性能指标，那么在性能测试执行的时候，如何去监控这些指标呢？我们就需要通过一些常用的监控命令了。

1、top命令：常用的性能分析工具，能够实时显示系统中各个进程的资源占用状况

上图就是top命令的结果显示，我们来一一分析：

当前系统时间，启动运行了多长时间。
2 users, 有多少个终端用户连接，不代表多少个账户【同一个账户多个终端也算】
load average：服务器性能的重点关注值，系统过去1分钟的平均负载、过去5分钟的平均负载、过去15分钟的平均负载

• 前面我们讲到过，如果平均负载大于CPU数量，甚至达到3- 5倍cpu数量，说明系统负载非常大了。这个时候才会需要去观察下面的详细数据分析原因。
总进程数，正在运行的进程数，休眠的进程数。
按下H，切换为 Threads 当前总线程数。
%CPU(s):是CPU使用率的平均值，合并cpu的统计数据，是所有数量cpu的总情况。
us, CPU的用户态使用时间占比【应用程度和代码逻辑在用户态计算】，如果这个高，很可能代码逻辑复杂
sy, cpu的系统态使用时间占比【系统内核】
ni, 中断占用cpu的情况，如果发生中断，优先级更高的中断了当前的事情
id, idle 空闲【不会超过100】
wa, IOwait等待IO操作的操作状态的时间占比，当我们io繁忙时，这个数值一般会非常明显。
hi, hard interrupt 硬中断，保存和打开数据占用cpu时间
si, soft interrupt 软中断，保存和打开数据占用cpu时间

• hi + si = ni的值
st：steal，其他的虚拟机占用CPU的时间，这个基本不用关注。
总结：这行数据会优先看id数据，如果id很大，不用分析；id小，再去看us 和sy：

• 如果us 很高，一般要分析代码逻辑

• 如果sy很高，要看看ni的值，ni很高的话，就要进一步分析hi si的值看哪个中断高。
总的内存，空闲内存，使用的内存，buff和cache内存

• buff 【缓冲区：磁盘虚拟出来加快磁盘读取数据速度】

• cache 【缓存：虚拟的加快内存数据交换速度的】

• swap：交换区

• avali：可用于下一次的物理内存总量
pid 进程id
USER 进程的归属者，这个进程启动用户
PR 进程优先级，数字越大优先级高的话可以优先使用资源 ----性能不太关注影响不大
NI 进程优先级切换，跟PR共同决定了进程的优先级 ---性能不太关注影响不大
VIRT：这个进程分配的虚拟内存
RES：实际物理内存
SHR ：共享内存会详细讲
S: status，进程的状态，可以是R S 等
%CPU 这个进程占用了多少的cpu使用率 -----这个数值，在CPU为多核时候，是可以超过100

• 进程列表中，默认排序规则，是根据 %CPU 数值从高到低的排序

• 如果某个进程占用CPU高于75% 需要单独拎出来分析
%MEM 这个进程占用内存率，后面讲解。
TIME+：这个进程占用CPU的总的时间，如果这个进程经常需要CPU进行计算和处理，这个时间就会很大。
COMAND: 这个进程通过哪个命令启动的。
第一行数据：
第二行数据：默认是进程数，可以切换为线程数
第三行数据：CPU的使用情况，这个是重点。
第四行数据：内存的使用情况，后面我们分析内存性能问题的时候再详细讲。
进程列表详细数据：默认都是进程