今天来聊聊超级重要的CPU性能优化大揭秘啦

CZIDC

于 2025-05-08 10:52:03 发布

阅读量772

点赞数 18

分类专栏： Linux 华为服务器信创文章标签：性能优化

本文链接：https://blog.csdn.net/weixin_43209512/article/details/147783100

版权

华为服务器同时被 3 个专栏收录

36 篇文章

订阅专栏

信创

25 篇文章

订阅专栏

Linux

9 篇文章

订阅专栏

在数字世界里，CPU（Central Processing Unit，中央处理器）无疑是计算机的 “大脑”，是程序运行的核心驱动力。它就像一位不知疲倦的指挥官，高效地处理着各种复杂指令，决定着程序的运行速度和响应时间。无论是日常办公软件的流畅运行，还是大型游戏、专业设计软件的高性能表现，CPU性能都起着决定性作用。当CPU性能强劲时，程序就像一辆在高速公路上疾驰的汽车，能够快速响应各种指令，实现丝滑的操作体验；而当CPU性能不足时，程序则会像陷入泥沼的车辆，运行缓慢，甚至出现卡顿和无响应的情况，极大地影响用户体验。对于开发者而言，程序的CPU性能优化是一场永无止境的探索。在硬件条件相对固定的情况下，通过巧妙的优化手段提升程序对CPU资源的利用效率，就如同在有限的空间里精心布局，实现空间的最大化利用，让程序在有限的硬件资源下发挥出最大的效能，这不仅是技术实力的体现，更是满足用户日益增长的性能需求、提升产品竞争力的关键。一、深入剖析CPU性能指标在程序的CPU性能优化之旅中，了解关键的CPU性能指标是至关重要的一步。这些指标如同精密仪器上的刻度，精准地反映出CPU的工作状态和程序对其资源的利用效率，为我们的优化工作提供了清晰的方向和有力的依据。1.1CPU 使用率：系统状态的晴雨表CPU 使用率是衡量 CPU 忙碌程度的关键指标，它直观地反映了在某一时间段内，CPU 被程序占用的时间比例。例如，当我们在电脑上同时运行多个大型软件时，CPU 使用率会迅速上升，这表明 CPU 正全力以赴地处理各种任务。一般来说，当 CPU 使用率长期处于 70%-90% 以上时，就如同一个人长时间高强度工作，可能会出现疲劳和效率下降的情况，此时系统很可能已经遇到了性能瓶颈。比如，在一个在线游戏服务器中，如果 CPU 使用率持续过高，玩家可能会遇到游戏卡顿、延迟增加等问题，严重影响游戏体验。在 Linux 系统中，我们可以使用 top 命令实时查看系统中各个进程的 CPU 使用率。在命令行中输入 “top”，按下回车键后，会出现一个动态更新的界面，其中 “% CPU” 列展示了每个进程占用 CPU 的百分比。还可以使用 mpstat 命令，它来自 sysstat 包，能提供每个 CPU 核心的详细使用率信息。例如，“mpstat -P ALL 1” 表示每隔 1 秒输出一次所有 CPU 核心的使用率情况，让我们对 CPU 的工作状态有更细致的了解。1.2用户进程与内核进程的CPU消耗用户进程是我们日常编写和运行的程序代码，如各种业务逻辑、库函数的调用等。当我们运行一个数据分析程序时，数据的读取、计算、处理等操作都属于用户进程的范畴，这些操作会消耗一定的 CPU 资源。而内核进程则主要负责管理系统资源，如内存的分配与回收、文件系统的操作、网络通信的处理等。像内存拷贝、系统调用等操作都属于内核进程的工作，它们同样会占用 CPU 时间。当 CPU 使用率过高时，我们需要准确判断是用户进程还是内核进程在 “作祟”。此时，pidstat 工具就派上了用场。通过 “pidstat -p < 进程 ID>” 命令，我们可以查看指定进程在用户态（% usr）和内核态（% system）消耗 CPU 的情况。如果 % usr 值较高，说明用户代码中的某些操作，如大量的循环计算、复杂的算法执行等，可能是导致 CPU 使用率升高的原因；如果 % system 值较高，则可能是内核态的系统调用过于频繁，或者存在大量的内存拷贝等操作。此外，perf top 也是一个强大的工具，它可以实时显示系统中 CPU 使用率最高的函数，帮助我们快速定位到具体的问题代码，无论是用户进程还是内核进程中的问题，都能一目了然。1.3平均负载与上下文切换平均负载是一个反映系统整体负载情况的重要指标，它表示单位时间内，系统处于可运行状态（正在使用 CPU 或者正在等待 CPU 调度）和不可中断状态（通常是等待硬件设备的 I/O 响应，如磁盘读写）的平均进程数。简单来说，平均负载就像是一个繁忙的火车站候车大厅，里面的乘客就像系统中的进程，平均负载反映了候车大厅里正在候车和即将上车的乘客数量。如果平均负载过高，就意味着候车大厅人满为患，进程需要等待很长时间才能获得 CPU 资源，从而导致系统运行缓慢。在 Linux 系统中，我们可以使用 uptime 命令查看平均负载，命令输出的最后三个数字分别表示过去 1 分钟、5 分钟和 15 分钟的平均负载值。例如，“12:34:56 up 1 day, 2:30, 3 users, load average: 0.50, 0.40, 0.30”，这里的 “0.50, 0.40, 0.30” 就是平均负载值。一般认为，当平均负载接近或超过 CPU 核心数时，系统可能会出现性能问题，就像一个只能容纳 100 人的候车大厅，却来了 200 人，必然会导致拥挤和混乱。上下文切换则是指当 CPU 从一个进程或线程切换到另一个进程或线程时，需要保存当前任务的执行状态（如寄存器的值、程序计数器等），并加载下一个任务的执行状态，这个过程就像一位演员在舞台上表演完一个节目后，需要迅速换装、准备道具，然后再上台表演下一个节目。上下文切换会导致 CPU 缓存被刷新，原本存储在缓存中的数据需要从内存中重新读取，这会增加 CPU 的工作负担，影响系统性能。我们可以使用 perf 和 vmstat 等工具来排查上下文切换的问题。vmstat 命令中的 “cs” 字段表示每秒上下文切换的次数，通过观察这个值，我们可以了解系统上下文切换的频繁程度。如果上下文切换次数过多，我们可以进一步使用 perf 工具分析具体是哪些进程或线程在频繁地进行上下文切换，从而针对性地进行优化，比如调整线程的调度策略、减少锁的竞争等，让 CPU 能够更高效地工作。二、优化策略大揭秘2.1算法与数据结构的优化选择算法和数据结构就像是程序的 “骨架”，其选择的合理性直接关乎程序对 CPU 资源的利用效率和执行速度。以排序算法为例，冒泡排序的时间复杂度为 O (n²) ，在处理大量数据时，就像一个人在堆满杂物的房间里寻找物品，每一次比较都需要花费大量时间，随着数据量 n 的增大，其执行时间会急剧增长，对 CPU 资源的消耗也会变得极为可观。而快速排序的平均时间复杂度为 O (n log n) ，它采用分治策略，如同将一个大问题分解成多个小问题逐一解决，大大提高了排序效率，能更高效地利用 CPU 资源，在处理大规模数据时，明显比冒泡排序要快得多。在数据结构方面，不同的存储方式对 CPU 性能也有着显著影响。链表和数组是两种常见的数据结构，链表在插入和删除操作时，就像在一串珠子中添加或移除一颗珠子，只需修改相邻节点的指针，不需要移动大量数据，效率较高，对 CPU 资源的占用相对较少。但在查找操作时，链表需要从头开始逐个遍历节点，就像在一条长长的队伍中寻找某个人，时间复杂度较高，会消耗较多的 CPU 时间。而数组则相反，它在内存中是连续存储的，通过索引可以直接访问元素，查找操作就像在一个有明确座位号的电影院中找到自己的座位，速度非常快，能充分利用 CPU 的快速访问能力。但在插入和删除操作时，可能需要移动大量元素，导致 CPU 进行较多的数据搬运工作，消耗更多资源。因此，在实际编程中，我们需要根据具体的业务需求和数据特点，如数据的规模、操作的频繁类型等，精心选择合适的算法和数据结构，以实现 CPU 性能的最大化利用。2.2编写编译器友好型代码(1)了解编译器优化选项编译器是将我们编写的代码转换为可执行程序的关键工具，它提供了丰富的优化选项，能帮助我们提升程序的 CPU 性能。以常用的 GCC 编译器为例，它提供了一系列从 -O0 到 -O3 的优化级别，每个级别都有着不同的优化侧重点和效果。-O0：这是不做任何优化的级别，主要用于调试阶段，能使调试产生预期的结果，因为它保留了原始代码的结构和变量信息，方便我们追踪代码的执行过程，但生成的可执行文件在运行时性能相对较低，就像一辆没有经过任何改装的普通汽车，虽然稳定但速度不快。-O1：对程序做部分编译优化，它会尝试减小生成代码的尺寸，以及缩短执行时间，但并不执行需要占用大量编译时间的优化。比如它会对代码的分支、常量以及表达式等进行优化，像将一些简单的常量表达式在编译时直接计算出结果，避免在运行时重复计算，就像提前规划好行程路线，避免不必要的绕路，从而提高了程序的运行效率。-O2：这是比 O1 更高级的优化选项，进行了更多的优化。GCC 将执行几乎所有的不包含时间和空间折中的优化，例如执行循环优化，将常量表达式从循环中移除，简化判断循环的条件，还会进行全局公用子表达式消除等操作，进一步减少了冗余计算，使程序运行更加高效，就像给汽车换上了高性能的引擎和更轻量化的零部件，提升了整体性能。-O3：在 - O2 的基础上，进一步执行更激进的优化，如函数内联、循环展开等。函数内联会将一些短小的函数直接嵌入到调用处，避免了函数调用的开销，就像将多个小工具合并成一个多功能工具，减少了使用时的切换成本；循环展开则是增加每次循环迭代计算的元素数量，减少迭代次数，提高了程序的并行性和执行效率，如同多条生产线同时工作，加快了生产速度。除了这些常规的优化级别，GCC 还提供了一些特殊选项：-Ofast：它在 - O3 的基础上，进一步放宽了一些数学计算的标准，允许一些不符合 IEEE 754 标准的数学优化，以换取更高的性能，适用于对计算精度要求不严格，但对性能要求极高的场景，比如一些图形渲染、科学计算模拟等应用，就像为了追求速度而选择抄近路，虽然可能会有一些小风险，但能大大提高效率。-Og：主要用于优化调试体验，它在优化代码的同时，尽可能地保持代码的可调试性，生成的代码既具有一定的优化效果，又能让调试过程更加直观和方便，就像给汽车安装了一个既不影响性能又能随时查看车辆状态的仪表盘。在实际使用中，我们需要根据项目的具体需求和场景，如是否处于开发调试阶段、对程序执行效率和代码尺寸的要求等，合理选择编译器的优化选项，以达到最佳的性能和开发体验平衡。(2)避免编译器优化限制在编写代码时，有些因素可能会限制编译器的优化能力，从而影响程序的 CPU 性能。内存别名（memory aliasing）和副作用（side effect）就是两个常见的问题。内存别名是指多个指针指向同一个内存地址，这会让编译器在优化时面临困境。例如，有如下代码：void twiddle1(long* xp, long* yp) {
*xp += *yp;
xp += yp;
}
void twiddle2(long xp, long yp) {
*xp += 2 * *yp;
}从逻辑上看，twiddle2 函数似乎比 twiddle1 函数更高效，编译器可能会尝试将 twiddle1 优化成 twiddle2 的形式。但如果 xp 和 yp 指向同一个内存地址，即出现了内存别名，那么这两个函数的行为就会不同，twiddle1 会将 xp 增加 4 倍，而 twiddle2 只会将 xp 增加 3 倍。为了避免这种情况对编译器优化的限制，我们可以使用 __restrict 修饰指针，它告诉编译器，该指针所指向的内存是唯一的，不会与其他指针产生别名，从而让编译器能够放心地进行优化。例如：void twiddle3(long *__restrict xp, long *__restrict yp) {
*xp += *yp;
*xp += *yp;
}副作用则是指函数除了返回值之外，还会对外部状态产生影响，比如修改全局变量、进行 I/O 操作等。例如：long counter = 0;
long f() {
return counter++;
}
long func1() {
return f() + f() + f() + f();
}
long func2() {
return 4 * f();
}从表面上看，func1 和 func2 的结果应该是相同的，但由于 f 函数存在副作用，会修改全局变量 counter，所以这两个函数的实际行为和返回值是不同的。大多数编译器不会轻易判断一个函数是否有副作用，为了保证程序的正确性，它们通常会假设函数存在副作用，从而限制了一些优化策略。因此，在编写代码时，我们应尽量减少函数的副作用，或者明确告知编译器函数没有副作用，例如使用 attribute((pure)) 或 attribute((const)) 修饰函数，前者表示函数除了返回值外不会对外部状态产生影响，后者表示函数不仅没有副作用，而且对于相同的输入总是返回相同的结果，这样可以帮助编译器更好地进行优化。2.3基于硬件特性的深度优化(1)利用缓存机制CPU缓存是位于CPU和内存之间的高速存储区域，由更快的SRAM构成，其作用是存储 CPU 近期可能会频繁访问的数据和指令。当CPU需要读取数据时，会首先在缓存中查找，如果找到（即缓存命中），就可以直接从缓存中读取，这个过程只需要几个时钟周期，速度非常快；如果没有找到（即缓存未命中），则需要从相对慢速的内存中读取，这可能需要上百个时钟周期，会大大降低程序的执行效率。CPU 缓存通常分为多级，如一级缓存（L1 cache）、二级缓存（L2 cache）和三级缓存（L3 cache）。每个 CPU 核心都拥有自己独立的一级缓存和二级缓存，而三级缓存则是多个核心共享的。一级缓存又可细分为数据缓存（D - Cache）和指令缓存（I - Cache），分别用于存储数据和指令，这样可以同时被 CPU 访问，减少了争用 Cache 所造成的冲突，提高了 CPU 效能。缓存的读写速度比内存快很多，例如，对于 2GHz 主频的 CPU 来说，访问一次内存通常需要 100 个时钟周期以上，而访问一级缓存只需要 4 - 5 个时钟周期，二级缓存需要 12 个时钟周期，三级缓存大约需要 30 个时钟周期。为了提高缓存命中率，我们在编写代码时需要让数据访问更符合缓存机制。例如，在访问数组时，按照内存布局顺序访问会带来很大的性能提升。假设有一个二维数组 arr[N][N]，如果我们按照 arr[i][j] 的方式遍历，即先遍历行再遍历列，这与数组在内存中的存储顺序一致，当 CPU 访问 arr[0][0] 时，会将紧跟其后的 3 个元素（假设缓存行大小为 64 字节，每个元素占用 4 字节）也加载到缓存中，后续访问 arr[0][1]、arr[0][2]、arr[0][3] 时就很可能命中缓存。而如果按照 arr[j][i] 的方式遍历，即先遍历列再遍历行，内存是跳跃访问的，当 N 很大时，很难将 arr[j + 1][i] 也读入缓存，从而导致缓存命中率降低，程序执行速度变慢。(2)向量化编程向量化编程是一种利用 CPU 的 SIMD（Single Instruction, Multiple Data，单指令多数据）指令集来同时处理多个数据的编程技术。传统的标量编程每次只能处理一个数据元素，而向量化编程可以在一条指令中并行处理多个数据元素，大大提高了数据处理速度，减少了执行时间。例如，使用 SIMD 指令可以同时对多个 32 位浮点数或者 16 位整数进行加法、乘法等运算。以 NEON 指令集为例，它是 ARM 架构中的一种 SIMD 扩展，被广泛应用于移动设备和嵌入式系统中。在图像、音频处理等领域，NEON 指令集有着出色的表现。在图像滤波处理中，需要对图像中的每个像素点进行计算，传统的方法是逐个像素点处理，效率较低。而使用 NEON 指令集，可以将多个像素点的数据打包成一个 128 位的向量，然后通过一条指令对这些像素点同时进行滤波计算，就像一群人同时完成多项任务，大大提高了处理效率。以下是一个简单的 NEON 指令集实现两个浮点数组相加的示例代码：#include <arm_neon.h>

void vector_addition(float* A, float* B, float* C, int n) {
int i;
for (i = 0; i < n; i += 4) {
// 从A和B数组中加载4个浮点数到NEON寄存器
float32x4_t a = vld1q_f32(&A[i]);
float32x4_t b = vld1q_f32(&B[i]);
// 对两个向量进行加法运算
float32x4_t c = vaddq_f32(a, b);
// 将结果存储回C数组
vst1q_f32(&C[i], c);
}
}在这个示例中，vld1q_f32 函数用于从内存中加载 4 个 32 位浮点数到 NEON 寄存器，vaddq_f32 函数用于对两个向量进行加法运算，vst1q_f32 函数用于将结果存储回内存。通过这种方式，一次可以处理 4 个浮点数，相比传统的逐个处理方式，性能得到了显著提升。三、实战案例解析3.1案例一：Java 进程 CPU 飙升优化在实际开发中，我们经常会遇到各种性能问题，其中 Java 进程 CPU 飙升是一个较为常见且棘手的问题。下面我们来看一个具体的案例。最近负责的一个项目上线后，运行一段时间就发现对应的进程竟然占用了 700% 的 CPU，导致公司的物理服务器都不堪重负，频繁宕机。面对这类 Java 进程 CPU 飙升的问题，我们该如何定位解决呢？首先，采用 top 命令定位进程。登录服务器，执行 top 命令，查看 CPU 占用情况，很快就能发现，PID 为 29706 的 Java 进程的 CPU 飙升到 700% 多，且一直降不下来，很显然出现了问题。接着，使用 top -Hp 命令定位线程。使用 top -Hp 命令（其中为 Java 进程的 id 号）查看该 Java 进程内所有线程的资源占用情况（按 shft+p 按照 cpu 占用进行排序，按 shift+m 按照内存占用进行排序）。在这里，我们很容易发现，多个线程的 CPU 占用达到了 90% 多。我们挑选线程号为 30309 的线程继续分析。然后，使用 jstack 命令定位代码。先将线程号转换为 16 进制，使用 printf “% x\n” 命令（tid 指线程的 id 号）将 10 进制的线程号转换为 16 进制。转换后的结果为 7665，由于导出的线程快照中线程的 nid 是 16 进制的，而 16 进制以 0x 开头，所以对应的 16 进制的线程号 nid 为 0x7665 。再采用 jstack 命令导出线程快照，通过使用 jdk 自带命令 jstack 获取该 java 进程的线程快照并输入到文件中。最后，在生成的文件中根据线程号 nid 搜索对应的线程描述，判断应该是 ImageConverter.run () 方法中的代码出现问题。下面是 ImageConverter.run () 方法中的部分核心代码。这段代码的逻辑是存储minicap 的 socket 连接返回的数据，设置阻塞队列长度，防止出现内存溢出。在 while 循环中，不断读取堵塞队列dataQueue 中的数据，如果数据为空，则执行 continue 进行下一次循环。如果不为空，则通过 poll () 方法读取数据，做相关逻辑处理。初看这段代码好像没什么问题，但是如果dataQueue对象长期为空的话，这里就会一直空循环，导致 CPU 飙升。// 全局变量
private BlockingQueue<byte[]> dataQueue = new LinkedBlockingQueue<byte[]>(100000);

// 消费线程
@Override
public void run() {
// long start = System.currentTimeMillis();
while (isRunning) {
// 分析这里从LinkedBlockingQueue
if (dataQueue.isEmpty()) {
continue;
}
byte[] buffer = device.getMinicap().dataQueue.poll();
int len = buffer.length;
}
}那么如何解决呢？分析 LinkedBlockingQueue 阻塞队列的 API 发现，有两种取值的 API 。take () 方法取出队列中的头部元素，如果队列为空则调用此方法的线程被阻塞等待，直到有元素能被取出，如果等待过程被中断则抛出 InterruptedException；poll () 方法取出队列中的头部元素，如果队列为空返回 null 。显然 take 方法更适合这里的场景。将代码修改如下：while (isRunning) {
/* if (device.getMinicap().dataQueue.isEmpty()) {
continue;
}*/
byte[] buffer = new byte[0];
try {
buffer = device.getMinicap().dataQueue.take();
} catch (InterruptedException e) {
e.printStackTrace();
}
……
}重启项目后，测试发现项目运行稳定，对应项目进程的 CPU 消耗占比不到 10% 。通过这个案例可以看出，在面对 Java 进程 CPU 飙升问题时，我们可以借助 top、jstack 等工具，逐步定位到问题代码，并通过合理的代码修改来解决问题。3.2案例二：UV 通道下采样代码优化在图像和视频处理等领域，常常会涉及到对图像数据的各种操作，UV 通道下采样就是其中常见的一种。下面我们来看一个 UV 通道下采样代码从标量处理转换为向量处理的优化案例。假设我们有一个 UV 通道下采样的任务，输入是 u8 类型的数据，通过邻近的 4 个像素求平均，输出 u8 类型的数据，达到 1/4 下采样的目的。我们假定每行数据长度是 16 的整数倍。最初的 C 代码实现如下：void DownscaleUv(uint8_t *src, uint8_t *dst, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride) {
for (int32_t j = 0; j < dst_height; j++) {
uint8_t *src_ptr0 = src + src_stride * j * 2;
uint8_t *src_ptr1 = src_ptr0 + src_stride;
uint8_t *dst_ptr = dst + dst_stride * j;
for (int32_t i = 0; i < dst_width; i += 2) {
// U通道
dst_ptr[i] = (src_ptr0[i * 2] + src_ptr0[i * 2 + 2] +
src_ptr1[i * 2] + src_ptr1[i * 2 + 2]) / 4;
// V通道
dst_ptr[i + 1] = (src_ptr0[i * 2 + 1] + src_ptr0[i * 2 + 3] +
src_ptr1[i * 2 + 1] + src_ptr1[i * 2 + 3]) / 4;
}
}
}为了提升代码性能，我们可以将其转换为向量处理，利用 NEON 指令集进行优化。具体步骤如下：①内层循环向量化内层循环是代码执行次数最多的部分，因此是向量化的重点。由于我们的输入和输出都是 u8 类型，NEON 寄存器 128bit，所以每次可以处理 16 个数据。修改后的内层循环代码如下：// 每次有16个数据输出
for (i = 0; i < dst_width; i += 16) {
//数据处理部分…
}②数据类型和指令选择输入数据加载时，UV 通道的数据是交织的，使用 vld2 指令可以实现解交织。在数据处理过程中，选择合适的指令进行计算。例如，水平两个数据相加可以使用 vpaddlq_u8 指令，上下两个数据相加之后求均值可以使用 vshrn_n_u16 和 vaddq_u16 指令。③代码实现#include <arm_neon.h>

void DownscaleUvNeon(uint8_t *src, uint8_t *dst, int32_t src_width, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride) {
//load偶数行的源数据，2组每组16个u8类型数据
uint8x16x2_t v8_src0;
//load奇数行的源数据，需要两个Q寄存器
uint8x16x2_t v8_src1;
//目的数据变量，需要一个Q寄存器
uint8x8x2_t v8_dst;
//目前只处理16整数倍部分的结果
int32_t dst_width_align = dst_width & (-16);
//向量化剩余的部分需要单独处理
int32_t remain = dst_width & 15;
int32_t i = 0;
//外层高度循环，逐行处理
for (int32_t j = 0; j < dst_height; j++) {
//偶数行源数据指针
uint8_t *src_ptr0 = src + src_stride * j * 2;
//奇数行源数据指针
uint8_t *src_ptr1 = src_ptr0 + src_stride;
//目的数据指针
uint8_t *dst_ptr = dst + dst_stride * j;
//内层循环，一次16个u8结果输出
for (i = 0; i < dst_width_align; i += 16) {
//提取数据，进行UV分离
v8_src0 = vld2q_u8(src_ptr0);
src_ptr0 += 32;
v8_src1 = vld2q_u8(src_ptr1);
src_ptr1 += 32;
//水平两个数据相加
uint16x8_t v16_u_sum0 = vpaddlq_u8(v8_src0.val[0]);
uint16x8_t v16_v_sum0 = vpaddlq_u8(v8_src0.val[1]);
uint16x8_t v16_u_sum1 = vpaddlq_u8(v8_src1.val[0]);
uint16x8_t v16_v_sum1 = vpaddlq_u8(v8_src1.val[1]);
//上下两个数据相加，之后求均值
v8_dst.val[0] = vshrn_n_u16(vaddq_u16(v16_u_sum0, v16_u_sum1), 2);
v8_dst.val[1] = vshrn_n_u16(vaddq_u16(v16_v_sum0, v16_v_sum1), 2);
//UV通道结果交织存储
vst2_u8(dst_ptr, v8_dst);
dst_ptr += 16;
}
//process leftovers…
}
}通过这样的优化，将原本的标量处理转换为向量处理，充分利用了 NEON 指令集的并行处理能力，大大提升了 UV 通道下采样的效率。在实际应用中，对于图像和视频处理等对性能要求较高的场景，这种基于向量处理的优化方式能够显著提高程序的运行速度，为用户带来更好的体验。四、优化工具大盘点在程序 CPU 性能优化的征程中，各类工具就像是我们的得力助手，它们能够帮助我们精准地监测性能指标，深入分析代码性能瓶颈，从而为优化工作提供有力支持。下面，我们就来详细盘点一些常用的优化工具。4.1性能监控工具(1)toptop 是 Linux 系统中一个非常强大的实时监控系统性能的命令行工具。它提供了关于系统正在运行的进程以及系统总体状态的实时动态视图。使用 top，我们可以看到关于 CPU 使用率、内存使用情况、进程信息、运行时间、登录用户等关键数据。在终端中输入 top 并回车，即可启动该命令，显示系统当前的实时状态。其界面主要包括顶部区域，显示系统的整体信息，如当前时间、系统运行时间、登录用户数、平均负载等；任务（Tasks）和 CPU 状态区域，展示当前正在运行的进程数、休眠中的进程数、停止的进程数以及僵尸进程数，还有 CPU 的使用情况（用户模式、系统模式、空闲等）；内存和交换空间区域，呈现物理内存和交换空间的使用情况；进程列表区域，列出当前系统上所有进程的详细信息，通常包括 PID（进程 ID）、用户、优先级、虚拟内存使用量、物理内存使用量、共享内存大小、状态（如运行、睡眠等）、CPU 使用率、内存使用率、运行的时间以及命令行。我们还可以使用 “-u 用户名” 选项只显示指定用户的进程；“-n 次数” 指定 top 命令更新屏幕的次数，之后自动退出；“-d 秒数” 设置 top 命令更新的时间间隔（以秒为单位）等。(2)htophtop 是 top 的一个替代品，它提供了更加友好的交互界面，并且可以实时监控系统的各项指标，包括 CPU 的使用情况。htop 的界面更加直观，将输出界面划分成了四个区域，上左区显示了 CPU、物理内存和交换分区的信息；上右区显示了任务数量、平均负载和连接运行时间等信息；进程区域显示出当前系统中的所有进程；操作提示区显示了当前界面中 F1 - F10 功能键中定义的快捷功能。例如，F1 用于显示帮助信息；F2 可配置界面中的显示信息，我们可以根据自己的需要修改显式模式以及想要显示的内容，比如以 LED 的形式显示 CPU 的使用情况，并且在左边的区域添加 hostname，在右边的区区域添加 clock，也可以自定义进程区域中的显示内容；F3 用于进程搜索；F4 是进程过滤器；F5 显示进程树；F6 用于排序；F7 减小 nice 值；F8 增加 nice 值；F9 杀掉指定进程；F10 退出 htop 。空格键用于标记选中的进程，用于实现对多个进程同时操作；U 取消所有选中的进程；s 显示光标所在进程执行的系统调用；l 显示光标所在进程的文件列表；I 对排序的结果进行反转显示；a 绑定进程到指定的 CPU；u 显示指定用户的进程；M 按照内存使用百分比排序，对应 MEM% 列；P 按照 CPU 使用百分比排序，对应 CPU% 列；T 按照进程运行的时间排序，对应 TIME + 列。(3)mpstatmpstat 是 Multiprocessor Statistics 的缩写，是实时系统监控工具。其报告与 CPU 的一些统计信息，这些信息存放在 /proc/stat 文件中。在多 CPUs 系统里，其不但能查看所有 CPU 的平均状况信息，而且能够查看特定 CPU 的信息。mpstat 最大的特点是可以查看多核心 cpu 中每个计算核心的统计数据，而类似工具 vmstat 只能查看系统整体 cpu 情况。其语法为 “mpstat [-P {|ALL}] [internal [count]]” ，其中 “-P {|ALL}” 表示监控哪个 CPU， cpu 在 [0,cpu 个数 - 1] 中取值；internal 是相邻的两次采样的间隔时间；count 是采样的次数，count 只能和 delay 一起使用。当没有参数时，mpstat 则显示系统启动以后所有信息的平均值。有 interval 时，第一行的信息自系统启动以来的平均信息，从第二行开始，输出为前一个 interval 时间段的平均信息。例如，“mpstat 2” 表示每 2 秒更新一次，显示多核 CPU 核心的当前运行状况信息；“mpstat -P ALL 2” 则可以查看每个 cpu 核心的详细当前运行状况信息。(4)pidstatpidstat 是一个常用的进程性能分析工具，用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。要查看所有进程的 CPU 使用情况，使用 “pidstat” 命令，其输出结果包括 PID（进程 ID）、% usr（用户态 CPU 使用率）、% system（内核态 CPU 使用率）、% CPU（总的 CPU 使用率）等信息。如果想在一段时间内持续监控进程的 CPU 使用情况，可以使用 “pidstat 2 5” 这样的命令格式，意味着每隔 2 秒刷新一次数据，共显示 5 次。若要查看指定进程的 CPU 使用情况，假设进程的 PID 为 1234，可使用 “pidstat -p 1234” 。pidstat 还能查看内存使用情况，使用 “-r” 选项，如 “pidstat -r”，将显示 minflt/s（每秒次级页面错误数）、majflt/s（每秒主页面错误数）、VSZ（虚拟内存大小）、RSS（驻留集大小）等与内存相关的信息，同样也可以指定时间间隔和次数来持续监控。此外，使用 “-d” 选项可以监控进程的 I/O 操作，显示 kB_rd/s（每秒从磁盘读取的数据量）、kB_wr/s（每秒写入磁盘的数据量）、kB_ccwr/s（取消写入的千字节数，由于缓存）等信息；使用 “-t” 选项可以显示线程级别的监控信息。4.2代码分析工具(1)perfperf 是内置于 Linux 内核源码树中的性能剖析工具。它基于事件采样原理，使用了许多 Linux 跟踪特性，可用于进行函数级与指令级的性能瓶颈的查找与热点代码的定位。例如，“perf top” 可以实时显示系统 / 进程的性能统计信息，常用参数包括 “-e” 指定性能事件，“-a” 显示在所有 CPU 上的性能统计信息，“-C” 显示在指定 CPU 上的性能统计信息，“-p” 指定进程 PID，“-t” 指定线程 TID，“-K” 隐藏内核统计信息，“-U”隐藏用户空间的统计信息，“-s” 指定待解析的符号信息等。“perf stat” 用于分析系统 / 进程的整体性能概况，常用参数有 “-e” 选择性能事件，“-i” 禁止子任务继承父任务的性能计数器，“-r” 重复执行 n 次目标程序，并给出性能指标在 n 次执行中的变化范围，“-n” 仅输出目标程序的执行时间，而不开启任何性能计数器，“-a” 指定全部 cpu，“-C” 指定某个 cpu，“-A” 将给出每个处理器上相应的信息，“-p” 指定待分析的进程 id，“-t” 指定待分析的线程 id 等。“perf record” 用于记录一段时间内系统 / 进程的性能时间，常用参数包括 “-e” 选择性能事件，“-p” 待分析进程的 id，“-t” 待分析线程的 id，“-a” 分析整个系统的性能，“-C” 只采集指定 CPU 数据，“-c” 事件的采样周期，“-o” 指定输出文件，默认为 perf.data，“-A” 以 append 的方式写输出文件，“-f” 以 OverWrite 的方式写输出文件，“-g” 记录函数间的调用关系。“perf report” 则用于读取 perf record 生成的数据文件，并显示分析数据，常用参数有 “-i” 输入的数据文件，“-v” 显示每个符号的地址，“-d” 只显示指定 dos 的符号，“-C” 只显示指定 comm 的信息（Comm. 触发事件的进程名），“-S” 只考虑指定符号，“-U” 只显示已解析的符号，“-g [type,min,order]” 显示调用关系，具体等同于 perf top 命令中的 “-g”，“-c” 只显示指定 cpu 采样信息。(2)gprofgprof 是 GNU 提供的一款性能分析工具，它可以帮助我们分析程序的性能瓶颈。使用 gprof，我们需要在编译程序时加上 “-pg” 选项，例如 “gcc -pg -o myprogram myprogram.c” 。编译完成后运行程序，程序运行结束后会生成一个名为 “gmon.out” 的文件。然后使用 “gprof” 命令加上可执行文件名和 “gmon.out” 文件来进行分析，如 “gprof myprogram gmon.out” 。gprof 会生成一份详细的报告，展示函数的调用关系、每个函数的执行时间、调用次数等信息。通过这份报告，我们可以清楚地看到哪些函数占用了较多的执行时间，从而有针对性地对这些函数进行优化。例如，如果报告显示某个函数的执行时间很长，且被频繁调用，那么我们就可以深入分析该函数的代码逻辑，尝试优化算法或者减少不必要的操作，以提高程序的整体性能。(3)valgrindvalgrind 是一套功能强大的调试和分析工具，其中的 Massif 工具可以用来分析程序的内存使用情况，Cachegrind 工具则可以用于分析 CPU 缓存的使用情况。使用 Massif 分析内存时，运行程序时使用 “valgrind --tool=massif myprogram” 命令，程序运行结束后会生成一个名为 “massif.out.XXXX”（XXXX 为数字）的文件。然后可以使用 “ms_print massif.out.XXXX” 命令来查看内存使用报告，报告中会显示程序在不同时间点的堆内存使用量、峰值内存使用量等信息，帮助我们发现内存泄漏、内存分配不合理等问题。使用 Cachegrind 分析 CPU 缓存时，运行程序时使用 “valgrind --tool=cachegrind myprogram” 命令，运行结束后会生成 “cachegrind.out.XXXX” 文件，通过 “cg_annotate cachegrind.out.XXXX” 命令可以查看缓存使用报告，报告中会展示函数的缓存命中率、缓存缺失次数等信息，让我们了解程序对 CPU 缓存的利用情况，进而通过优化数据访问模式、调整代码结构等方式提高缓存命中率，提升程序性能。