C++编程：使用GCC内置函数__builtin_prefetch优化内存访问的实测与分析

最新推荐文章于 2025-03-21 15:49:45 发布

橘色的喵

最新推荐文章于 2025-03-21 15:49:45 发布

阅读量1.7k

点赞数 24

分类专栏：性能优化、功能优化 C++ 文章标签： c++ 内存预取 prefetch 高性能性能优化内存优化

本文链接：https://blog.csdn.net/stallion5632/article/details/141182330

版权

C++ 同时被 2 个专栏收录

125 篇文章

订阅专栏

性能优化、功能优化

73 篇文章

订阅专栏

文章目录

0. 引言

C++编程中，内存访问的效率往往是影响程序运行速度的重要因素之一。现代CPU为了减轻内存访问的瓶颈，采用了多级缓存机制，通过合理使用缓存可以显著提升程序的性能。
本文将探讨如何使用__builtin_prefetch这一GCC提供的内置函数，来优化内存访问模式，并通过实际测试评估其效果。

1. `__builtin_prefetch`的基本原理与用法

__builtin_prefetch是GCC编译器提供的一个内置函数，用于在数据被真正访问之前，将其提前加载到CPU缓存中，从而减少内存访问延迟，提高程序执行速度。其函数原型如下：

void __builtin_prefetch(const void *addr, int rw = 0, int locality = 3);

addr：指向需要预取的数据的指针。
rw：指定数据是用于读取（0）还是写入（1）。
locality：指定数据的时间局部性，取值范围为0至3，数值越高表示数据可能在短时间内被再次访问。

通过手动预取，__builtin_prefetch能够减少读取延迟并提高性能。然而，它也需要CPU的支持，且使用场景需要根据具体的硬件架构和程序特性来确定。以下是一个简单的使用示例：

#include <iostream>

void prefetchArray(const int* array, int size) {
    for (int i = 0; i < size; ++i) {
        __builtin_prefetch(&array[i + 1], 0, 3); // 预取下一个数组元素
        std::cout << array[i] << " "; // 假设这里有一些对数组元素的操作
    }
}

int main() {
    const int size = 10000;
    int array[size];

    // 初始化数组
    for (int i = 0; i < size; ++i) {
        array[i] = i;
    }

    // 调用带有预取指令的数组遍历函数
    prefetchArray(array, size);

    return 0;
}

在这个示例中，__builtin_prefetch用于提前请求处理器预取数组中的下一个元素。这种预取策略可以在数据访问的顺序性较强的情况下减少缓存未命中的概率。

2. `__builtin_prefetch`的高级用法与系统应用

在Linux内核中，预抓取技术被广泛应用，通常通过宏和包装器函数来使用__builtin_prefetch。以下是一个在Linux内核中实现流操作预抓取的辅助函数示例：

#ifndef ARCH_HAS_PREFETCH
#define prefetch(x) __builtin_prefetch(x)
#endif

static inline void prefetch_range(void *addr, size_t len) {
#ifdef ARCH_HAS_PREFETCH
    char *cp;
    char *end = addr + len;

    for (cp = addr; cp < end; cp += PREFETCH_STRIDE)
        prefetch(cp);
#endif
}

该函数使用内置函数的包装器（见./linux/include/linux/prefetch.h），实现了对指定地址范围的数据进行预抓取，通常可以减少缓存缺失和停顿，从而提高性能。

3. 实测`__builtin_prefetch`的性能影响

为了评估__builtin_prefetch的实际性能效果，我们进行了以下测试。在一个包含两百万个元素的数组上，分别在不使用和使用__builtin_prefetch的情况下，计算数组元素之和，并测量其耗时。测试在Linux ARM A53平台上进行，分别使用-O2和-O3编译优化选项。

测试代码如下：

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <stdint.h>

#define ARRAY_SIZE 2000000

int main() {
    uint32_t arr[ARRAY_SIZE];

    // 随机生成一个数组
    srand(time(NULL));
    for (uint32_t i = 0; i < ARRAY_SIZE; i++) {
        arr[i] = rand() % 100;
    }

    // 计算数组元素之和，不使用预取
    clock_t start = clock();
    uint32_t sum = 0;
    for (uint32_t i = 0; i < ARRAY_SIZE; i++) {
        sum += arr[i];
    }
    clock_t end = clock();
    printf("Without prefetching, sum = %d, time = %ld\n", sum, end - start);

    // 计算数组元素之和，使用预取
    start = clock();
    sum = 0;
    for (uint32_t i = 0; i < ARRAY_SIZE; i++) {
        __builtin_prefetch(&arr[i + 10]);
        sum += arr[i];
    }
    end = clock();
    printf("With prefetching, sum = %d, time = %ld\n", sum, end - start);

    return 0;
}