【C语言指针进阶讲解】第六章：指针的高级用法与性能优化

长天一色

于 2024-10-02 11:21:44 发布

阅读量535

点赞数 12

分类专栏： C 文章标签： c语言开发语言

本文链接：https://blog.csdn.net/fjw12998/article/details/142679610

版权

C 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

第六章：指针的高级用法与性能优化

1. 指针与编译器优化

编译器优化是提高程序性能的关键手段之一。通过使用不同的优化选项（如 -O2, -O3），编译器可以对代码进行多种优化处理，包括指针操作，这些优化可能显著影响程序的运行效率。

编译器优化选项的影响

-O1：开启基本优化。编译器会进行一些简单的优化处理，但不会对代码做过多调整。
-O2：开启更多优化。包括循环展开、内联函数等，从而进一步提高性能。
-O3：在-O2基础上，开启更为激进的优化，如自动向量化、循环分块等。

这些优化选项可以显著提高指针操作的效率，例如消除冗余加载和存储操作，增强缓存命中率等。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

#define SIZE 1000000

// [1]
void sum_array_elements(int *arr, int size) {
    long long sum = 0;
    for (int i = 0; i < size; i++) {
        sum += arr[i];
    }
    printf("Sum: %lld\n", sum);
}

int main() {
    int *array = (int *) malloc(SIZE * sizeof(int));    // [2]
    for (int i = 0; i < SIZE; i++) {    // [3]
        array[i] = i + 1;
    }

    clock_t start = clock();    // [4]
    sum_array_elements(array, SIZE);    // [5]
    clock_t end = clock();

    printf("Time taken: %f seconds\n", ((double)(end - start)) / CLOCKS_PER_SEC);   // [6]
    free(array);

    return 0;
}

在上述代码中，使用不同的编译优化选项可能显著影响运行时间。通过观察不同优化级别下的运行时间，可以看到编译器如何优化指针操作，提高性能。

编译和运行

gcc -O1 optimization_example.c -o opt_O1
gcc -O2 optimization_example.c -o opt_O2
gcc -O3 optimization_example.c -o opt_O3

./opt_O1
./opt_O2
./opt_O3

得到以下的输出结果：

$ ./opt_O1
Sum: 500000500000
Time taken: 0.000269 seconds
$ ./opt_O2
Sum: 500000500000
Time taken: 0.000245 seconds
$ ./opt_O3
Sum: 500000500000
Time taken: 0.000146 seconds

通过比较不同优化级别下的时间输出，我们可以了解编译器优化对指针操作带来的具体性能提升。

代码解释：

[1]sum_array_elements函数：定义了一个简单的函数，用于计算数组元素的和。该函数通过指针arr遍历数组，计算总和。
[2]数组动态分配：在主函数中，使用malloc动态分配一个大小为SIZE的整型数组。
[3]数组初始化：填充数组，每个元素的值为其索引值加1。
[4]计时：使用clock函数记录计算开始和结束的时间点。
[5]数组求和：调用sum_array_elements函数，传入数组和尺寸参数。
[6]输出运行时间：计算并输出代码运行所需的时间。

通过使用不同的编译选项，我们可以看到在较高优化级别下，程序运行速度显著提高。这主要是由于编译器在优化过程中通过消除不必要的加载和存储操作、进行循环展开等方法，提高了指针操作的效率。

2. 指针与内存对齐

内存对齐是指数据在内存中按一定边界存放，以提高数据访问效率。常见的对齐边界有1字节、2字节、4字节和8字节等。合理的内存对齐会显著提高数据访问速度，而不当的内存对齐可能会导致性能下降甚至错误。

内存对齐的概念：

内存对齐是将数据放置在内存特定地址（通常是数据类型的大小的倍数）上，以使处理器能够高效地访问这些数据。常见的对齐边界包括1字节、2字节、4字节和8字节等。

原因：
- 硬件限制：大多数现代处理器在从特定地址读取数据时表现更好。
- 效率：对齐数据减少处理器需要进行两次内存访问的情况。
内存对齐对性能的影响：

不当的内存对齐会导致多个内存地址操作（也称为cache line拆分），增加CPU访问内存的次数、降低缓存命中率，从而影响性能。

* **示例**：
  ```c
  #include <stdio.h>

  typedef struct {
      char c;
      int i;
  } Misaligned;

  int main() {
      Misaligned ma;
      printf("Size of misaligned struct: %lu\n", sizeof(ma));  // 输出不对齐结构体的大小
      return 0;
  }
  ```

在上述结构体中，`char` 可能不按照理想的`4字节`或更高的边界对齐，从而导致额外的内存访问操作。

使用 pragma pack 调整结构体内存对齐：

C语言提供了 #pragma pack 指令，可以用来调整结构体的内存对齐方式，以实现不同的对齐要求。

```c
#include <stdio.h>

#pragma pack(1)     // [1]
typedef struct {
    char a;
    int b;
} PackedStruct;

#pragma pack()      // [2]
typedef struct {
    char a;
    int b;
} DefaultStruct;

int main() {
    printf("Size of PackedStruct: %lu\n", sizeof(PackedStruct));
    printf("Size of DefaultStruct: %lu\n", sizeof(DefaultStruct));

    return 0;
}
```

代码解析：

[1] #pragma pack(1)：将 PackedStruct 的对齐方式设置为1字节对齐，从而消除填充字节，但可能损失性能。
[2] #pragma pack()：恢复默认对齐方式。DefaultStruct 按默认（通常是4字节或8字节）对齐。

执行上述代码可以显示不同对齐方式对结构体大小的影响：
```
gcc memory_alignment_example.c -o alignment
./alignment
```
结果输出：
```
Size of PackedStruct: 5
Size of DefaultStruct: 8
```
结论与应用场景：通过调整对齐方式，可以平衡结构体内存占用和访问性能。例如，在数据传输时，紧凑的内存布局可能更重要，而在计算密集型应用程序中，高效的内存访问可能更重要。