程序性能优化

BoySKung

已于 2023-04-27 15:46:43 修改

阅读量362

点赞数

文章标签：程序优化

于 2023-03-14 11:32:16 首次发布

本文链接：https://blog.csdn.net/boyskung/article/details/129518501

版权

文章介绍了程序性能优化的关键点，包括消除循环内的函数调用，减少不必要的内存引用，提高并行计算，利用条件传送优化分支，以及编写具有良好局部性的代码以提高缓存利用率。这些方法旨在减少开销，提高执行效率。

摘要由CSDN通过智能技术生成

程序性能优化，关键是要对循环进行优化。

1. 消除循环的低效率

如：

for (i = O ; i < vec_length (v); i++)

可改为：

long length = vec_length (v) ;

for (i = O ; i < length ; i++)

这样就不会每次循环时都调用vec_length函数，每次函数调用的开销很大。

2. 减少过程调用

如：

for (i = O ; i < length ; i++) {
        data_t val ;
        get_vec_element (v , i , &val) ;
        *dest = *dest OP val ;
}

可改为:

data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
*dest = *dest OP data [i] ;
｝

这样每个循环中通过数组来引用具体数据，而不是在循环中进行函数调用。

3. 消除不必要的内存引用

如：

data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
*dest = *dest OP data [i] ;
｝

可改为：

data_t *data = get_vec_start (v) ;
data_t acc = IDENT ;
for (i = O ; i < length ; i++) {
acc = acc OP dat a [i) ;
｝
*dest = acc ;

这样在循环中直接引用变量，该变量会存放在寄存器中，能够快速访问，最后循环结束再将结果写回内存，从而减少了内存访问。

4. 提高并行性

如：

for (i = O ; i < length ; i++) {
acc = acc OP dat a [i) ;
｝

可改为：

data_t accO = !DENT;
data_t acc1 = !DENT;
I* Combine 2 elements at a time *I
for (i = O; i < limit; i+=2) {
        accO = accO OP data[i];
        acc1 = acc1 OP data[i+1];
｝
I* Finish any remaining elements *I
for (; i < length; i++) {
        accO = accO OP data[i];
｝
*dest = accO OP accl;

首先，它减少了不直接有助于程序结果的操作的数量，例如循环索引计算和条件分支。第二，它可以充分利用CPU的多个功能单元以及它们的流水线能力，在一个循环体中同时并行执行多个操作，提高并行计算能力。

5. 书写适合用条件传送实现的代码

如：

fo r ( i = O; i < n; i++) {
        if (a[i] > b[i] ) {
                long t = a[i];
                a[i] = b[i];
                b[i] = t;
        ｝
｝

可改为：

for ( i = O; ]. ＜ n; i++) {
        long min = a[i] < b[i] ? a[i] : b[i]
        long max = a[i] < b[i] ? b[i] : a[i]
        a[i] = min;
        b[i] = max;
}

当执行条件传送指令时，根据条件码和传送条件来计算决定是否更新目标寄存器。这样不会像分支代码那样需要进行分支预测，从而可能导致破坏流水线。

6. 编写局部性好的程序

局部性包含时间局部性和空间局部性。

时间局部性：当前访问过的指令在不久的将来会再多次被访问

空间局部性：如果一个内存位置被引用了一次，那么程序很可能在不远的将来引用附近的一个内存位置

如:

for (i = 0; i < N; i++)
sum+= v[i];

for (j = 0; j < N; j ++)
for (i = 0; i < M ; i++)
sum += a[i][j ] ;

这两段代码都具有很好的时间和空间局部性，循环体中的指令会多次被访问，数组中的数据是按顺序访问。这样加载在cache中的数据会被重复使用，不用再反复访问内存，从而提高程序执行效率。

再如：

for (k = O ; k < n ; k++)
        for ( i = O ; i < n ; i++) {
                r = A [i] [k] ;
                for (j = O ; j < n ; j ++)
                        C [i] [j ] += r*B [k] [j ] ;
｝

这是一个2x2的矩阵运算，这里最内层循环按顺序依次数组无素，利用空间局部性保证cache的命中，而对A[i][k]，先将他放到一个变量中，这个变量会保存在寄存器中，这样最内层循环就不用每次访问内存，也就不会有cache不命中的问题。

利用局部性的几个建议：