常用的性能优化技巧

最新推荐文章于 2021-10-08 20:34:12 发布

ztono

最新推荐文章于 2021-10-08 20:34:12 发布

阅读量569

点赞数

分类专栏： c++入门学习文章标签：性能优化 c++

本文链接：https://blog.csdn.net/qq_35571432/article/details/78329847

版权

c++入门学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

注意：本文针对的主要是c/c++语言，不同语言由于机制不同，会出现不适用的情况。
1.二维数组尽量按行读取
我们知道二位数组实际上是数组的数组，二维数组的每一低维实际上是一个一维数组，而一维数组在内存中的位置是连续的，意味着减少了内存寻址的时间，同时便于处理器缓存数据，减少了缓存不命中的几率。

下面是一段测试代码来说明这个问题：

#include <iostream>
#include <omp.h>
#include <time.h>
#include <Windows.h>
using namespace std;

const long long int SIZEOFMAT = 15000;
int mat_a[SIZEOFMAT][SIZEOFMAT];

void creat_mat()
{
    for(int i=0;i<SIZEOFMAT;i++)
        for(int j=0;j<SIZEOFMAT;j++)
        {
            mat_a[i][j] = j;
        }

}

void readMatByRow()
{
    for(int i=0;i<SIZEOFMAT;i++)
    {
        int sum = 0;
        for(int j=0;j<SIZEOFMAT;j++)
        {
            sum += mat_a[i][j];
        }
    }
}

void readMatBycol()
{
    for (int i = 0; i<SIZEOFMAT; i++)
    {
        int sum = 0;
        for (int j = 0; j<SIZEOFMAT; j++)
        {
            sum += mat_a[j][i];
        }
    }
}


int main()
{
    creat_mat();
    DWORD start, end;
    start = GetTickCount();
    readMatByRow();
    end = GetTickCount();
    cout << "row" << endl << end - start << endl;
    Sleep(10);
    start = GetTickCount();
    readMatBycol();
    end = GetTickCount();
    cout << "col" << endl << end - start << endl;

    return 0;
}

运行结果是：
这里写图片描述
可以看到速度相差3倍！

事实上，由于我们的任务是数组相加，我们还可以将循环展开来进一步提高效率，如将按行读取数组那部分改为：

void readMatByRowWithLoopUnrolling()
{
    for (int i = 0; i<SIZEOFMAT; i++)
    {
        int sum = 0;
        for (int j = 0; j<SIZEOFMAT; j+=5)
        {
            sum += mat_a[i][j];
            sum += mat_a[i][j+1];
            sum += mat_a[i][j+2];
            sum += mat_a[i][j+3];
            sum += mat_a[i][j+4];
        }
    }
}

这是运行结果，LoopUnrolling那行是循环展开后的用时，Loop那行是循环未展开的用时（均为按行读取矩阵），可以看到速度差距还是相当明显的。
这个的原理也很容易想到，减少了判断次数，增加了处理器处理流水线的能力，当然还可以展开外层循环，这个就读者自己去尝试了。
这里写图片描述
对于循环来说，可操作性还是比较强，另外也没有固定的套路，但有一点原则就是尽量不让寄存器溢出的基础上尽量充分的运用它，比如有一个循环，循环体的代码量很大，导致寄存器溢出，这时候，我们可以把没有数据依赖的部分分拆循环，用多个循环来执行它，以提高效率，另外我们尽量避免把判断放在循环体里，减少分支预测失误的不利影响。
还有一种骚操作，就是利用条件复制指令移除分支，例如以下一段代码：

if(a > 0)
{
    x = a;
}
else
{
    x=b;
}

可改为：

x = (a>0 ? a : b );

另外还有种优化思路，那就是定义数组时用short int，因为我们发现数组的值都没有超过short int的范围，不过在这个情境下，这样对效率的提升比较有限，然而对空间的优化还是相当明显的。
2.
使用条件编译，由于宏条件在编译时已经确定，可以帮助编译器直接忽略不成立的分支，提高运行效率，不过这也有一个问题，就是只能使用多个程序编译。

3.对于编译器自身来说，选择合理的编译优化选项（比如 cl的od/o1/o2/ox），另外比如指定指令集（我这部分还需要学习，过几天开个博客专门说这个），再是降低编译器的优化难度，比如减少全局变量的数量（不过这和有些编程原则冲突，需要合理的使用），以及避免存储器别名，下面我们详细的说一说存储器别名的问题，看下面一段代码：

int f(int *a,int *b)
{
    *a += *b;
    *a += *b;
}

假如我们是编译器，我们可以尝试将函数简化成：

int f(int *a,int *b)
{   
    int temp = *b;
    *a += 2*temp;
}

上面这段代码，如果a,b之间存在存储器别名，即a，b指向的是同一段内存，那么很明显结果是错的，而应该变为如下代码：

int f(int *a, int *b)
{
    int temp= *b;
    *a= 4 * temp;
}

所以编译器为了保险起见便不再优化，但是我们可以通过restrict手工指定指针不是存储器别名，在vs中使用宏RESTRICTED_POINTER来定义，如下：

int f(int * RESTRICTED_POINTER a, int * RESTRICTED_POINTER b)
{
    *a += *b;
    *a += *b;
}

以提供给编译器优化空间。

4.
适当的使用inline（内联函数），但是注意它会引起空间上的开销。

注意在X86的处理器上，函数的参数优先存入寄存器中，如果你的函数参数是一个巨大的结构体，请使用结构体的指针来作为参数传递而不是整个结构体（这个的前提是你只调用这个结构体的一部分，如果当然如果你需要调用整个结构体，那么用指针传递会造成比较大的开销）
说到结构体，我们也可以采用一些方式来对我们结构体进行优化，比如，对结构体进行按字节对齐，在vs中命令为：#pragma pack(push,size)
用#pragma pack(pop)来还原默认
另外还有一个小技巧，声明结构体时，大数据类型在前，小数据类型在后。

5.
性能比较：
位运算 1周期
乘法 3周期
除法 10+周期
模运算几十上百

ztono

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
常用的性能优化技巧

注意：本文针对的主要是c/c++语言，不同语言由于机制不同，会出现不适用的情况。 1.二维数组尽量按行读取我们知道二位数组实际上是数组的数组，二维数组的每一低维实际上是一维数组，而一维数组在内存中的位置是连续的，意味着减少了内存寻址的时间，同时便于处理器缓存数据，减少了缓存不命中的几率。下面是一段测试代码来说明这个问题：#include <iostream>#include <omp.h>
复制链接

扫一扫