程序性能优化

程序性能优化,关键是要对循环进行优化。

1. 消除循环的低效率

如:

 for (i = O ; i < vec_length (v); i++) 

可改为:

long length = vec_length (v) ;

for (i = O ; i < length ; i++)

这样就不会每次循环时都调用vec_length函数,每次函数调用的开销很大。

2. 减少过程调用

如:

for (i = O ; i < length ; i++) {
        data_t val ;
        get_vec_element (v , i , &val) ;
        *dest = *dest OP val ;
}

可改为:

data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
        *dest = *dest OP data [i] ;

这样每个循环中通过数组来引用具体数据,而不是在循环中进行函数调用。

3. 消除不必要的内存引用

如:

data_t *data = get_vec_start (v) ;
*dest = IDENT ;
for (i = O ; i < length ; i++) {
        *dest = *dest OP data [i] ;

可改为:

data_t *data = get_vec_start (v) ;
data_t acc = IDENT ;
for (i = O ; i < length ; i++) {
        acc = acc OP dat a [i) ;

*dest = acc ;

这样在循环中直接引用变量,该变量会存放在寄存器中,能够快速访问,最后循环结束再将结果写回内存,从而减少了内存访问。

4. 提高并行性

如:

for (i = O ; i < length ; i++) {
        acc = acc OP dat a [i) ;

可改为:

data_t accO = !DENT;
data_t acc1 = !DENT;
I* Combine 2 elements at a time *I
for (i = O; i < limit; i+=2) {
        accO = accO OP data[i];
        acc1 = acc1 OP data[i+1];

I* Finish any remaining elements *I
for (; i < length; i++) {
        accO = accO OP data[i];

*dest = accO OP accl;

首先, 它减少了不直接有助于程序结果的操作的数量, 例如循环索引计算和条件分支。 第二,它可以充分利用CPU的多个功能单元以及它们的流水线能力,在一个循环体中同时并行执行多个操作,提高并行计算能力。

5. 书写适合用条件传送实现的代码

如:

fo r ( i = O; i < n; i++) {
        if (a[i] > b[i] ) {
                long t = a[i];
                a[i] = b[i];
                b[i] = t;
        }

可改为:

for ( i = O; ]. < n; i++) {
        long min = a[i] < b[i] ? a[i] : b[i]
        long max = a[i] < b[i] ? b[i] : a[i]
        a[i] = min;
        b[i] = max;
}

当执行条件传送指令时 , 根据条件码和传送条件来计算决定是否更新目标寄存器。这样不会像分支代码那样需要进行分支预测,从而可能导致破坏流水线。
 

6. 编写局部性好的程序

局部性包含时间局部性和空间局部性。

时间局部性:当前访问过的指令在不久的将来会再多次被访问

空间局部性:如果一 个内存位置被引用了一次, 那么程序很可能在不远的将来引用附近的一 个内存位置

如:

for (i = 0; i < N; i++)
        sum+= v[i];

for (j = 0; j < N; j ++)
        for (i = 0; i < M ; i++)
                sum += a[i][j ] ;

这两段代码都具有很好的时间和空间局部性,循环体中的指令会多次被访问,数组中的数据是按顺序访问。这样加载在cache中的数据会被重复使用,不用再反复访问内存,从而提高程序执行效率。

再如:

for (k = O ; k < n ; k++) 
        for ( i = O ; i < n ; i++) { 
                r = A [i] [k] ;
                for (j = O ; j < n ; j ++)
                        C [i] [j ] += r*B [k] [j ] ;

这是一个2x2的矩阵运算,这里最内层循环按顺序依次数组无素,利用空间局部性保证cache的命中,而对A[i][k],先将他放到一个变量中,这个变量会保存在寄存器中,这样最内层循环就不用每次访问内存,也就不会有cache不命中的问题。

利用局部性的几个建议:

  • 将你的注 意 力 集中在内循环上, 大部分计算和内存访问都发生在这里 。
  • 通过按照数据 对象存储在内存中的顺序、 以步长为 1的来读数据 , 从而 使得你程序中的空间局部性最 大 。
  • 一旦从存 储 器中读入了一个数据 对象, 就 尽 可能多地 使用它, 从而 使得程序中的时间局部性最大
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值