快速理解优化程序性能
程序优化的第一步就是消除不必要的工作,让代码尽可能有效地执行所期望的任务。这包括消除不必要的函数调用、条件测试和内存引用。这些优化不依赖于目标机器的任何具体属性。程序优化的第二步就是利用处理器提供的指令级并行能力,同时执行多条指令。
1.当指针所指向的内容相等时(内存别名使用)
void twiddle1(long *xp, long *yp)
{
*xp += *yp ;
*xp += *yp ;
}
void twiddle2(long *xp, long *yp)
{
xp += 2 *yp ;
}
考虑 xp 等于 yp 的情况,twiddle1会执行下面的计算:
*xp += *xp ;
*xp += *xp ;
结果是 xp 的值增加4倍。
twiddle2会执行下面的计算:
xp += 2 *xp ;
结果是 xp 的值增加3倍。
2.有关循环的优化
增加每次迭代元素的计算次数,减少循环次数:
void psum1(float a[], float p[], long n)
{
long i ;
p[0] = a[0] ;
for (i = 1 ; i < n ; i++)
p[i] = p[i-1] + a[i] ;
}
void psum2(float a[], float p[], long n)
{
long i ;
p[0] = a[0] ;
for (i = 1 ; i < n ; i++) {
float mid_val = p[i-1] + a[i] ;
p[i] = mid_val ;
p[i+1] = mid_val + a[i+1] ;
}
if (i<n)
p[i] = p[i-1] + a[i] ;
}
代码移动,将要执行多次(例如在循环里)但是计算结果不会改变的计算移动到代码前面不会被多次求值的部分:
3.消除不必要的引用
每次迭代时,累积变量的数值都要从内存读出再写入到内存,这样的读写很浪费,因为每次迭代开始时从dest读出的值就是上次迭代最后写入的值。
重写代码,加入临时变量acc,它在循环中用来积累计算出来的值,只有在循环完成之后结果才存放在dest中。