接着上一篇,我们继续总结《并行算法设计与性能优化》中的语句级别优化。对于语句级别的优化来说,要尽量避免语句生成不需要的指令,或者让语句生成更为高效的指令。
减少对内存的读写
需要多次访问函数参数指针指向的值,则可将其保存在寄存器中
for(int i = 0; i < len; i++){
a[i] += a[i-1];
}
进行优化之后
temp = a[0];
for(int i = 0; i < len; i++){
temp += a[i];
a[i] = temp;
}
选用尽量小的数据类型
根据所需要的数据空间定义相应的数据类型。
机构体对齐
尽量保证大数据类型再前,小数据类型在后,这样编译后的结构体所占用的字节数就会少一些。
表达式移除
表达式移除指的是去掉重复的、共同的计算或者访存。
下面的代码表示:前者每次循环都需要比较索引以检查访存是否越界,后者则只需要实现一次:
void reedVI(VI *vi, int id){
int len = vi->size();
if(id < len) return vi[id];
else return ERROR;
}
for(int i = 0; i < len; i++){
readVI(a,i);
}
代码进行改进之后:
if(len >= a->size) return ERROR;
for(int i=0; i < len; i++){
a[i]
...
}
分支优化
分支优化的前提是CPU在遇到条件判断时,会事先判断一下运行方向,并进行预运行。分支优化就是在这上面进行代码优化。有下面几条习惯需要注意:
尽量避免把判断放在循环里面
拆分循环
有时候循环中分支可能非常多,需要将其拆分成几个小循环有可能改善处理器的分支预测正确率,例子是:奇偶分支模型
合并多个条件
使用条件状态值生成掩码来移除条件分支
示例的代码为:
if(a > 0){
x = a;
}else{
x = b;
}
可以被优化为:
x = a > 0;
a = a*x + b * (1 - x);