工作日志
2016/11/14
代码优化:
对于矩阵旋转运算:
void rotateVector(float *v, float *r, float *result)
{
result[0] = r[0] * v[0] + r[1] * v[1] + r[2] * v[2];
result[1] = r[3] * v[0] + r[4] * v[1] + r[5] * v[2];
result[2] = r[6] * v[0] + r[7] * v[1] + r[8] * v[2];
}
优化后:
void rotateVector(float *v, float *r, float *result)
{
float tmp_v[3], tmp_r[9];
tmp_v[0] = v[0];
tmp_v[1] = v[1];
tmp_v[2] = v[2];
tmp_r[0] = r[0];
tmp_r[1] = r[1];
tmp_r[2] = r[2];
tmp_r[3] = r[3];
tmp_r[4] = r[4];
tmp_r[5] = r[5];
tmp_r[6] = r[6];
tmp_r[7] = r[7];
tmp_r[8] = r[8];
result[0] = tmp_r[0] * tmp_v[0] + tmp_r[1] * tmp_v[1] + tmp_r[2] * tmp_v[2];
result[1] = tmp_r[3] * tmp_v[0] + tmp_r[4] * tmp_v[1] + tmp_r[5] * tmp_v[2];
result[2] = tmp_r[6] * tmp_v[0] + tmp_r[7] * tmp_v[1] + tmp_r[8] * tmp_v[2];
}
编译后汇编代码量明显减少, 实际运行时间也减少.
原因:
运行第一行的时候, cpu加载了v[0], v[1], v[2], 但是当运行第二行的时候, CPU没法知道这次的r[0]其实和上次一样的, 因此计算的时候还要再load一次, 造成了很大的浪费. 当使用个数有限的局部变量的时候, 这些数据都加载到了寄存器里, 运算的时候直接用寄存器运算, 速度很快.
编译成汇编以后会看到密集的 ld指令加载数据,之后就是mul和sto. 很干净漂亮.
参考文件:
slidershare: Memory Optimization