工作日志

最新推荐文章于 2024-05-13 12:45:26 发布

mtofum

最新推荐文章于 2024-05-13 12:45:26 发布

阅读量291

点赞数

分类专栏：工作日志

本文链接：https://blog.csdn.net/mtofum/article/details/53164098

版权

工作日志专栏收录该内容

1 篇文章 0 订阅

订阅专栏

工作日志

2016/11/14

代码优化:
对于矩阵旋转运算:

void rotateVector(float *v, float *r, float *result)
{
    result[0] = r[0] * v[0] + r[1] * v[1] + r[2] * v[2];
    result[1] = r[3] * v[0] + r[4] * v[1] + r[5] * v[2];
    result[2] = r[6] * v[0] + r[7] * v[1] + r[8] * v[2];
}

优化后:

void rotateVector(float *v, float *r, float *result)
{
    float tmp_v[3], tmp_r[9];
    tmp_v[0] = v[0];
    tmp_v[1] = v[1];
    tmp_v[2] = v[2];
    tmp_r[0] = r[0];
    tmp_r[1] = r[1];
    tmp_r[2] = r[2];
    tmp_r[3] = r[3];
    tmp_r[4] = r[4];
    tmp_r[5] = r[5];
    tmp_r[6] = r[6];
    tmp_r[7] = r[7];
    tmp_r[8] = r[8];
    result[0] = tmp_r[0] * tmp_v[0] + tmp_r[1] * tmp_v[1] + tmp_r[2] * tmp_v[2];
    result[1] = tmp_r[3] * tmp_v[0] + tmp_r[4] * tmp_v[1] + tmp_r[5] * tmp_v[2];
    result[2] = tmp_r[6] * tmp_v[0] + tmp_r[7] * tmp_v[1] + tmp_r[8] * tmp_v[2];
}

编译后汇编代码量明显减少, 实际运行时间也减少.
原因:
运行第一行的时候, cpu加载了v[0], v[1], v[2], 但是当运行第二行的时候, CPU没法知道这次的r[0]其实和上次一样的, 因此计算的时候还要再load一次, 造成了很大的浪费. 当使用个数有限的局部变量的时候, 这些数据都加载到了寄存器里, 运算的时候直接用寄存器运算, 速度很快.
编译成汇编以后会看到密集的 ld指令加载数据,之后就是mul和sto. 很干净漂亮.

参考文件:
slidershare: Memory Optimization

mtofum

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
工作日志

工作日志2016/11/14代码优化: 对于矩阵旋转运算:void rotateVector(float *v, float *r, float *result){ result[0] = r[0] * v[0] + r[1] * v[1] + r[2] * v[2]; result[1] = r[3] * v[0] + r[4] * v[1] + r[5] * v[2];
复制链接

扫一扫