工作日志

工作日志

2016/11/14

代码优化:
对于矩阵旋转运算:

void rotateVector(float *v, float *r, float *result)
{
    result[0] = r[0] * v[0] + r[1] * v[1] + r[2] * v[2];
    result[1] = r[3] * v[0] + r[4] * v[1] + r[5] * v[2];
    result[2] = r[6] * v[0] + r[7] * v[1] + r[8] * v[2];
}

优化后:

void rotateVector(float *v, float *r, float *result)
{
    float tmp_v[3], tmp_r[9];
    tmp_v[0] = v[0];
    tmp_v[1] = v[1];
    tmp_v[2] = v[2];
    tmp_r[0] = r[0];
    tmp_r[1] = r[1];
    tmp_r[2] = r[2];
    tmp_r[3] = r[3];
    tmp_r[4] = r[4];
    tmp_r[5] = r[5];
    tmp_r[6] = r[6];
    tmp_r[7] = r[7];
    tmp_r[8] = r[8];
    result[0] = tmp_r[0] * tmp_v[0] + tmp_r[1] * tmp_v[1] + tmp_r[2] * tmp_v[2];
    result[1] = tmp_r[3] * tmp_v[0] + tmp_r[4] * tmp_v[1] + tmp_r[5] * tmp_v[2];
    result[2] = tmp_r[6] * tmp_v[0] + tmp_r[7] * tmp_v[1] + tmp_r[8] * tmp_v[2];
}

编译后汇编代码量明显减少, 实际运行时间也减少.
原因:
运行第一行的时候, cpu加载了v[0], v[1], v[2], 但是当运行第二行的时候, CPU没法知道这次的r[0]其实和上次一样的, 因此计算的时候还要再load一次, 造成了很大的浪费. 当使用个数有限的局部变量的时候, 这些数据都加载到了寄存器里, 运算的时候直接用寄存器运算, 速度很快.
编译成汇编以后会看到密集的 ld指令加载数据,之后就是mul和sto. 很干净漂亮.

参考文件:
slidershare: Memory Optimization

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值