面向处理器结构的程序优化

最新推荐文章于 2022-05-13 21:55:12 发布

jdygrdzh

最新推荐文章于 2022-05-13 21:55:12 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/jdygrdzh/article/details/32407707

版权

本文总结了面向处理器结构的程序优化方法，包括缓存命中、指令预测、数据预取等方面。通过提高缓存命中率、利用指令预测和数据预取等策略，可以显著提升程序性能。缓存未命中是主要瓶颈，优化包括正确对齐数据结构、避免分支预测错误等。同时，硬件和软件预取技术也是提高效率的有效手段。

摘要由CSDN通过智能技术生成

近两年从同事那里学了不少代码优化方法，在此总结一下。

面向处理器结构的优化可以从以下几个方向入手：缓存命中，指令预测，数据预取，数据对齐，内存拷贝优化，ddr访问延迟，硬件内存管理优化，指令优化，编译器优化等级以及性能描述工具。

缓存未命中是处理器的主要性能瓶颈之一。在FSL的powerpc上，访问一级缓存是3个时钟周期，二级是12个，3级30多个，内存100个以上。一级缓存和内存访问速度差30多倍。我们可以算一下，如果只有一级缓存和内存，100条存取指令，100%命中和95%命中，前者300周期，后者95*3+5*100=785周期，差了1.6倍。这个结果的前提是powerpc上每个核心只有1个存取单元，使得多发射也无法让存取指令更快完成。当然，如果未命中的指令分布的好，当中穿插了很多别的非存取指令那就可以利用乱序多做些事情，提高效率。

怎么用代码提高缓存命中率？我们可以用指令预测和数据预取。

指令预测很常见，处理器预测将要执行的一个分支，把后续指令取出来先执行。等真正确定判断条件的时候，如果预测对了，提交结果，如果不对，丢掉预先执行的结果，重新抓取指令。此时，结果还是正确的，但是性能会损失。

有一个常用的指令预测机制叫btb(branch target buffer)，大致方法是，对于跳转指令，把它最近几次的跳转结果记录下来，作为下一次此处程序分支预测的依据。举个例子，for循环1000次，从第二次开始到999次，每次都预取前一次的跳转地址，那么预测准确率接近99.9%。这是好的情况。不好的情况，在for循环里面，有个if(a[i])。假设这个a[i]是个0,1,0,1序列，这样每次if的预测都会错误，预取效率就很低了。改进方法是，把if拆开成两个，一个专门判断奇数次a[i],一个判断偶数次，整体循环次数减少一半，每次循环的判断增加一倍，这样每次都是正确的。如果这个序列的数字预先不可见，只能知道0多或者1多，那么可以用c语言里面的LIKELY/UNLIKELY修饰判断条件，也能提高准确率。需要注意的是，btb表项是会用完的，也就是说，如果程序太久