如何基于CPU的架构来优化软件的性能?

一直想弄一个从各种角度优化软件的总结,先写一个从CPU架构角度的。


现在的CPU都有流水线的概念,所谓的流水线就好似一个制造工厂的流水线,把一个大的任务分成若干小块然后分给不同的人做,当一条流水线走完也就制造好了,CPU的流水线也是类似,只不过他是把一个个对应与汇编语言的指令拆开成更小的单元uopt,放到流水线上顺次运行以增加速度,流水线相对与并行是实现起来相对简单,每个部分只要做好自己的事情就行了,现在的流水线越做越深已经达到二三十的深度了,同时CPU的指令情况比生活中的制造业复杂很多,流水线上的内容总是变化的,而且存在一定的前后依赖关系,我们不能保证一个东西已经放到了流水线上东西是前面的正在处理的部分想要的,比如后面突然遇到了if else的情况,后面的流水线上都是if下面的内容,但是我们要的使else里面的就要清空并且重新加载流水线上已有的内容,这个的代价就很高了,所以CPU就有了一个新的功能来尽量避免这样的事情,就是分支预测,CPU会用自己的算法纪录下更个分支的使用概率,尽量加载概率高的那个分支,来避免资源浪费,这里就有一些从代码上的优化的空间,比如尽量减少if else switch之类的,还有概率高的放前面,不过这个比较值得商榷,放前面也不一定就会高效率,因为CPU已经替我们做了这个事情。

CPU还有个特性就是有L1 L2分段缓存,对于分段缓存我们尽量让他们都利用好,不要因为部分数据的需求刷里面的内容,比如二维数组的纵向变例会比横向遍历糟糕很多,因为横向遍历会保证cache中数据的连续性,纵向遍历就要频繁的刷新cache。

另外根据不同的CPU的指令集的不同,也有很大的优化空间,比如glibc的一些内容的相比与同类型的库比如intel之间开发的一些计算库可能可能慢四五倍,依据指令集优化会很有效果,但是这个维护起来很麻烦,因为太依赖硬件了,几乎是一个CPU类型就要弄一套代码,尤其使AMD与Intel之间的斗争,把指令集弄得比较乱。

现在有些CPU具有超线程的能力,如i7,所谓的超线程就是单个CPU单元同时放两个线程,因为是共享的同样的硬件,只是利用一个线程的可能的空闲时间塞进取另外一个线程,所以超线程的效率提升具有不可预测性,最好的清况可能会有25%的提高,但是也可能会使效率降低,比如当两个线程都运行得很流畅的时候,虽然一般的benchmark软件都会显示出超线程的优势,但是它并不能代表一般的算法,另外超线程还有个不足是,对线程的优先级无效,低优先级的也会挤压高优先级的空间,如果自己的软件想要用超线程,最好要自己实际的测试一下,再做决定,总之超线程从CPU的结构上来讲是一种更高层次的优化选择。

有人说设置线程的affinity可以避免CPU单元之间的切换,从而提高效率,但是我觉得这个想法比较值得商榷,因为CPU对线程的调度其实就是它内部的一种优化,当然,如果自己有一个很重要的线程,需要很高的优先级,那也无妨。


总结一下根据CPU的结构的优化主要有五点:

1. 提高分支预测的成功率

2. 有效利用 L2 避免频繁清空cache

3. 基于不同的CPU指令集优化底层代码

4. 超线程(根据实际需求)

5. 设置线程affinity和优先级(根据实际需求)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值