实际情况下主频越大,性能并不一定越高:例如基于奔腾 4 的2.4GHZ处理器的性能和基于奔腾 3 的 1.6GHZ 处理器的性能差不多。
为什么?: 功耗问题
我们平时所说的 CPU通常被叫做 超大规模集成电路(very large scale intergration (VLSI)),这些电路实际上由一个个的晶体管组合而成,CPU 的计算,其实就是把晶体管的‘开关’不停的打开或者关闭,组合的完成各种计算或者功能。
如果想要提升性能:
- 增加晶体管的密度,多放一些晶体管
- 加快晶体管‘开关’的速度,即提升主频
以上两者都会带来耗电和发热的问题。
可以把 CPU 想象成一个工厂,晶体管就是工程中的工人,如果想要提升 CPU 性能,需要:
- 提升工厂内的工人的密度,这样工人在协作的时候走的路越少,类比 CPU 中的晶体管的密度,缩短电信号的传播时间
- 提升工人的工作速度,类比 CPU 中的晶体管的‘开关’时间
- 缩小晶体管的体积,这样在同样大小的 CPU 中可以放置更多的晶体管,
这就是我们平时所说的提升 制程 (从 24nm 到 7nm)
- 但是工作的更快或者密度加大都会产生更多的热量,散热问题就出现了,我们可以通过 涂抹硅脂,或者风冷或者水冷来解决部分的散热问题。但是不能彻底的解决完毕。
- CPU 中的晶体管的数量也不能无限的增加
并行优化, 理解阿姆达尔定律:
制程的优化毕竟是有限的,可以通过另一种方式来进一步的提升 CPU 的性能:
即 并行优化
搬运一定量的货物,不考虑其他因素,一个人搬肯定比两个人搬的要慢
所以对比到 CPU 就出现了多核 CPU。
举个例子:
计算向量的点积:A = [a1, a2, a3, a4, …] B = [b1, b2, b3, b4, …]
C = a1 * b1 + a2 * b2 + a3 * b3 + a4 * b4 + …
如果我们把这个式子分给多个人做,一个人做其中的一部分,就会有效的提升计算效率
在这个例子中,大部分的计算是会受到优化影响的,但是有的地方就不会,例如,我把这个式子分成四分给不同的 CPU 进行计算,各自计算的结果的汇总相加就需要一个 CPU 做。
所以,如果想要实现并行优化,就需要满足这些条件:
- 需要进行的计算可以分为多个可以并行执行的任务,不会影响最终的结果
- 需要能够分解好问题并且能汇总到一块。
- 在汇总的阶段是没有办法并行的,还是得串行的执行。
阿姆达尔定律就是,在一个程序优化之后,处理器并行运行之后效率提升的情况。
优化后的执行时间 = 可以被优化的部分执行时间 / 优化的倍数 + 不可以被优化的时间
这种并行优化也是有瓶颈的,加入一个程序的可被优化部分执行时间为100ms, 不可被优化部分的执行时间为 20ms,
x为优化的倍数,y为优化后的执行时间
可见在后期增加优化倍数之后得到的收益并不大,甚至收益小于优化并行的成本。
后期会学习的提升性能的方法:
- 使用 GPU,GPU 可以大大的提高程序执行的效率
- 通过流水线提高性能,但是流水线也会有瓶颈,也会有缺点
- 通过预测来决定下一步的走向,而不是真正的等待上一步指令结束之后的结果