酷睿微体系结构笔记

最新推荐文章于 2023-07-06 07:59:14 发布

Jack Tan

最新推荐文章于 2023-07-06 07:59:14 发布

阅读量1k

点赞数

分类专栏： CPU 微体系结构文章标签：工作优化 access 英特尔 cache 能源

本文链接：https://blog.csdn.net/comcat/article/details/1633881

版权

CPU 微体系结构专栏收录该内容

1 篇文章 0 订阅

订阅专栏

酷睿微体系结构，基于Pentium M的微体系结构，是片内多个核(cmp)的实现。

设计的原则是平衡能耗的基础上尽可能的提高性能，即提高每瓦特性能（能效比）。

相比前代的主要改进：

宽位动态执行（Wide Dynamic Execution）

宽位动态执行实际上就是提高IPC，从而提高性能。(Perf = Freq x IPC)

增加了一组解码器。拥有4组解码器，比上代Pentium Pro (P6) / Pentium II / Pentium III / Pentium M架构拥有的3组可多处理一组指令。实际上就是从3发射升级到了4发射。

在提升每个时钟周期的指令数方面做了很多努力，典型的就是新引入的宏融合(Macro-Fusion)技术，它可以让处理器在解码的同时，将同类的指令融合为单一的指令，这样可以减少处理的指令总数，让处理器在更短的时间内处理更多的指令。为此亦改良了ALU （算术逻辑单元）以支持宏融合技术。

高级智能高速缓存（Advanced Smart Cache）

酷睿微结构体系结构采用了共享二级缓存的做法。这样的好处是，两个核心可以共享二级缓存，大幅提高了二级高速缓存的命中率，从而可以较少通过前端串行总线和北桥进行外围交换。

而以往的多核心处理器，其每个核心的二级缓存是各自独立的，这就造成了二级缓存不能够被充分利用，并且两个核心之间的数据交换路线也更为冗长，必须要通过共享的前端串行总线和北桥来进行数据交换，影响了处理器工作效率。

每个核心都可以动态支配全部二级高速缓存。当某一个内核当前对缓存的利用较低时，另一个内核就可以动态增加占用二级缓存的比例。甚至当其中的一个内核关闭时，仍可以保持全部缓存在工作状态，另外也可以根据需求关闭部分缓存来降低功耗。

这样可以降低二级缓存的命中失误，减少数据延迟，改进处理器效率。

智能功率能力（Intelligent Power Capability）

在制程技术方面做了优化，采用了先进的65nm应变硅技术、加入低K栅介质及增加金属层，相比上代90nm制程减少漏电达1000倍。

值得注意的是，英特尔加入了超精细的逻辑控制机能独立开关各运算单元，具体来讲，酷睿微体系结构采用先进的功率门控技术。以往功率门控技术实现起来十分困难，因为元件开关过程需要消耗一定的能源，而且由休眠到恢复工作也会出现延迟，但酷睿微体系结构已经解决这些问题。

通过该特性，可以智能地打开当前需要运行的子系统，而其他部分则处于休眠状态，这样将大幅降低处理器的功耗及发热。

智能内存访问（Smart Memory Access）

通过缩短内存延迟来优化内存数据访问。智能内存访问能够预测系统的需要，提前载入或预取数据。

以前我们要从内存中读取数据，就需要等待处理器完成前面的所以指令后才可以进行，这样的效率显然是低下的。酷睿微体系结构中引入一项名为内存消歧的能力，它可以对内存读取顺序做出分析，智能地预测和装载下一条指令所需要的数据，这样能够减少处理器的等待时间，减少闲置，同时降低内存读取的延迟，而且它可以侦测出冲突并重新读取正确的资料及重新执行指令，保证运算结果不会出错误，大大提高了执行效率。

高级数字媒体增强（Advanced Digital Media Boost）

高级数字媒体增强实际上就是提高IPC，其可以提高 SIMD指令（SSE/SSE2/SSE3）的执行效率。

酷睿微体系结构则拥有 128位的SIMD执行能力，一个时钟周期就可以完成一条指令，而前代处理器需要两个时钟周期来处理一条完整指令，效率提高了一倍。