intel历代架构演进3——酷睿微架构

英特尔在2006年引入了酷睿微架构,该架构主要应用在至强3000,3200,5100,5300和7300系列以及奔腾隗锐双核,酷睿2 Extreme,酷睿2四核和酷睿2双核64位系列芯片上。

酷睿微架构引入了一下特性来增强性能和降低能耗:

单线程工作的性能可以和多线程一样好:

• 英特尔宽动态执行(Intel®Wide Dynamic Execution)增强了每个处理器器取指,分发,执行的带宽,可以让4条指令在一个周期内回退

  • —  14-stage的高效管道

  • —  3个算数逻辑运算单元

  • —  4个解码器可以让5条指令在一个周期内完成解码。

  • —  Macro-fusion and micro-fusion 来提高前端吞吐量

  • —  峰值分发速率可以达到每周期6个微操。

  • —   峰值回退带宽可以达到每周期4个微操。

  • —  高级分支越策

  • —  栈指针追踪器用于提升执行函数/过程进入和退出的效率。

  • 高级智能缓存(Intel®Advanced Smart Cache)从二级缓存到处理器内核提供更高的带宽,并且优化了性能,提升了单线程和多线程应用的扩展性。

    • —  Large second level cache up to 4 MB and 16-way associativity

    • —  优化了多核和单线程的执行环境

    • —  256 bit 内部数据路径来提升L2到一级数据缓存的带宽。

  • 智能内存访问(Intel®Smart Memory Access 从内存预取数据,为了数据访问模式并且降低乱序执行引擎的缓存未命中率

    • —  硬件预取来降低二级缓存未命中的延迟。

    • —  硬件预取来降低一级数据缓存未命中的延迟。

    • —  内存消歧来提高效率投机执行执行引擎

  • 先进数字媒体增强(Intel®Advanced Digital Media Boost)improves most 128-bit SIMD instruction with single-cycle throughput and floating-point operations.

    • —  Single-cycle throughput of most 128-bit SIMD instructions

    • —  Up to eight floating-point operation per cycle

    • — Three issue ports available to dispatching SIMD instructions for execution

下图为该架构的功能和子系统示意图:



前端总线

酷睿2架构的前端总线为intel宽动态执行引擎提供了很多增强:

  • 指令预取单元从指令队列中预取指令来向解码单元稳定供应指令。

  • 4个宽解码单元可以用Macro-fusion在一个周期解码4条指令或5条指令

  • Macro-fusion保证2条指令在一个通用的序列像一个解码指令(微操)来提升解码吞吐量。

  • Microfusion保证2个微操在一个通用的序列像一个微操来提升回退吞吐量。

  • 指令队列为短循环提供了缓存功能来提升效率。

  • 栈指针追踪器用于提升执行函数/过程进入和退出的效率。

  • 分支预测单元采用专用硬件来处理不同类型的分支提高分支预测。

  • 高级分支预测算法引导指令预取单元像在解码中的architec-tural代码路径一样来取指令。


执行器内核

酷睿微架构的执行器内核是一个超级体系结构,可以乱序处理指令来提升提升每个周期指令整体的执行速率(IPC),执行器内核通过以下特性来提升吞吐量和效率:

  • Up to six micro-ops can be dispatched to execute per cycle

  • Up to four instructions can be retired per cycle

  • Three full arithmetic logical units

  • SIMD instructions can be dispatched through three issue ports

  • Most SIMD instructions have 1-cycle throughput (including 128-bit SIMD instructions)

  • Up to eight floating-point operation per cycle

  • 许多高延迟计算操作被放在硬件管道中来提升整体吞吐量。

  • 使用英特尔智能内存访问来降低数据访问的延迟。


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值