处理器核设计之执行

最新推荐文章于 2024-12-24 23:35:37 发布

没有出路的年轻人

最新推荐文章于 2024-12-24 23:35:37 发布

阅读量891

点赞数

分类专栏： fpga 数字ic 文章标签： mcu

本文链接：https://blog.csdn.net/Christmaso/article/details/126428639

版权

fpga 同时被 2 个专栏收录

14 篇文章

订阅专栏

数字ic

14 篇文章

订阅专栏

执行便是根据指令的具体操作类型发散给具体的运算单元进行执行，常见的运算单元为以下几种

算术逻辑运算单元，主要负责普通逻辑运算，加减法运算和移位运算等基本运算。
整数乘法单元，主要负责有符号或者无符号数整数的乘法运算。
整数除法单元，主要负责有符号数或无符号数整数的除法运算。
浮点运算单元，主要负责浮点指令的运算。

一、指令发射、派遣、执行、写回的顺序

将指令发射给运算单元，由运算单元进行执行，然后写回的彼此相对顺序，也是执行阶段需要解决的重要问题，此处涉及两个概念。

派遣：可以是按顺序派遣，也可以是乱序派遣。
发射：可以是按顺序发射，也可以是乱序发射。

（1）在处理器设计中，派遣和发射是两个时常被混用的定义。在简单的处理器中，二者往往说的同一个概念，都是表示指令进行译码之后，被派发到不同的运算单元执行的过程，因此派遣或者发射一般发生在流水线的执行阶段。

（2）在一些比较高端的超标量处理器核中，流水线级数甚多，派遣和发射便可能有了不同的含义，派遣往往表示指令经过译码之后被派发到不同的运算单元的等待队列中的过程，而发射往往表示指令从运算单元的等待队列中（解决了数据依赖性之后）发射到运算单元开始执行的过程。

处理器中发射，派遣，执行，写回的顺序是处理器微架构设计中非常重要的一环，根据顺序的不同，可以分为很多种流派。简述如下：

（1）顺序发射，顺序执行，顺序写回

这种策略往往出现在最简单的流水线的处理器核中，譬如经典的五级流水线，指令按顺序发射，在运算单元中执行和写回Regfile。
这种策略是性能比较低的做法，硬件实现最简单，面积最小。

（2）顺序发射，乱序执行，顺序写回

由于不同的指令类型往往需要不同的运算单元执行周期，比如除法指令往往需要耗费几十个周期，而最简单的逻辑运算仅需要一个周期，因此如果一味地进行顺序执行，则性能太差
乱序执行便是在指令的执行阶段可以由不同的运算单元同时执行不同的指令，比如在除法器执行除法指令期间，ALU也可以执行其他指令，从而提高性能。
但是最终的写回阶段仍要严格低按顺序写回，因此很多时候运算单元要等待其他的指令先写回而将其运算单元本身的流水线停滞。

（3）顺序发射，乱序执行，乱序写回

在上述乱序执行的基础上，如果能够让运算单元也乱序地写回，则可以进一步提高性能。
运算单元的乱序写回方式门类繁多，可以分为很多种不同的实现。举例如下

重排序缓存（ROB Re-Order Buffer），因此运算单元一旦执行完毕后，结果就将写回ROB，而非直接写回Regfile，最好由ROB按顺序写回Regfile。这是一种典型的乱序写回实现，性能很好，不过这种方案也存在着ROB往往面积过大，数据被腾挪写回两次（先从运算单元到ROB，再从ROB到Regfile）而增大动态功耗的问题。

有的处理器并不使用ROB，而是使用同一的物理寄存器组实现，由一个统一的物理寄存器组动态地管理逻辑寄存器组的映射关系，运算单元一旦执行完毕后，就将结果乱序地写回物理寄存器中。但控制相对复杂。

乱序写回还有其他方法可以做到

（4）顺序派遣，乱序发射，乱序执行，乱序写回

在超标量处理器中，指令经过译码后被顺序低派遣到不同运算单元的等待队列中，在等待队列中可以有多条指令等待，待哪一条指令先解决了数据依赖性后便可被先发射到运算单元中开始执行，因此其发射是乱序的。
高性能处理器往往配备ROB或者统一的物理寄存器组，因此运算单元的乱序执行和乱序写回小菜一碟。

二、分支解析

在取指阶段的分支预测功能，对于带条件分支指令，由于其条件解析需要进行操作数运算（比如大小比较操作），流水线在取指阶段无法得知该指令的条件跳转结果是跳还是不跳，只能进行预测。

因此在执行阶段，通常需要使用ALU对该指令进行条件判断运算（比如大小比较操作）。ALU进行条件判断运算的结果将用于解析该分支指令是否真的需要跳转，并且和之前预测的跳转结果进行比对。如果真实的结果和预测的结果不一致，则意味着之前的预测错误，需要进行流水线冲刷，将预测取指所取的指令都舍弃掉，重新按照真实的跳转方向进行取指。

由于分支预测错误造成的流水线冲刷会造成性能损失。流水线级数越深，流水线冲刷造成的性能损失越大。因此理论上来讲，分支预测如果能够发生在比较靠前端（取指）的流水线位置，则相对而言其带来的流水线冲刷的性能损失会相对小一些；如何在功能正确且时序能够满足的情况下，尽量在比较靠前端的流水线位置进行分支解析，是处理器架构设计经常需要考虑的问题。