CPU内部结构窥探·「8」--ARMv8的流水线机制

冬大大

于 2024-08-12 13:21:01 发布

阅读量629

点赞数 26

分类专栏：计算机体系结构文章标签：计算机体系结构 CPU 流水线机制

本文链接：https://blog.csdn.net/u014107312/article/details/141124504

版权

计算机体系结构专栏收录该内容

8 篇文章 0 订阅

订阅专栏

ARMv8流水线机制分析

引言

在现代计算机体系结构中，流水线技术是提升处理器性能的重要手段。ARMv8架构作为一款广泛应用于移动设备、嵌入式系统以及服务器中的高效处理器，其流水线机制尤为重要。本文将深入分析ARMv8的流水线机制，探讨其工作原理、设计特点以及优化策略。

什么是流水线？

流水线是一种将指令执行过程分解为若干个阶段，并使这些阶段能够并行执行的技术。每个阶段完成指令的一部分工作，从而提高整体指令吞吐量。流水线类似于工厂的生产线，每个工序（阶段）独立工作，但整体上加快了生产速度。

ARMv8流水线阶段

ARMv8架构的流水线可以分为以下几个主要阶段：

取指（Fetch, F）：从内存中取出下一条指令。
译码（Decode, D）：对取出的指令进行译码，确定指令的操作类型和操作数。
执行（Execute, E）：根据指令类型执行相应的操作，如算术运算、逻辑运算等。
内存访问（Memory, M）：如果指令需要访问内存，在这个阶段进行读写操作。
写回（Write Back, WB）：将指令执行结果写回寄存器或内存。

ARMv8流水线设计特点

1. 超标量架构

ARMv8采用了超标量（Superscalar）架构，能够在一个时钟周期内同时发射和执行多条指令。这种设计能够显著提升处理器的指令吞吐量。ARMv8处理器通常具备多个执行单元，包括整数运算单元、浮点运算单元、加载/存储单元等，可以并行处理不同类型的指令。

2. 分支预测

分支指令是影响流水线性能的一个重要因素，因为分支指令可能会改变程序的执行路径，导致流水线中的指令无效。ARMv8采用了先进的分支预测机制，通过预测分支的方向，减少流水线的停顿。常见的分支预测技术包括动态分支预测、全局历史寄存器（GHR）、分支目标缓冲（BTB）等。

3. 投机执行

为了进一步提高流水线的效率，ARMv8支持投机执行（Speculative Execution）。在遇到分支指令时，处理器会预测分支的结果并提前执行预测路径上的指令。如果预测正确，则执行结果有效；如果预测错误，则丢弃这些指令的执行结果，并重新执行正确路径上的指令。

4. 高级乱序执行

ARMv8采用了乱序执行（Out-of-Order Execution）技术，即指令不必严格按照程序中的顺序执行，而是根据数据依赖关系和资源可用性动态调整执行顺序。这种设计可以更好地利用处理器资源，减少流水线停顿，提高执行效率。

ARMv8流水线优化策略

1. 指令调度

编译器在生成ARMv8机器码时，会进行指令调度优化，将可能存在数据依赖的指令分开，插入无关指令，以减少流水线停顿。此外，编译器还会利用ARMv8提供的多发射能力，尽量在一个时钟周期内安排多条指令并行执行。

2. 寄存器重命名

ARMv8处理器支持寄存器重命名技术，通过将程序中的逻辑寄存器映射到物理寄存器，避免由于寄存器重用导致的数据依赖问题，从而提高指令并行度和流水线效率。

3. 分支目标缓冲（BTB）

ARMv8处理器利用分支目标缓冲（BTB）记录之前遇到的分支指令的目标地址，通过快速查找BTB，可以减少分支预测失败带来的性能损失。

4. 动态调度和执行

ARMv8处理器具备动态调度和执行的能力，能够在运行时根据指令的执行情况，动态调整指令的执行顺序，以充分利用处理器资源，提升性能。

分支预测（Branch Prediction）

分支预测的必要性

在现代处理器中，流水线深度越来越深，分支指令的处理变得尤为关键。如果分支预测不准确，会导致流水线停顿，严重影响处理器的性能。分支预测技术通过预测程序执行的路径，尽可能减少由于分支指令导致的流水线停顿。

分支预测技术

静态分支预测：
- 基于编译器或硬件的简单规则进行预测。例如，总是假设前向跳转不跳转，后向跳转跳转。虽然实现简单，但准确率较低。
动态分支预测：
- 基于程序运行时的历史信息进行预测，能显著提高预测准确率。ARMv8架构采用多种动态分支预测技术：
- 单比特预测器：
  每个分支指令对应一个比特，记录上次分支是否跳转。简单但预测精度有限。
- 双比特预测器：
  每个分支指令对应两个比特，形成一个2位饱和计数器。比单比特预测器更稳定，因为需要两次错误预测才能改变预测结果。
- 全局历史预测（GHR）：
  使用全局历史寄存器（GHR）记录过去N次分支的结果，结合模式历史表（PHT）进行预测。全局历史能捕捉到更长的依赖关系。
- 分支目标缓冲（BTB）：
  记录之前遇到的分支指令的目标地址，通过快速查找BTB，可以减少分支预测失败带来的性能损失。
- 混合预测器：
  结合多个不同的预测器，根据历史信息动态选择最适合当前情况的预测器。

分支预测示例

ARM Cortex-A72处理器采用了混合分支预测器，结合了全局历史预测和本地历史预测，利用模式选择器动态选择最优预测器。这种设计大大提高了分支预测的准确性，减少了流水线停顿，提高了处理器的整体性能。

乱序执行（Out-of-Order Execution）

乱序执行的必要性

在顺序执行（In-order Execution）中，指令按照程序中的顺序依次执行，容易因为数据依赖和资源冲突而导致流水线停顿。乱序执行通过动态调整指令的执行顺序，利用指令之间的独立性，提高处理器的资源利用率和指令吞吐量。

乱序执行机制

指令发射（Issue）：
- 将指令从取指阶段移到发射队列，根据数据依赖和资源可用性，动态选择可以执行的指令。
寄存器重命名（Register Renaming）：
- 解决寄存器间的假依赖（Write-after-Write, Write-after-Read）。通过将逻辑寄存器映射到物理寄存器，实现寄存器重命名，消除假依赖。
指令调度（Instruction Scheduling）：
- 根据数据依赖关系和资源可用性，将指令发送到合适的执行单元。常见的调度方式包括动态调度（Dynamic Scheduling）和静态调度（Static Scheduling）。
执行（Execution）：
- 指令在执行单元中并行执行，执行完毕后将结果暂存，等待提交。
提交（Commit）：
- 确保指令按程序顺序提交，将执行结果写回寄存器或内存，保证程序的正确性。

乱序执行示例

ARM Cortex-A72处理器采用乱序执行技术，包括以下关键组件：

发射队列（Issue Queue）：存储待执行的指令，根据指令的准备情况和资源可用性进行调度。
重排序缓冲区（Reorder Buffer, ROB）：记录指令的

原始顺序，确保指令按程序顺序提交。

寄存器重命名单元（Register Renaming Unit）：实现寄存器重命名，消除假依赖。

例如，假设程序中有如下指令序列：

ADD R1, R2, R3  // R1 = R2 + R3
SUB R4, R1, R5  // R4 = R1 - R5
MUL R6, R2, R7  // R6 = R2 * R7

在顺序执行中，第二条指令SUB需要等待第一条指令ADD执行完毕，而第三条指令MUL可以与前两条指令并行执行。在乱序执行中，处理器可以先执行MUL，然后执行ADD和SUB，提高了指令吞吐量。

总结

ARMv8架构通过先进的分支预测和乱序执行技术，显著提升了处理器的性能。分支预测通过预测程序执行路径，减少流水线停顿；乱序执行通过动态调整指令执行顺序，充分利用处理器资源。两者结合，使得ARMv8处理器在多种应用场景中表现出色，为移动设备、嵌入式系统和服务器提供了强大的计算能力。

冬大大

关注

26
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
CPU内部结构窥探·「8」--ARMv8的流水线机制

流水线是一种将指令执行过程分解为若干个阶段，并使这些阶段能够并行执行的技术。每个阶段完成指令的一部分工作，从而提高整体指令吞吐量。流水线类似于工厂的生产线，每个工序（阶段）独立工作，但整体上加快了生产速度。ARMv8架构通过先进的分支预测和乱序执行技术，显著提升了处理器的性能。分支预测通过预测程序执行路径，减少流水线停顿；乱序执行通过动态调整指令执行顺序，充分利用处理器资源。两者结合，使得ARMv8处理器在多种应用场景中表现出色，为移动设备、嵌入式系统和服务器提供了强大的计算能力。
复制链接

扫一扫