4.3 动态分支预测技术

夏驰和徐策

于 2024-02-26 16:17:21 发布

阅读量3.2k

点赞数 23

分类专栏：程序猿之计算机系统结构文章标签：计算机系统结构

本文链接：https://blog.csdn.net/tang7mj/article/details/136301900

版权

程序猿之计算机系统结构专栏收录该内容

20 篇文章

订阅专栏

本文详细介绍了动态分支预测技术，包括其原理、方法（如分支历史表和分支目标缓冲器），以及在现代处理器设计中的应用，重点讨论了如何通过前瞻性执行减少控制相关性对性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4.3 动态分支预测技术

随着指令级并行（ILP）的开发，控制相关性成为性能提升的一个重要瓶颈。为了克服这个挑战，动态分支预测技术成为了提高处理器性能的关键方法之一。本节将探讨动态分支预测技术的原理、方法以及其在现代处理器设计中的应用。

动态分支预测的重要性

在n-流出的处理机中，每个时钟周期可以流出多条指令，这使得遇到分支指令的可能性相应增加。为了维持处理器的高效运行，需要准确预测分支的结果，以连续提供指令流。Amdahl定律指出，随着计算机CPI的降低，控制停顿的相对影响增大，这就要求分支预测具有更高的准确性。

动态分支预测技术简介

动态分支预测技术通过分析分支指令的历史执行情况来预测其未来行为。这种预测方式的核心优势在于其动态适应性——预测结果会根据分支行为的变化而调整。与静态分支预测方法相比，动态方法提供了更高的预测准确性。

分支历史表（BHT）

分支历史表（Branch History Table, BHT），有时也称为分支预测缓冲器（Branch Prediction Buffer），是实现动态分支预测的一种简单有效方法。BHT通过记录分支指令的最近一次或几次执行情况（成功或不成功），来进行预测。

两位分支预测

两位分支预测是一种常见的BHT实现方式。在这种方法中，每个分支指令关联的预测状态有四个（00、01、10、11），状态的变化基于分支指令的实际执行结果。这种状态设计旨在减少因偶然情况而导致的预测错误。

状态转换

两位分支预测的状态转换逻辑确保只有连续两次预测错误才会改变预测方向，从而提高了预测的稳定性和准确性。

分支预测的实施与挑战

动态分支预测的实施主要涉及两个步骤：预测分支的成功与否，以及尽快确定分支目标地址。这些步骤的实施旨在最小化由于控制相关造成的流水线停顿。

错误预测的处理

当分支预测失败时，必须作废已经预取和分析的指令，并从正确的分支路径重新取指令。这要求在执行预测的目标指令之前保存现场，以便在预测失败时能够恢复。

结论

动态分支预测技术通过其高度的适应性和准确性，在现代处理器设计中发挥着至关重要的作用。分支历史表（BHT）作为实现这一技术的基础工具，通过其简单而有效的预测逻辑，显著提高了处理器的性能。随着处理技术的进步和处理器结构的复杂化，动态分支预测技术的研究和应用将继续是计算机架构领域的一个重要研究方向。

4.3.2 采用分支目标缓冲器 BTB

在现代高性能流水线和多流出处理器中，动态分支预测技术扮演着至关重要的角色。除了准确地预测分支外，能够迅速提供充足的指令流对于维持处理器性能同样重要。这就引入了分支目标缓冲器（BTB）的概念，它是实现高效动态分支预测的关键组件之一。

BTB的重要性

在每个时钟周期中，现代处理器可能需要提供4至8条指令。为了满足这一需求，处理器不仅需要尽早知道分支是否会被采取，还需要尽早确定分支的目标地址，并及时获取到分支目标处的指令。BTB正是为了解决这些问题而设计。

BTB的工作原理

BTB可以视为一个专用的硬件表，其每个条目至少包含两个字段：成功分支指令的地址和预测的分支目标地址。通过在取指阶段同时检查当前指令地址与BTB中条目的匹配情况，处理器可以快速预测分支的走向并确定下一条指令的地址。

BTB的结构与操作

当取指令地址与BTB中某条目匹配时，意味着该指令在上一次执行中是成功的分支指令。处理器据此预测这次执行也会成功，并使用匹配条目的分支目标地址作为下一条指令的PC值。如果没有匹配的条目，处理器则按照常规指令执行。

BTB的优化与延迟处理

BTB的优化形式可能包括在分支目标缓冲器中存储一条或多条分支目标处的指令，这有助于多流出处理器一次提供多条指令。此外，分支折叠技术可以实现零延迟无条件分支，有时甚至可以实现零延迟条件分支。

BTB的影响

采用BTB后，如果分支预测正确，则指令执行无停顿继续；如果预测错误或在BTB中无匹配项，可能会导致至少两个时钟周期的延迟。这要求在预测错误时作废已取指令、恢复现场，并从正确的分支路径重新取指令。

结论

BTB作为动态分支预测技术的核心组件之一，显著提升了处理器在面对频繁分支指令时的性能。通过快速确定分支结果和目标地址，BTB使处理器能够有效减少或避免分支导致的延迟，从而保持高效的指令流。随着处理器架构的不断发展，对BTB的优化和应用将继续是提升处理器性能的关键方向。

4.3.3 基于硬件的前瞻执行

在处理器设计中，尽管动态分支预测技术可以有效地预测分支的方向，但在多流出的处理机中，每个时钟周期都可能执行一条分支指令，这使得控制相关成为了提升指令级并行性（ILP）的主要障碍之一。为了解决这一问题，引入了基于硬件的前瞻执行技术。

前瞻执行的原理

前瞻执行（speculation）是一种高级的处理机制，它允许处理器对分支指令的结果进行猜测，并假定这个猜测是正确的。基于这个假设，处理器继续取出、流出和执行后续的指令。然而，这些指令的执行结果并不直接写回到寄存器或存储器中，而是暂存于重排序缓冲区（ReOrder Buffer, ROB）中。只有当指令最终被确认（commit）为应该执行时，其结果才会被正式写入寄存器或存储器中。这一机制确保了在猜测错误的情况下，处理器能够恢复到原始状态，而不会造成不可逆的操作。

前瞻执行的关键组件

动态分支预测： 用于选择后续执行的指令序列。
跨基本块的动态调度： 允许处理器在控制相关的结果尚未确定之前，对后续指令进行前瞻地执行。
重排序缓冲区（ROB）： 暂存前瞻执行的结果，直到指令确认阶段。

前瞻执行的实现

在Tomasulo算法的基础上加以扩充，可以支持前瞻执行。硬件需要进行相应的扩展，特别是引入ROB来区分“写结果”和“指令确认”两个阶段。指令的前瞻执行结果首先被写入ROB，并通过公共数据总线（CDB）在指令之间传递，供需要这些结果的指令使用。当分支指令的实际结果确定后，相应的指令通过“指令确认”阶段被正式确认，并将其结果写入寄存器或存储器。