基于CNN的预测器 “BranchNet: A Convolutional Neural Network to Predict Hard-To-Predict Branches”（2020）

一只甜皮鸭

已于 2023-08-04 17:09:51 修改

阅读量669

点赞数

分类专栏： Paper reading of Branch Prediction 文章标签： cnn 硬件架构

于 2021-08-11 19:53:03 首次发布

本文链接：https://blog.csdn.net/qq_40379102/article/details/119615481

版权

Paper reading of Branch Prediction 专栏收录该内容

21 篇文章

订阅专栏

MPKI：千条指令的预测失误率。

MPPKI：千条指令的预测失误惩罚。

全局历史有噪声：即全局历史包含不断改变方向的不相关分支或者历史中相关分支的位置不确定。

为什么采用CNN实现预测器

最先进的分支预测器TAGE在识别嘈杂的全局分支历史深处的相关分支方面仍然效率低下。类似TAGE的预测器必须为每个可能的历史模式专用唯一的预测计数器，因此所需的预测计数器随着历史大小呈指数级增长，且需要很长的时间预热这些大量的条目，使得当相关分支出现在嘈杂的历史深处时，该方法不可行。而基于CNN的预测器可以学习忽略相关分支，从而克服这一点。除此之外，类似TAGE的预测器永远无法将其预测推广到看不见的历史模式。
像TAGE和感知器这样的传统分支预测器被设计为在线更新，即在运行时更新，因此，其更新算法须简单、便宜且快速，以适应执行阶段的行为。但训练时间和处理能力的限制也使得在线分支预测器难以学习分支历史中的复杂相关性，而为了学习这些相关性，就需采用更复杂的预测机制，而这需要更多计算量大的训练算法和额外的编译器支持。

缺点

CNN并不能预测所有的分支，在全局历史中没有分支可以提供关于目标分支结果的任何信息时，例如一些分支依赖与很久以前存储在内存中的数据时，仅使用全局分支历史作为输入，CNN无法从中学习到预测策略。

结构特点

离线训练CNN（即在编译时），BranchNet不太依赖与训练数据的代表性，而更多地依赖于覆盖率。关键是训练集包括足够多的不同分支行为的例子，即暴露足够的控制流路径来检测输入相关地分支相关性，这些相关性可以推广到看不到的输入。
输入：全局分支和路径历史输入（包括分支地址和跳转方向）嵌入向量（我们embedding）。
卷积层：卷积宽度控制构成要素的相邻项目的数量。对于分支预测，考虑的相邻项目是分支/路径历史中的相邻条目；每个filter识别历史中特定相关分支模式的存在，通过向filter的相应输出通道输出非零值来标记其位置。
总和池化层：池化层的输出指示在每个通道中识别的特征的出现计数。通过将卷积输出通道的相邻输出合成总和来降低后续层的计算要求，代价是丢弃已识别特征的细粒度位置。
全连接层：将识别的特征计数映射到预测。

CNN预测一个H2P分支的例子

图3中分支B（line 11 循环退出的分支指令）依赖于x的值，但由于循环迭代导致真正与其相关的分支隐藏在较深的历史中，导致基于模式的预测器难以预测。

CNN可以直接从全局历史中推断出 x 和 j 的值，从而准确预测分支B。图3中左侧的输入是预测分支B前的全局历史快照，X 是一些无关分支的pc，分支历史被编码为 one-hot 向量（图中未标出）送入卷积层。卷积宽度是1，有2条通道，channel 0 用于识别分支B未跳转的实例，channel 1 用于识别分支A未跳转的实例，使用一个和历史一样宽的求和池化层。这样求和池化层的输出就是分支A和B未跳转的实例个数，即等于 x 和 j 的值，从而可以判断。

Big-BranchNet（纯软件模型）

由5个特征提取子网络（slice）和2个全连接层组成。每个slice使用一个嵌入层，一个卷积层，一个求和池化层，不同的slice对不同长度的历史长度进行操作，历史长度呈几何级数。
分支历史模式：连接每个分支的方向（1bit）和 pc 的低 p 个有效位，以将其表示为一个整数。假设一个slice的历史大小为H，使用PC的 p 位，则输入的历史是一个包括H个数的一维整数数组，其中每个数p+1位，在0到 $2^{p+1}-1$ 之间。
嵌入层：将输入历史中的每个分支转换成密集的数字向量。使用嵌入相比于one-hot向量能够提高BranchNet的收敛性和训练时间。 $E$ 表示嵌入层的维度。
卷积层： $C_{i}$ 表示slice i 输出通道的个数， $K$ 表示卷积宽度，卷积步幅为1。其中输出通道越多能识别到的分支历史中的特征越多，卷积宽度越大能识别到的相关分支序列越长。
求和池化层：在每个 slice，求和池化层以步幅 $P_{i}$ 下采样卷积输出。使用与每个 slice 的历史长度成正比的几何池化大小。对于更长的历史长度，更大的池化宽度效果很好，因为历史在更深入的历史中变得更加嘈杂。通过消除历史中已识别特征的位置，对历史深处发现的特征进行积极的池化，使 BranchNet 能够抵御历史变化，即当历史中相关分支位置变化时，仍可有效预测。
全连接层：第一个全连接层由 N 个神经元组成。每个神经元都连接到所有 slice 的输出。全连接神经元后面是批量归一化和 ReLU 激活函数。最后的全连接层由单个神经元组成，带有 Sigmoid 激活函数来进行最终预测。

Mini-BranchNet

维护卷积历史：计算BranchNet特征提取层的slice的输出涉及对全局历史中数百个分支的操作。推理机不是在预测时进行所有这些操作，而是一次处理一个输入分支，并缓冲它们的下采样卷积输出以备将来使用。称这些缓冲区为卷积历史。进行预测时，预测流水线简单地选择对应于目标分支的卷积历史，并且仅计算两个完全连接的层。
用查表代替卷积：Mini-BranchNet用两步消除了所有的算术运算。在训练期间，不是将每个分支独立地嵌入卷积窗口，而是在窗口中嵌入分支的较小散列，并使用二进制化的sigmoid激活来代替ReLU。训练完成后，对于每个可能的分支散列，我们计算卷积输出(嵌入+点积+归一化+二进制化sigmoid)，正好是0或1。这些二进制值现在可以存储在小型表中，迷你分支网络推理机查找这些表以获得分支散列的卷积输出。运行时不需要算术运算，消除了每次卷积运算的32维内积。

使用运行求和寄存器：Mini-BranchNet使用两个设计完成求和池化输出。对于较短的历史片（slice），采用 precise pooling，精确池化使用缓冲区和运行总和寄存器来不断计算最近池化窗口的输出，并将池化输出插入到第二组缓冲区中。结果，第二组缓冲区包含重叠窗口的池化输出。实现精确池化所需的缓冲空间随历史大小线性增大。因此，对于较长的历史片，使用sliding pooling，滑动池化在多个周期内累积窗口的池化输出，并每 P 个周期将输出插入池化缓冲区。代价是在预测时，最近的卷积输出可能没有形成完整的池化窗口。因此，历史中的一些最新分支不用于预测，并且通常池化窗口具有不确定的边界。在实践中，这不是问题，因为我们只在 Mini-BranchNet 的长历史切片中使用滑动池，它不依赖已识别特征的细粒度位置，因为它们的池宽度成比例地宽。为了考虑训练期间的滑动池化，我们随机丢弃了一些馈入长历史切片的最新分支（0 到 P-1 个分支）。这种随机化使训练算法在运行时对非确定性池边界具有弹性。