如何减少分支预测失败来优化计算密集型代码

CyberMuse

已于 2024-09-03 00:24:07 修改

阅读量806

点赞数 9

文章标签：笔记

于 2024-09-02 23:35:48 首次发布

本文链接：https://blog.csdn.net/cocofu/article/details/141833008

版权

一、分支预测器通过多种技术和算法来预测条件分支的结果，从而使处理器可以提前加载并执行预测路径的指令。这一过程涉及到多种复杂机制，具体如下：

### 分支预测器的具体工作机制

#### 1. 分支历史记录

分支预测器依赖于分支历史记录来做出预测。这些记录存储了过去分支指令的行为，为预测提供参考。

- **局部历史**：记录某个特定分支指令的历史行为。

- **全局历史**：记录所有分支指令的综合历史行为。

#### 2. 分支目标缓冲器（BTB）

分支目标缓冲器的英文是 **Branch Target Buffer (BTB)**。 BTB是一个缓存，用于存储最近执行的分支指令及其目标地址。当一个分支指令被读取时，处理器可以查询BTB来快速确定分支目标地址。

- **工作原理**：当处理器遇到一个分支指令时，它会查找BTB。如果找到匹配项，就使用存储的目标地址来预取指令。

#### 3. 预测算法

##### 3.1 单比特预测

- **原理**：每个分支指令关联一个比特，表示上一次预测是否正确。如果正确，保持预测不变；如果错误，翻转预测。

#### 缺点

- **容易受到单次错误的影响**：如果某个条件分支的结果频繁变化，单比特预测器会频繁翻转预测，导致低准确率。

##### 3.2 双比特预测

- **原理**：每个分支指令关联两个比特，形成四种状态（强预测、弱预测、弱否定、强否定）。只有在连续两次错误后才会翻转预测。

- **优点**：比单比特预测更稳定，对单次错误不敏感。

##### 3.3 全局历史预测

- **原理**：使用全局分支历史（一个记录所有分支结果的寄存器）来进行预测。结合多个分支的历史信息进行更复杂的模式识别。

- **优点**：能够捕捉到跨分支的依赖关系，提高预测准确率。

#### 4. 预测路径的执行

一旦预测器做出预测，处理器会预取并执行预测路径上的指令。这涉及几个步骤：

- **预取指令**：根据预测结果，从内存或缓存中加载预测路径上的指令。

- **执行指令**：将预取的指令放入流水线中执行，预测结果为真时，这些指令会在无需等待条件计算结果的情况下完成执行。

#### 5. 分支预测的验证与纠正

- **验证**：当分支条件最终被计算出来时，处理器会验证预测结果是否正确。

- **纠正**：如果预测错误，处理器会丢弃错误路径上的所有指令，重新加载并执行正确路径上的指令。这会导致一定的性能损失，但通过高准确率的预测可以最小化这个损失。

### 优化分支预测的具体方法

#### 1. 增加BTB容量

- **原理**：增加BTB的大小可以存储更多的分支指令和其目标地址，提高命中率。

- **优点**：减少未命中导致的性能损失。

#### 2. 提高预测算法的复杂性

- **原理**：使用更复杂的预测算法（如双比特预测、全局历史预测）来提高预测的准确率。

- **优点**：减少错误预测的次数，从而减少处理器因纠正错误预测而浪费的时间。

#### 3. 混合预测器

- **原理**：结合多种预测器，以利用各自的优点。例如，结合局部历史和全局历史预测器。

- **优点**：提供更高的预测准确率，适应不同类型的分支模式。

### 实际案例

#### 例子1：单比特预测

假设有一个循环：

```c

for (int i = 0; i < 10; i++) {

if (i % 2 == 0) {

// 执行路径A

} else {

// 执行路径B

}

```

- **预测器操作**：每次循环开始时，单比特预测器记录上一次分支是否进入路径A。基于这个记录，预测下一次是否也进入路径A。

#### 例子2：全局历史预测

假设有一个复杂的嵌套条件：

```c

if (x > 0) {

if (y > 0) {

// 执行路径A

} else {

// 执行路径B

}

} else {

if (z > 0) {

// 执行路径C

} else {

// 执行路径D

}

```

- **预测器操作**：全局历史预测器记录所有分支的历史行为，并使用这些信息来预测当前条件分支的结果，从而提高整体预测准确率。

### 结论

分支预测器通过记录历史、使用缓存和应用复杂的预测算法来提前确定条件分支的结果。这些技术使得处理器可以预取并执行预测路径上的指令，大大减少了等待时间，提高了处理器的整体效率。通过不断优化预测算法和增加硬件资源，分支预测器可以进一步提升预测准确率，从而最大限度地减少错误预测带来的性能损失。

二、减少分支预测失败是优化计算密集型代码的另一重要手段。分支预测失败会导致处理器流水线的刷新，进而影响性能。使用条件传送（Conditional Move）可以避免条件分支的开销，从而减少分支预测失败。下面我们一步步解释这个技术，并举例说明如何应用。

### 原始代码

假设我们有以下代码，它在遍历数组时根据条件进行操作：

```c

void process_array(int *array, int size) {

for (int i = 0; i < size; i++) {

if (array[i] < 0) {

array[i] = -array[i];

}

```

逐行解释：

```c

void process_array(int *array, int size) {

```

- **解释**: 这是一个函数定义，名为 `process_array`。它接受两个参数：一个指向整数数组的指针 `array`，以及一个整数 `size`，表示数组的大小。

- **指令**: 函数的目标是处理一个整数数组。

```c

for (int i = 0; i < size; i++) {

```

- **解释**: 这是一个 `for` 循环，初始化一个名为 `i` 的整数变量，从0开始，循环条件是 `i` 小于 `size`，每次循环后 `i` 递增1。

- **指令**: 循环遍历数组中的每个元素。

```c

if (array[i] < 0) {

```

- **解释**: 这是一个 `if` 语句，检查数组 `array` 中第 `i` 个元素是否小于0。

- **指令**: 判断当前元素是否为负数。

```c

array[i] = -array[i];

```

- **解释**: 如果 `if` 语句为真（即当前元素小于0），将 `array[i]` 赋值为其相反数，这样负数就变成了正数。

- **指令**: 将负数元素转为正数。

### 总结

这段代码定义了一个名为 `process_array` 的函数，它接收一个整数数组和数组的大小作为参数。函数的作用是遍历数组，将其中的负数元素变为正数。具体步骤如下：

1. 初始化一个循环变量 `i`，从0开始。

2. 循环条件是 `i` 小于数组的大小 `size`。

3. 在每次循环中，检查数组的当前元素是否为负数。

4. 如果是负数，将其转为正数。

5. 循环结束后，函数执行完毕。

### 目标

我们的目标是优化这段代码，减少分支预测失败带来的性能开销。

### 分步优化

#### 1. 分析问题

在上面的代码中，每次遍历数组时都会进行一次条件判断（`if (array[i] < 0)`）。如果数组中的负数比例较高或较低，分支预测器可能频繁失败，导致性能下降。

#### 2. 使用条件传送（Conditional Move）

现代处理器提供了条件传送指令（如 x86 的 `cmov` 指令），它允许我们在不使用显式条件分支的情况下执行条件操作。我们可以利用这一点来避免显式的`if`语句。

#### 3. 示例代码

我们可以通过位操作和条件传送来优化上述代码：

```c

void optimized_process_array(int *array, int size) {

for (int i = 0; i < size; i++) {

int value = array[i];

int mask = value >> (sizeof(int) * 8 - 1); // 提取符号位

array[i] = (value ^ mask) - mask; // 条件传送：如果value为负，则取相反数

}

```

### 逐词解释

1. **`int value = array[i];`**:

- 这是一个局部变量，用于存储当前数组元素的值。

2. **`int mask = value >> (sizeof(int) * 8 - 1);`**:

- 通过右移操作提取符号位（最高位），生成一个掩码：

- 对于正数，最高位为`0`，右移后`mask`为`0`。

- 对于负数，最高位为`1`，右移后`mask`为`-1`（所有位都为`1`）。

### `>>` 运算符介绍

#### 右移运算符 `>>`

- **解释**: `>>` 是右移运算符，它将一个数的二进制表示向右移动指定的位数。

- **行为**:

- **逻辑右移**: 对于无符号数（unsigned），高位用0填充。

- **算术右移**: 对于有符号数（signed），高位用符号位的值（0或1）填充，保持符号不变。

#### 示例

假设 `int` 类型为32位（4字节），并且 `value` 为 `-8`（即二进制表示为 `11111111111111111111111111111000`）。

```c

int mask = value >> (sizeof(int) * 8 - 1);

```

- `sizeof(int)`: 4（假设为32位系统）

- `sizeof(int) * 8`: 32

- `sizeof(int) * 8 - 1`: 31

将 `value` 的二进制表示右移31位：

```

11111111111111111111111111111000 >> 31 = 1

```

所以 `mask` 的值为 `1`。这是因为右移31位后，原来的符号位（最高位）被移到了最低位位置，得到的是符号位的值。

【补充说明】

让我们用具体的例子来展示这行代码的效果，包括正数、负数和零。

### 假设

- 假设 `int` 类型为32位（4字节）。

- `sizeof(int) * 8` 为32。

- `sizeof(int) * 8 - 1` 为31。

### 示例代码

```c

#include <stdio.h>

int main() {

int value;

int mask;

// 示例 1: 正数

value = 42; // 二进制表示: 00000000000000000000000000101010

mask = value >> (sizeof(int) * 8 - 1);

printf("value: %d, mask: %d\n", value, mask); // 输出: value: 42, mask: 0

// 示例 2: 负数

value = -42; // 二进制表示: 11111111111111111111111111010110

mask = value >> (sizeof(int) * 8 - 1);

printf("value: %d, mask: %d\n", value, mask); // 输出: value: -42, mask: 1

// 示例 3: 零

value = 0; // 二进制表示: 00000000000000000000000000000000

mask = value >> (sizeof(int) * 8 - 1);

printf("value: %d, mask: %d\n", value, mask); // 输出: value: 0, mask: 0

return 0;

}

```

### 详细解释

### 1. 正数 `42` 的二进制表示

#### 十进制到二进制的转换步骤

1. **42 除以 2**:

- 42 ÷ 2 = 21，余数为 0

2. **21 除以 2**:

- 21 ÷ 2 = 10，余数为 1

3. **10 除以 2**:

- 10 ÷ 2 = 5，余数为 0

4. **5 除以 2**:

- 5 ÷ 2 = 2，余数为 1

5. **2 除以 2**:

- 2 ÷ 2 = 1，余数为 0

6. **1 除以 2**:

- 1 ÷ 2 = 0，余数为 1

将余数倒序排列：`101010`

在32位系统中，前面补充零：

- **二进制表示**: `00000000000000000000000000101010`

### 2. 负数 `-42` 的二进制表示

#### 两步法（绝对值取反加一法）

1. **求 `42` 的二进制表示**:

- **42 的二进制**: `00000000000000000000000000101010`

2. **求 `42` 的二进制补码表示**:

- **取反**: `11111111111111111111111111010101`

- **加一**: `11111111111111111111111111010101` + `1` = `11111111111111111111111111010110`

所以，`-42` 的二进制补码表示为：

- **二进制表示**: `11111111111111111111111111010110`

### 3. 零 `0` 的二进制表示

#### 零的二进制表示非常简单

- **二进制表示**: `00000000000000000000000000000000`

### 算术右移

算术右移（arithmetic right shift）保留了符号位，即最高位：

- 对于正数，右移填充0。

- 对于负数，右移填充1。

右移31位将所有位移出，只剩下符号位。

### 具体示例：负数右移

#### 以 `-3` 为例：

- `-3` 的二进制补码表示：`11111111111111111111111111111101`

右移31位：

- 原始二进制：`11111111111111111111111111111101`

- 右移1位：`11111111111111111111111111111110`

- 右移2位：`11111111111111111111111111111111`

- ...

- 右移31位：`11111111111111111111111111111111`

可以看到，右移后填充的是符号位1，因此最终结果是 `11111111111111111111111111111111`，即 `-1`。

这些二进制表示都基于32位系统，确保每个数占用32位（4字节），高位不足的部分用0填充。对于负数，使用二进制补码表示法，即绝对值取反加一。

#### 示例 1: 正数 `42`

- **二进制表示**: `00000000000000000000000000101010`

- **右移31位**: `00000000000000000000000000000000`

- **结果**: `mask` 为 `0`

#### 示例 2: 负数 `-42`

- **二进制表示**: `11111111111111111111111111010110`（使用二进制补码表示）

- **右移31位**: `11111111111111111111111111111111`（算术右移，符号位填充）

- **结果**: `mask` 为 `1`

#### 示例 3: 零 `0`

- **二进制表示**: `00000000000000000000000000000000`

- **右移31位**: `00000000000000000000000000000000`

- **结果**: `mask` 为 `0`

这行代码的核心作用就是快速提取整数的符号位。

3. **`array[i] = (value ^ mask) - mask;`**:

- **`value ^ mask`**: 如果`mask`为`-1`，则`value`的所有位都被翻转，相当于取反操作。

- **`(value ^ mask) - mask`**: 如果`mask`为`-1`，则取反后的值减去`-1`，相当于取相反数。如果`mask`为`0`，则保持原值。

也可以理解成取反加一，就是乘以（-1）

### 总结

通过使用条件传送，我们成功避免了显式的条件分支，从而减少分支预测失败的开销。以下是步骤总结：

1. **提取符号位**：通过右移操作生成一个掩码（`mask`）。

2. **条件传送**：通过位操作和掩码实现条件传送，避免显式的`if`语句。

这种优化技术可以显著提高处理器的流水线效率，特别是在需要频繁条件判断的代码中。这不仅优化了性能，还提升了代码的可读性和维护性。希望这个例子能帮助你更好地理解和应用条件传送技术。

CyberMuse

关注

9
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫