计算机组成原理笔记(二十一)——4.6规格化浮点运算

本文链接：https://blog.csdn.net/2301_79318558/article/details/147377114

4.6.1浮点加减运算

浮点数的加减运算是计算机组成原理中的重点和难点，需遵循IEEE 754标准，具体步骤分为五个主要阶段。

1. 对阶（Exponent Alignment）

目的： 统一两个操作数的阶码，使其相等，以便尾数可以直接相加/减。
规则： 小阶向大阶对齐，通过右移小阶的尾数实现。右移时丢弃低位，可能引入舍入误差。

示例：
两个浮点数：
$\times 2^5$ （阶码5）， $\times 2^3$ （阶码3）

阶差为5 $\times 2^5$

在这里插入图片描述

2. 尾数加减（Mantissa Arithmetic）

对阶后，直接对尾数执行加减操作（补码运算）：
加法： $[X]_{\text{补}} + [Y]_{\text{补}}$
减法： $[X]_{\text{补}} + [-Y]_{\text{补}}$

示例：
$X = 00.1101_补$ ， $Y' = 00.001010_补$
$X + Y^{'} = 00.1101 + 00.001010 = 01.001110$ （发生尾数上溢，需右规）

3. 规格化（Normalization）

左规（左移缩小）： 若尾数为00.0xx...或11.1xx...，需左移直到最高位为有效数值。
右规（右移放大）： 若尾数溢出（如01.xx...或10.xx...），需右移一次，阶码+1。

在这里插入图片描述

4. 舍入处理（Rounding）

舍入方法：

就近舍入（默认）： 若舍去部分的值大于最低位权值的1/2，则进位。
强制置1（恒置1）： 将最右有效位强制设为1。
截断法（朝向0）： 直接丢弃多余位，但可能积累误差。

示例：
尾数右移后若丢弃位为101（大于0.5），则需进行舍入。

5. 溢出判断（Overflow Check）

阶码溢出：

上溢： 阶码超过能表示的最大值（如单精度的127→结果±∞）。
下溢： 阶码低于最小值（如单精度的-126→舍入为0）。

完整流程图

在这里插入图片描述

示例计算

计算 $0.5 + 0.25$ （单精度）：

$0.5_{(10)} = 1.0 \times 2^{-1}$ （符号0，阶码126，尾数全0）
$0.25_{(10)} = 1.0 \times 2^{-2}$ （符号0，阶码125，尾数全0）
步骤：

对阶：将0.25的阶码提升为 $0.1 \times 2^{-1}$
尾数加法： $1.0 + 0.1 = 1.1$ （无需规格化）
结果： $1.1 \times 2^{-1} = 0.75_{(10)}$

常见问题

Q1：为什么选择小阶对齐大阶？

减少精度损失： 大阶对齐小阶需要大幅右移尾数，导致更多有效位丢失。

Q2：如何避免精度误差？

扩展精度（保护位）： 在对阶和计算时保留额外位数，最后舍入。
使用高精度库（如BigDecimal）： 用整数模拟小数运算。

4.6.2浮点乘除运算

浮点数的乘除运算相比加减运算更为复杂，主要涉及符号位处理、阶码运算、尾数操作、规格化和舍入等步骤。

一、浮点乘法运算

流程图

在这里插入图片描述

详细步骤

符号位处理
结果的符号位由操作数的符号位异或决定：
$S_1 \oplus S_2$ 。
阶码相加
浮点数的实际指数为 $E_{\text{A}} = \text{Exp}_1 - \text{Bias}$ 和 $E_{\text{B}} = \text{Exp}_2 - \text{Bias}$ 。
乘积的阶码为：
$\text{Exp}_{\text{result}} = (\text{Exp}_1 + \text{Exp}_2) - \text{Bias}$ 。
- 特殊值处理：若结果为无穷大、零或 NaN，直接返回对应结果。
尾数相乘
- 隐含位的还原：IEEE 754 的尾数为 1.M 形式（隐藏前导 1）。
- 定点乘法：
  $\text{Mantissa}_{\text{result}} = (1.M_1) \times (1.M_2)$ 。
  使用定点数乘法（如布斯算法）计算结果。
示例：
$1.101_2 \times 1.011_2 = 10.011111_2$ 。
若结果超过 1.xxx，需右移一位并调整阶码：
```
10.011111 → 右移 → 1.0011111（当前阶码 +1）
```
规格化尾数
- 若尾数最高位为 2 ≤ 尾数 < 4，右移一位，阶码加 1。
- 若尾数 < 1（因舍入导致），左移一位，阶码减 1。
舍入处理
- 舍入模式（IEEE 754）：就近舍入（四舍五入）、向零、向下、向上舍入等。
- 例如：保留 23 位尾数时，根据第 24 位的值决定是否进位。
溢出处理
- 阶码上溢（超过最大值 $2^k - 1$ ）：结果为无穷大。
- 阶码下溢（低于最小值）：结果为非规格化数或零。

二、浮点除法运算

流程图

在这里插入图片描述

详细步骤

符号位处理
$S_1 \oplus S_2$ 。
阶码相减
商的阶码为：
$\text{Exp}_{\text{result}} = (\text{Exp}_1 - \text{Exp}_2) + \text{Bias}$ 。
尾数相除
- 隐含位的还原：尾数视为 1.M 格式。
- 定点除法：
  $\text{Mantissa}_{\text{result}} = (1.M_1) / (1.M_2)$ 。
示例：
$1.101_2 ÷ 1.011_2 = 1.000111_2$ 。
若商 < 1，左移一位，阶码减 1：
```
0.1001 → 左移 → 1.001（当前阶码 -1）
```
规格化尾数
- 确保尾数为 1.xxx 形式，必要时左移或右移。
舍入处理
- 规则同乘法运算。
溢出处理
- 除数为零时，结果为无穷大（满足被除数 ≠ 0）。
- 被除数与除数均为零时，结果为 NaN。

三、示例演示

浮点乘法示例

输入：
$A = 1.5_{10}$ （单精度：符号 0，阶码 127 $B = 2.0_{10}$ （单精度：符号 0，阶码 10000000，尾数 000…0）

步骤：

符号位异或 → 0 ⊕ 0 = 0。
阶码相加：01111110 + 10000000 = 11111110，减 127 → 实际指数 = (127-1) + 127 -127 = 126.
尾数相乘：1.100…0 × 1.000…0 = 10.000…0 → 右移 → 1.000…0 → 阶码 +1，最终阶码 128。
结果： $1.000_2 \times 2^{128-127} = 3.0_{10}$ 。

浮点除法示例

输入：
$A = 4.0_{10}$ ， $B = 2.0_{10}$ 。

步骤：

符号位异或 → 0。
阶码相减：10000001 - 10000000 + 127 = 128。
尾数相除：1.000…0 ÷ 1.000…0 = 1.000…0。
结果： $1.000_2 \times 2^{128-127} = 2.0_{10}$ 。

四、关键问题总结

规格化：必须保证尾数形式为 1.xxx，必要时调整阶码。
舍入影响：可能引发二次规格化（如舍入导致尾数溢出）。
异常处理：检测 NaN、无穷大、零等特殊值。

浮点数的乘除运算能够高效处理复杂数值运算，兼顾精度和范围。

4.6.3浮点运算器的实现

浮点运算器的设计与实现是计算机组成原理中的核心内容，支持浮点数的加、减、乘、除等运算。

一、浮点数的IEEE 754标准表示

单精度浮点数（32位）格式如下：

| 1位 | 8位   | 23位      |
|-----|-------|----------|
| S   | 阶码E | 尾数M    |

S：符号位（0表示正，1表示负）。
E：阶码（移码表示，实际指数为 E - 127）。
M：尾数（隐含最高位1，实际值为 1.M）。

二、浮点运算的通用流程

浮点运算需实现对阶、尾数运算、规格化、舍入、溢出判断五个步骤。以加法为例：

对阶（Alignment）
- 比较两数的阶码，较小阶码的尾数右移，直至阶码相等。
- 例如：x = 1.011×2^3 和 y = 1.110×2^1，对齐后 y 的尾数右移2位，变为 0.0111×2^3。
尾数运算（Fraction Operation）
- 对调整后的尾数进行加减乘除运算。
- 例如：加法结果为 1.011 + 0.0111 = 1.1101。
规格化（Normalization）
- 左规：若尾数首位为0，左移直至首位为1，并减少阶码。
- 右规：若结果尾数溢出（如 >=2.0），右移并增加阶码。
舍入（Rounding）
- 根据保护位（Guard bit）和舍入模式（如“就近舍入”）调整尾数。
溢出处理（Overflow Handling）
- 若阶码超出表示范围（E > 255或E < 0），触发溢出异常。