二进制浮点数以及二进制浮点数算术运算

最新推荐文章于 2025-03-08 19:22:53 发布

shang_ch

最新推荐文章于 2025-03-08 19:22:53 发布

阅读量1.3w

点赞数 15

分类专栏：笔记文章标签：其他

本文链接：https://blog.csdn.net/nbu_dahe/article/details/122022540

版权

笔记专栏收录该内容

28 篇文章

订阅专栏

二进制浮点数表示

在这里插入图片描述
阶码（指数）就是指数位存储的值，而偏阶（移码）则不同精度的浮点数的偏阶也各不相同，具体可以查看指数偏差。
$Bias=2^{k-1}-1$ , 其中k是指数中的位数。

半精度浮点数

半精度浮点数 是一种被计算机使用的二进制浮点数据类型。半精度浮点数使用2个字节（16位）来存储。
在IEEE 754-2008中，它被称作binary16。这种数据类型只适合存储对精度要求不高的数字，不适合用来计算。

IEEE 754 标准指定了一个 binary16 要有如下的格式：
Sign bit（符号位）： 1 bit
Exponent width（指数位宽）： 5 bits
Significand precision（尾数精度）： 11 bits （有10位被显式存储）

按如下顺序排列：
在这里插入图片描述
除非指数位全是0，否则就会假定隐藏的起始位是1。因此只有10位尾数在内存中被显示出来，而总精度是11位。据IEEE 754的说法，虽然尾数只有10位，但是尾数精度是11位的(log10(211) ≈ 3.311 十进制数).

单精度浮点数

单精度浮点数 格式是一种数据类型，在计算机存储器中占用4个字节（32 bits），利用“浮点”（浮动小数点）的方法，可以表示一个范围很大的数值。

第1位表示正负，中间8位表示指数，后23位储存有效数位（有效数位是24位）。

第一位的正负号0代表正，1代表负。

中间八位共可表示 $2^8=256$ 个数，指数可以是二补码；或0到255，0到126代表-127到-1，127代表零，128-255代表1-128。

有效数位最左手边的1并不会储存，因为它一定存在（二进制的第一个有效数字必定是1）。换言之，有效数位是24位，实际储存23位。

在这里插入图片描述
$s i g n = + 1$
$e x p o n e n t = (- 127) + 124 = - 3$
$fraction=1+2^{-2}=1.25$
$value=(+1)\times1.25\times2^{-3}=+0.15625$

双精度浮点数

双精度浮点数（double）是计算机使用的一种资料类型。比起单精度浮点数，双精度浮点数(double)使用 64 位（8字节）来存储一个浮点数。它可以表示二进位制的53位有效数字，其可以表示的数字的绝对值范围为 $2^{-1024}, 2^{1024}]$ 。
在这里插入图片描述

特殊情况

以双精度浮点数为例，说明一些特殊情况
在这里插入图片描述

当指数exponent全为0或者全为1时，有特殊含义，有以下四种情况，
1、 $\Rightarrow \pm0$
2、 $fraction\neq0 \Rightarrow 非正规形式的浮点数$
3、 $\Rightarrow \pm\infty$
4、 $fraction\neq0 \Rightarrow NaN$

在这里插入图片描述

浮点数的运算步骤

浮点数的加减运算一般由以下五个步骤完成：对阶、尾数运算、规格化、舍入处理、溢出判断

一、对阶

所谓对阶是指将两个进行运算的浮点数的阶码对齐的操作。对阶的目的是为使两个浮点数的尾数能够进行加减运算。因为，当进行 $M_x·2^{E_x}$ 与 $M_y·2^{E_y}$ 加减运算时，只有使两浮点数的指数值部分相同，才能将相同的指数值作为公因数提出来，然后进行尾数的加减运算。对阶的具体方法是：首先求出两浮点数阶码的差，即 $\Delta E = E_x - E_y$ ，将小阶码加上 $\Delta E$ ，使之与大阶码相等，同时将小阶码对应的浮点数的尾数右移相应位数，以保证该浮点数的值不变。几点注意：

（1）对阶的原则是小阶对大阶，之所以这样做是因为若大阶对小阶，则尾数的数值部分的高位需移出，而小阶对大阶移出的是尾数的数值部分的低位，这样损失的精度更小。

（2）若 $\Delta E$ ＝0，说明两浮点数的阶码已经相同，无需再做对阶操作了。

（3）采用补码表示的尾数右移时，符号位保持不变。

（4）由于尾数右移时是将最低位移出，会损失一定的精度，为减少误差，可先保留若干移出的位，供以后舍入处理用。

二、尾数运算

尾数运算就是进行完成对阶后的尾数相加减。这里采用的就是我们前面讲过的纯小数的定点数加减运算。

三、结果规格化

在机器中，为保证浮点数表示的唯一性，浮点数在机器中都是以规格化形式存储的。对于IEEE754标准的浮点数来说，就是尾数必须是1.M的形式。由于在进行上述两个定点小数的尾数相加减运算后，尾数有可能是非规格化形式，为此必须进行规格化操作。

规格化操作包括左规和右规两种情况。

左规操作

将尾数左移，同时阶码减值，直至尾数成为 $1 . M$ 的形式。例如，浮点数 $0.0011*2^5$ 是非规格化的形式，需进行左规操作，将其尾数左移3位，同时阶码减3，就变成 $1.1100*2^2$ 规格化形式了。

右规操作

将尾数右移1位，同时阶码增1，便成为规格化的形式了。要注意的是，右规操作只需将尾数右移一位即可，这种情况出现在尾数的最高位（小数点前一位）运算时出现了进位，使尾数成为 $10 . x x x x$ 或 $11 . x x x x$ 的形式。例如， $10.0011*2^5$ 右规一位后便成为 $1.00011*2^6$ 的规格化形式了。

四、舍入处理

浮点运算在对阶或右规时，尾数需要右移，被右移出去的位会被丢掉，从而造成运算结果精度的损失。为了减少这种精度损失，可以将一定位数的移出位先保留起来，称为保护位，在规格化后用于舍入处理。

IEEE754标准列出了四种可选的舍入处理方法：

（1）就近舍入（round to nearest）这是标准列出的默认舍入方式，其含义相当于我们日常所说的“四舍五入”。例如，对于32位单精度浮点数来说，若超出可保存的23位的多余位大于等于 $100 \dots 01$ ，则多余位的值超过了最低可表示位值的一半，这种情况下，舍入的方法是在尾数的最低有效位上加1；若多余位小于等于 $011 \dots 11$ ，则直接舍去；若多余位为 $100 \dots 00$ ，此时再判断尾数的最低有效位的值，若为0则直接舍去，若为1则再加1。

（2）朝 $+ \infty$ 舍入（round toward $+ \infty$ ）对正数来说，只要多余位不为全0，则向尾数最低有效位进1；对负数来说，则是简单地舍去。

（3）朝 $- \infty$ 舍入（round toward $- \infty$ ）与朝 $+ \infty$ 舍入方法正好相反，对正数来说，只是简单地舍去；对负数来说，只要多余位不为全0，则向尾数最低有效位进1。

（4）朝0舍入（round toward 0）

即简单地截断舍去，而不管多余位是什么值。这种方法实现简单，但容易形成累积误差，且舍入处理后的值总是向下偏差。

五、溢出判断

与定点数运算不同的是，浮点数的溢出是以其运算结果的阶码的值是否产生溢出来判断的。若阶码的值超过了阶码所能表示的最大正数，则为上溢，进一步，若此时浮点数为正数，则为正上溢，记为 $+ \infty$ ，若浮点数为负数，则为负上溢，记为 $- \infty$ ；若阶码的值超过了阶码所能表示的最小负数，则为下溢，进一步，若此时浮点数为正数，则为正下溢，若浮点数为负数，则为负下溢。正下溢和负下溢都作为0处理。

要注意的是，浮点数的表示范围和补码表示的定点数的表示范围是有所不同的，定点数的表示范围是连续的，而浮点数的表示范围可能是不连续的。

六、例子

$\ \ \ \ a=0.3;b=1.6$ ;

$a=(0.3)_{10}=(0011\ 1110\ 1001\ 1001\ 1001\ 1001\ 1001\ 1010)_2$
$S_a=0\ \ \ \ E_a=011\ 1110\ 1\ \ \ \ M_a=1.001\ 1001\ 1001\ 1001\ 1001\ 1010$

$b=(1.6)_{10}=(0011\ 1111\ 1100\ 1100\ 1100\ 1100\ 1100\ 1101)_2$
$S_b=0\ \ \ \ E_b=011\ 1111\ 1\ \ \ M_b=1.100\ 1100\ 1100\ 1100\ 1100\ 1101$

$a + b = ?$

二进制浮点数加法

第一步：对阶

$E_a < E_b\ \ \ E_b-E_a=2$

$0.0\ 1001\ 1001\ 1001\ 1001\ 1001\ 10\ \ \ \ \ \ \ 10$

$E=011\ \ 1111\ \ 1$

第二步：尾数运算

$\ \ \ \ 0.01001100110011001100110$
$+\ 1.10011001100110011001101$
$= 1.11100110011001100110011$ ‬

第三步：规格化

$1.11100110011001100110011$ ‬已经是个规格化数据了

第四步：舍入处理

由于在对阶时， $M_a$ 有右移，且第一次最高为1，第二次为0，所以按"0舍1入"，尾数运算结果调整为 $1.11100110011001100110100$

第五步：溢出判断

没有溢出，阶码不调整，所以最后的结果为

$a+b=(0\ \ 01111111\ \ 11100110011001100110100)_2=(0011\ 1111\ 1111\ 0011\ 0011\ 0011\ 0011\ 0100)_2=(3FF33334)_{16}$

转为10进制

$a + b = 1.90000010$

二进制浮点数减法

$b - a = ?$
第一步：对阶

跟上面加法一样

第二步：尾数运算

$\ \ \ \ 1.10011001100110011001101$

$-\ 0.01001100110011001100110$

$= 1.01001100110011001100111$

第三步：规格化

$1.01001100110011001100111$ 已经是个规格化数据了

第四步：舍入处理

由于在对阶时， $M_a$ 有右移，且第一次最高为1，第二次为0，所以按"0舍1入"，尾数运算结果调整为 $1.01001100110011001100110$

第五步：溢出判断

没有溢出，阶码不调整，所以最后的结果为

$a-b=(0\ \ 01111111\ \ 01001100110011001100110)2=(0011\ \ 1111\ \ 1010\ \ 0110\ \ 0110\ \ 0110\ \ 0110\ \ 0110)_2=(3FA66666)_{16}$

转为10进制

$a - b = 1.29999995$

二进制浮点数乘法

浮点数的乘法分为以下几个步骤：

计算符号位：通过异或操作计算符号位，若两个操作数符号位相同，则结果符号位为0，否则结果符号为1
计算原始尾数：两个操作数的尾数相乘（注意，这里是1.M * 1.M），得到原始尾数
计算原始指数：将两个操作数的指数（这里指的是指数幂次方，也就是阶码-移码后得到的数）相加，得到原始指数
规格化与舍入：对原始尾数和原始指数进行规格化，获得结果的指数，再对尾数进行舍入，获得结果的尾数

$\ \ \ \ X=-0.3;Y=500.25$ ;

$X=(-0.3)_{10}=(0.010011001100110011...循环)_{2}=(1.00110011...循环)_2 * 2^{-2}=(1\ \ 01111101\ \ 00110011001100110011010)_2(这里对无限循环小数有舍入处理)$
$Y=(500.25)_{10}=(111110100.01)_2=(1.1111010001)_2*2^{8}=(0\ \ 10000111\ \ 11110100010000000000000)_2$

$X*Y=(X_s*Y_s)*2^{X_E+Y_E}$
$X_E=-2\ \ \ \ \ \ \ \ \ \ \ X_s=1.00110011001100110011010$
$Y_E=8\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Y_s=1.1111010001$
$X_s\ \ \ \ \ \ \ \ 1.0011001100110011001101$
$Y_s\ \ \ \ *\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 1.1111010001$
$= 10.01011000010011001100111001011101$

$X*Y=10.01011000010011001100111001011101*2^6$
$1.001011000010011001100111001011101*2^7(右规操作)$

结果二进制就为(注意，上面的指数7要加上移码才是存在指数位中的阶码，即7+127=134)
$1\ \ 10000110\ \ 00101100001001100110100)_2$
至于最后的尾数是怎么得到，是由原始尾数（X和Y的尾数相乘后得到）经过舍入得到

二进制浮点数除法

除法与乘法相差不大，变更为指数相减，尾数相除。

$\ \ \ \ X=91.34375;Y=0.14453125$ ;

$X=(91.34375)_{10}=(1011011.01011)_{2}=(1.01101101011)_2 * 2^{6}=(0\ \ 10000101\ \ 01101101011000000000000)_2$
$Y=(0.14453125)_{10}=(0.00100101)_2=(1.00101)_2*2^{8}=(0\ \ 01111100\ \ 00101000000000000000000)_2$

$X/Y=(X_s/Y_s)*2^{X_E-Y_E}=(X_s/Y_s)*2^{6-(-3)}$
$X_E=6\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ X_s=1.01101101011$
$Y_E=-3\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Y_s=1.00101$
$X_s\ \ \ \ \ \ \ \ 1.01101101011$
$Y_s\ \ \ \ /\ \ 1.00101$
$= 1.001111$

$9 + 127 = 136$

$0\ \ 10001000\ \ 00111100000000000000000)_2$

浮点运算逻辑电路

在这里插入图片描述

Reference

https://zhuanlan.zhihu.com/p/58731780
https://www.yuejianzun.xyz/2019/05/28/%E6%B5%AE%E7%82%B9%E6%95%B0%E5%A4%84%E7%90%86/
https://www.cnblogs.com/yilang/
https://www.youtube.com/watch?v=MiOtePebraQ
https://www.youtube.com/watch?v=27JjUa-eu_E&t=11s
https://www.youtube.com/watch?v=fi8A4zz1d-s