[学习笔记] 二进制小数表示方法

水蓝城城主

已于 2024-02-28 16:09:11 修改

阅读量4.6k

点赞数 1

分类专栏：计算机基础文章标签：计算机基础

于 2021-08-31 14:30:23 首次发布

本文链接：https://blog.csdn.net/mrliuzhao/article/details/120016471

版权

计算机基础专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章目录

科学计数法
二进制推广
计算机中的小数
EXCESS表示系统
特殊情况
举例（float）

科学计数法

科学计数法想必大家都很熟悉了，往往通过如下形式表示一个实数：
$\plusmn M \times R^E$

其中包含几个组成部分：

符号（sign）：最左边的正负号；
尾数（fraction）、有效位数（significand）：公式中的 $M$ ，常常是1到10之间的小数，体现了数字的精度；
基数（radix）：公式中的 $R$ ，表示进制，科学计数法使用的就是十进制，即 $R = 10$ ；
指数（exponent）：公式中的 $E$

比如一个十进制数字通过科学计数法表示为： $2.99792458 \times 10^8$ 。而对于这种形式表示的任意一个十进制数字 $d_1.d_2d_3...d_n \times 10^E$ ，实际上都可以展开来计算具体的值： $d_1 \times 10^E + d_2 \times 10^{E-1} + d_3 \times 10^{E-2} + ... + d_n \times 10^{E-n+1}$

二进制推广

将上述概念和思想推广到二进制，也就是基数（radix） $R = 2$ 的情况。一个实数一样可以通过类似科学计数法的形式用二进制表示，如 $1.01011 \times 2^2$ 。其具体值也就可以展开后换算到十进制： $1.01011 \times 2^2 = 1 \times 2^2 + 0 \times 2^1 + 1 \times 2^0 + 0 \times 2^{-1} + 1 \times 2^{-2} + 1 \times 2^{-3} = 5.375$

计算机中的小数

既然二进制实数也可以用 $\plusmn M \times R^E$ 的形式来表示，计算机中就可以通过分别存储该形式中的各个部分来存储一个实数。由于确定使用二进制，也就是基数 $R$ 固定为2，因此不必再额外耗费空间记录。二进制中也只有0或1，故尾数部分 $M$ 也就可以固定表示为 $M=1.d_1d_2d_3...$ ，即 $M = 1 + F$ 。因此二进制实数的表示形式可以简化为： $\plusmn 1.F \times 2^E$ 。其中各个部分则按如下形式存储：

符号位 $\plusmn$	指数 $E$	小数 $F$
1位	double类型11位，float类型8位	double类型52位，float类型23位

其中符号位只需要一位（bit）表示，0表示正、1表示负。指数部分由于有正负，故采用EXCESS表示系统，下面简单介绍一下该系统。

EXCESS表示系统

EXCESS表示系统主要目的是在不使用符号位的情况下也可以表示负数，具体思路就是以计数系统可表示的整体范围的中点作为0点，使用偏移量（Bias）来进行计数。偏移量的计算方法则为：当前值 - 中点值。如对于一个n位的二进制数，其能表示的范围为 $\to 2^{n}-1$ ，中点即为 $2^{n-1}-1$ 。中点值对应为0，小于中点的数值为负数，大于中点的值为正数。从而实现了不使用符号位也可以表示负数。

在float类型中指数部分有8位，可以表示的最大的数字为255（ $2^8-1$ ），中点为127（ $2^7-1$ ）；对于double类型，指数部分有11位，可以表示的最大的数字为2047（ $2^{11}-1$ ），中点为1023（ $2^{10}-1$ ）。

下面以float类型为例总结十进制数值、二进制数值和对应的EXCESS系统数值（偏移量）之间的关系：

十进制	二进制	EXCESS表示值
255	1111 1111	128 (255 - 127)
254	1111 1110	127 (254 - 127)
…	…	…
128	1000 0000	1 (128 - 127)
127 (中点值)	0111 1111	0 (127 - 127)
126	0111 1110	-1 (126 - 127)
…	…	…
1	0000 0001	-126 (1 - 127)
0	0000 0000	-127 (0 - 127)

特殊情况

上述仅为普遍的表现形式，但由于已经默认小数点前固定为1，即 $M = 1 + F$ ，则通过上述方法无法表示0，同时也无法处理正负无穷等特殊情况。故定义当指数部分 $E$ 均为0或均为1时为特殊情况，即普通情况下指数部分仅可使用 $\to (max - 1)$ 的范围。对于float类型来说即为 $\to 1111 1110 (127)$ 。下面简单阐述一下两种特殊情况的处理方式。

第一种特殊情况（用于处理0及接近0的值）：当指数部分 $E$ 全为0时，对应的值改为 $min + 1$ ，对于float即为-126（-127+1）。同时小数点前变为0，即尾数部分 $M = 0. F$ 。此时小数部分 $F$ 全为0时即可表示0。

第二种特殊情况（用于处理正负无穷）:当指数部分 $E$ 全为1时，表示无穷（NaN）。其中符号位为0时表示正无穷、符号位为1时表示负无穷。小数部分直接忽略。

举例（float）

接下来以float类型举几个例子，首先复习一下float类型各个部分的位数：

float_bits

普通情况最大正实数

首先考虑普通情况下能表示的最大正实数，按上述的二进制表示形式，各个部分能取到的最大值分别为：
float-max

符号位 $\plusmn$	指数 $E$	小数 $F$
0	1111 1110	111…111 (23位)

二进制下为 $1.111...111 \times 2^{127}$ ，展开后可以计算出十进制下对应的值为 $2^{-1} + 2^{-2} + \cdots + 2^{-22} + 2^{-23}) \times 2^{127} = 2^{128} - 2^{104} \approx 3.4028 \times 10^{38}$

普通情况最小负实数

对于普通情况下能表示的最小负实数，只需要将符号位变为负号，其他部分仍然取最大值即可：
float-min

符号位 $\plusmn$	指数 $E$	小数 $F$
1	1111 1110	111…111 (23位)

二进制下为 $−1.111...111 \times 2^{127}$ ，十进制下约等于 $−3.4028 \times 10^{38}$

普通情况最小正实数

普通情况下可以表示的最小的正实数，除符号位外各个部分能取到的最小值分别为：
float_min_positive

符号位 $\plusmn$	指数 $E$	小数 $F$
0	0000 0001	000…000 (23位)

二进制下为 $1.0 \times 2^{-126}$ ，十进制下约等于 $1.1755 \times 10^{-38}$

特殊情况最大正实数

普通情况无法表示0或接近0的实数，因此指数部分全为0时为特殊情况，用于表示0或接近0的实数。该情况下小数部分全为0时即表示0，而小数部分全为1即为该情况下能取到的最大值：
float_max_app0

符号位 $\plusmn$	指数 $E$	小数 $F$
0	0000 0000 (-126)	111…111 (23位)

二进制下为 $0.111...111 \times 2^{-126}$ ，展开后计算出十进制下对应的值为 $2^{-1} + 2^{-2} + \cdots + 2^{-22} + 2^{-23}) \times 2^{-126} = 2^{-126} - 2^{-149}$ 。由此可见这种特殊情况下的最大值与普通情况下的最小值 $2^{-126}$ 相差也就只有 $2^{-149}$ ，从而保证了不同情况下取值的相对连续。