机器中的浮点数表示

最新推荐文章于 2024-08-13 07:59:43 发布

LOONGSE

最新推荐文章于 2024-08-13 07:59:43 发布

阅读量5.8k

点赞数 1

分类专栏：浮点数文章标签：浮点数

本文链接：https://blog.csdn.net/qq_41629142/article/details/82988163

版权

浮点数专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在初学C语言时，一直体会不到所谓的浮点数容易造成误差，最近看到一篇关于浮点数的文章，加上现在的学习，对浮点数的内部存储方式有了更加深入的理解，于是也渐渐理解了浮点数的误差。

相比int等整型，float等浮点类型的表示和存储较为复杂，但它又是一个无法回避的话题，那么就有必要对浮点一探究竟了。在计算机中，一般用IEEE浮点近似表示任意一个实数，那么它实际上又是如何表示的呢？

已知：在机器存储中，我们是利用定点数来表示浮点数的，顾名思义，定点数中小数点的位置是默认的（全小数的小数点在最左边，全整的默认在最右边），而我们下面介绍的IEEE浮点近似表示中：全小数使用原码表示，全整使用补码表示，因为原码中，数轴关于原点对称，可以用来表示“0”两端对称的数，而补码是环状数轴，计算方便，因此用来表示整数位。

以 F = （-1）^S*M*2^E的形式近似表示一个数。并且将浮点数的位表示划分为三个字段：

符号（sign）s决定这个数是负数（s=1）还是正数（s=0）。可以用一个单独的符号s直接编码符号s。
尾数（signficand）M是一个二进制小数。（全定点小数）
阶码（exponent）E的作用是对浮点数加权，这个权重是2的E次幂（可能是负数）。k位的阶码字段编码阶码E。

在单精度浮点格式（c语言的float）中，s，exp和frac字段分别为1位，8位和23位,而双精度浮点格式（c语言中的double）中，s，exp和frac字段分别为1位，11位和52位。(在这里也可以看出来，机器的位数不变，而浮点数占位很多且疏散)

一个浮点数的常见比特位表示如下:

单精度：float
s（31） exp（30~23） frac（22~0)
双精度：double
s（53） exp（62~52） frac（51~0）

而根据exp的值，被编码的值可以分为三大类不同的情况。下面进行一一解释。

情况1：规格化的值

即最普遍的情况，当exp，即阶码域既不为全0，也不为全1的情况。在这种情况下，阶码字段解释为以偏置（biased）形式表示有符号整数，即E=exp-Bias,exp是无符号数（1~254）。Bias是一个等于的偏置值，对于单精度来说，k=23，Bias=127，因此E的范围是-126~+127。

frac被描述为小数值，且0≤frac<1,其二进制表示为0.frac。尾数定义为 M=1+frac ，则M=1.frac。那么就有1≤M<2,由于总是能够调整阶码E，使得M在范围1≤M<2,所以不需要显示的表示它，这样还能获得一个额外的精度位。也就是说，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的frac部分,等到读取的时候，再把第一位的1加上去。

情况2：非规格化的值

当exp，即阶码域为全0时，所表示的数便为非规格化的值，该情况下的阶码值E=1-Bias（注:为从非格式化值转换到格式化值提供了一种方法）。尾数M=frac
非规格化的数有两个作用。

表示数值0。格式化数中，我们总使得M≥1，因此就无法表示0。而阶码全0时，且尾数也全0时，就可以表示0了。
表示接近0.0的数。它所表示的值分布地接近于0.0，该属性成为逐渐溢出。

情况3：特殊值

有两种

阶码全为1，小数域全为0。它得到值为 +∞(s=0)或-∞（s=1），它在计算机中可以表示溢出的结果，例如两个非常大的数相乘。
阶码全为1，小数域不全为0。它得到值为NaN（Note a Number）。它在计算机中可以表示非法的数，例如计算根号-1时的值。

浮点数的范围和有效位

对于浮点数，其能表示的数值范围和其有效位如下

类型   比特位   数值范围   有效位
float   32   -3.410^38～+3.410^38   6~7位
double   64   -1.710^-308~1.710^308   15~16位
long double   128   -1.210^-4932~1.210^4932   18~19位

可见同比特位数的整型（例如int）要比浮点数（例如float）能表示的数值范围要小很多，但是需要注意的，虽然浮点数能表示的范围大，但是它却不能精确表示在其范围内的所有实数，也就是说，它只能保证有效位的值是精确的，当表示的数值（小数部分）超过有效位时，所表示的数是无法保证精确的，甚至可以说是错误的。

浮点数的有效位：

有效位也可以理解为我们常说的精度。浮点数的精度是由尾数的位数来决定的。

对于单精度（float），它的尾数为23位，而2^23=8388608，共7位，也就是说最多能有7位有效数字，但至少能保证6位，因此其有效位为6~7位。

我们可以通过位数发现：0.0000001和0.0000002之间的其他数是没有办法通过单精度浮点数来精确表示的（这里引入0的概念，即浮点数表示的0有可能只是一个趋近于0的值，实际运算的误差可能会很大），也就是说，只有到小数点后面7位的值才是精确的，同理，观察b和c的结果，0.0000002到0.0000004之间的其他数也是不能通过单精度浮点数精确表示的，更不幸地是，这之间的数，甚至只能精确到第6位。

这也就有了单精度浮点数的有效位为6~7位的结论。根据相似的方法，我们同样可以得到双精度浮点数的有效位为15~16位的结论，这里不再赘述。

关于浮点数，需要再说几句：

1、在二进制，第一个有效数字必定是“1”，因此这个“1”并不会存储。
2、浮点数不能精确表示其范围内的所有数。

3、可精确表示的数不是均匀分布的，越靠近0越稠密（所以也就是说无法表示所有的实数）。
4、默认舍入方式为向偶舍入，也被称为最接近的值舍入。

（由于之前没有怎么理解，因此上面存在一些错误，非常抱歉，博主会尽快修改的）