浮点数在计算机中的存储

大筒木老辈子

已于 2024-03-26 14:20:37 修改

阅读量1k

点赞数 25

文章标签： java 算法数据结构

于 2024-03-23 20:19:55 首次发布

本文链接：https://blog.csdn.net/2302_80372340/article/details/136971916

版权

1. 引言

我们知道，整数在计算机中是以二进制补码的形式存储的，那么浮点数呢？

考虑到这个问题，你会感到十分苦恼，因为你并不知道要如何将一个浮点数转化成一段二进制序列。

那我们不妨先来验证一下，整数与浮点数的存储规则是否一致。

#include <stdio.h>
int main()
{
    int n = 9;
    float *pFloat = (float *)&n;

    printf("n的值为：%d\n",n);
    printf("*pFloat的值为：%f\n",*pFloat);

    *pFloat = 9.0;

    printf("num的值为：%d\n",n);
    printf("*pFloat的值为：%f\n",*pFloat);

    return 0;
}

如果整数与浮点数的存储规则一致的话，这段代码的结果就该是：

n的值为：9

*pFloat的值为：9.000000

num的值为：9

*pFloat的值为：9.000000

然而，结果却是：

也就是说，浮点数的存储与整数的存储一定不同。

那么，浮点数到底是如何存储在计算机中的呢？

2. 浮点数的存储方式

2.1 标准规定

根据国际标准IEEE（电气和电子工程协会） 754，任意⼀个⼆进制浮点数V可以表示成下面的形式：

$eq?V%20%3D%20%28-1%29%5E%7BS%7D%20*%20M%20*%202%5E%7BE%7D$

• $eq?%28-1%29%5E%7BS%7D$ 表示符号位，当S=0时，V为正数；当S=1时，V为负数。

• M表示有效数字，M是大于等于1，小于2的。

• $eq?2%5E%7BE%7D$ 表示指数位

这其实相当于是规定了二进制下的科学计数法。

举例来说：

十进制的5.0，写成二进制是 101.0 ，相当于 1.01×2^2 。

那么，按照上⾯V的格式，可以得出S=0，M=1.01，E=2。

十进制的-5.0，写成二进制是 -101.0 ，相当于 -1.01×2^2 。

那么，S=1，M=1.01，E=2。

同时IEEE 754规定：

1. 对于32位的浮点数，最⾼的1位存储符号位S，接着的8位存储指数E，剩下的23位存储有效数字M。

2. 对于64位的浮点数，最⾼的1位存储符号位S，接着的11位存储指数E，剩下的52位存储有效数字M。

图片来源于比特科技。

2.2 有效数字M

即使有了上面的规定，我们的问题依然没有得到解决，因为有效数字M依然是一个浮点数。

前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中 xxxxxx 表示小数部分。 IEEE 754 规定，在计算机内部保存M时，默认这个数的第⼀位总是1，因此可以被舍去，只保存后⾯的 xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第⼀位的1加上去。

这样一来，S，M，E都是以整数的形式存在了，我们就可以很好地将其存到计算机中。

这样做还有一个好处，那就是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第⼀位的1舍去以后，等于可以保存24位有效数字。

2.3 指数E

2.3.1 存入E

首先，指数E的类型为无符号整形（unsigned int），这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实值必须再加上⼀个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10的E是 10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

这样做，其实就像是将坐标原点搬到了中间数的位置，小于中间数的就表示负数，大于中间数的就表示正数。

2.3.2 取出E

从内存中取出E还可以分为三种情况：

1. E不全为0或不全为1

这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第⼀位的1。比如：0.5 的⼆进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127(中间值)=126，表示为01111110，而尾数1.0去掉整数部分为0，补齐0到23位 00000000000000000000000，则其⼆进制表示形式为:

0 01111110 00000000000000000000000

2. E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第⼀位的1，而是还原为0.xxxxxx的小数。因为无论什么数，乘上 $eq?2%5E%7B-127%7D$ 都会变成小到忽略不计的数，这样做是为了表示±0，以及接近于0的很小的数字。

例如：

0 00000000 00100000000000000000000

E全为1

这时，如果有效数字M全为0，表示±穷大（正负取决于符号位s）

例如：

0 11111111 00010000000000000000000

3. 对开头的代码进行解析

既然我们已经知道了浮点数在内存中的存储规则，那我们要如何解释开头那段代码的结果呢？

#include <stdio.h>
int main()
{
    //第一部分
    int n = 9;
    float *pFloat = (float *)&n;

    printf("n的值为：%d\n",n);
    printf("*pFloat的值为：%f\n",*pFloat);
    
    //第二部分
    *pFloat = 9.0;

    printf("num的值为：%d\n",n);
    printf("*pFloat的值为：%f\n",*pFloat);

    return 0;
}