浮点数在内存中的存储(C语言)

Runnners

已于 2023-07-20 20:36:27 修改

阅读量100

点赞数 1

文章标签： c语言算法数据结构 c++ 开发语言

于 2023-07-20 20:32:56 首次发布

本文链接：https://blog.csdn.net/cdnio/article/details/131834870

版权

一、浮点数简析

1.浮点数解析

浮点数顾名思义就是小数点可移动的数，也就是小数。常见的浮点数包括3.14，1E10等，1E10的含义为1 * 10的10次方。

浮点数家族包括float（单精度浮点数）、double（双精度浮点数）、long double类型。

另外浮点数其主要包括的范围在其 float.h中进行了规定，规定了其最大值，最小值和具体精度等信息。

2.事例

#include <stdio.h>
int main()
{
	int n = 9;
	float* pFloat = (float*)&n;

	printf("n的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);

	*pFloat = 9.0;
	printf("n的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);

	
}

OK，可以先想一下这个小例子的输出结果，文章最后会进行分析给出其答案。

二、浮点数存储规则

根据国际标准IEEE（电气和电子工程协会）754规定，任意一个二进制浮点数V可以表示成下面的形式：

1. V = （-1）^ S * M * 2 ^ E （注意，这是在其2进制形式下的表示方式）。

2.（-1）^ S表示符号位，当S = 0时，V为整数；当S = 1时，V为负数。

3. M表示有效数字，其范围为大于等于1，小于2.

4. 2 ^ E表示指数位。

下面，举例来说：

像十进制的小数 5.5 --->其转化为2进制数为101.1，小数点前的101表示(从后向前) 1 * 2 ^ 0 + 0 * 2 ^ 1 + 1 * 2 ^ 2 = 5，小数点后的1为1 * 2 ^ -1 = 0.5，其转化原则就为如此。101.1按上文形式再进行转化为：(-1)^ 0 * 1.011 * 2 ^ 2。也就是小数点向左移动两位，注意此时为2进制数，因此乘以的为2 ^ 2，前一个2表示进制，后一个2表示移动的位数。

OK，理解完上文的存储形式后，我们接下来看在内存中的具体存储。

IEEE 754规定：

对于32位的浮点数，最高的1位为符号位S，接着的8位为指数E，剩下的23位为有效数字M。

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数位E，剩下的52位为有效数字M。

另外，对于有效数字M和指数E，还有一些规定。

2.1 M在内存中的保存

因为M的范围是在[-1,2),因此，M应该可为1.xxxxx的形式，其中xxxxx为小数部分。

对此，IEEE 754规定，计算机在保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面xxxxx部分。如在保存1.01时，只保存01，等到读取结束后，再将这个数的第一位加1。这样就可以节省一位有效数字。对于32位浮点数来说，原本只能保存23位有效数字，将第一位的1舍去后，就可以保存24位有效数字。

2.2 E在内存中的保存

对于指数E。E为一个无符号整数，这就说明，若E为8位，则范围为0~255；若E为11位，则范围为0~2047。

但是E是可以为负数的。如十进制数0.5 --->表示为2进制为0.1 --->转化为标准形式为（-1）^ 0 *1 * 2 ^ -1，因此此时E为-1。

所以规定，存入内存时的E的真实值必须再加上一个中间数，对于8位的E，这个中间数为127，对于11位的E，这个中间数是1023。就如上文E为-1时，保存时会加上127变成126，因此E保存的二进制序列为01111110。

这是保存在内存时的情况。

2.3 E从内存中取出

2.3.1 E不全为0或不全为1

此时，指数E的计算值减去127（32位）或1023（64位），得到真实值，再将有效数字M加上第一位的1。

2.3.2 E全为0

此时，浮点数的指数E的真实值为1-127（32位）或（1-1023）.

有效数字M不再加上第一位的1，而是还原为0.xxxxx的小数。

2.3.3 E全为1

这时，如果有效数字M全为0，表示无穷大。

OK，现在回到前面例题之中。

结果为：

第一个打印为9，没什么疑问。主要观察第二个打印和第三个打印。

n 一开始为整形，其二进制序列（32位下）为 0000 0000 0000 0000 0000 0000 0000 1001

转化为float类型后，pFloat 二进制序列为：0 00000000 00000000000000000001001

注意，E此时全为0，所以就符合第二种情况，因此此时浮点数为：(-1) ^ 0 * 0.00000000000000000001001 * 2 ^ (-126) = 1.001 * 2 ^ (-146)

显然，此时若再让小数点往左移动146就非常非常小了。因此是一个很接近于0的正数，因此，浮点型打印出来的就是0.000000。

再看第三个打印

浮点数9.0 用二进制形式表示：1001.0 ---> 化为标准形式：(-1) ^ 0 * 1.001 * 2 ^ 3。

此时S = 0，E = 3 + 127 = 130，M = 1.001。此时有效数字M去掉1在内存中表示。

所以，二进制位：0100000100010000000000000000000。

因为最高位为0，所以为正数，所以还原为10进制的数为1091567616。

Runnners

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
浮点数在内存中的存储(C语言)

像十进制的小数 5.5 --->其转化为2进制数为101.1，小数点前的101表示(从后向前) 1 * 2 ^ 0 + 0 * 2 ^ 1 + 1 * 2 ^ 2 = 5，小数点后的1为1 * 2 ^ -1 = 0.5，其转化原则就为如此。所以规定，存入内存时的E的真实值必须再加上一个中间数，对于8位的E，这个中间数为127，对于11位的E，这个中间数是1023。如十进制数0.5 --->表示为2进制为0.1 --->转化为标准形式为（-1）^ 0 *1 * 2 ^ -1，因此此时E为-1。
复制链接

扫一扫