浮点数的存储规则

最新推荐文章于 2024-10-08 09:44:01 发布

XIAOMIahhhh

最新推荐文章于 2024-10-08 09:44:01 发布

阅读量92

点赞数

文章标签： c++ c语言

本文链接：https://blog.csdn.net/XIAOMIahhhh/article/details/132303370

版权

引入

#include <stdio.h>

int main()
{
    int n = 9;
    float* Pfloat = (float*)&n;
    printf("n的值为:%d\n",n);
    printf("*pfloat的值为:%f\n",*Pfloat);

    *Pfloat = 10.0;
    printf("n的值为:%d\n",n);
    printf("*pfloat的值为:%f\n",*Pfloat);
    return 0;
}

运行结果为：

n的值为：9
*pfloat的值为:0.000000
n的值为:1092616192
*pfloat的值为:10.000000

其中整型变量n 和*Pfloat在内存中为同一个数，但是浮点数和整数的解读结果相差比较大

因此来理解，关于浮点数在计算机内部的表示方法

根据国际标准IEEE754，任意一个二进制浮点数V可以表示成下面的形式：

V = （-1）^ S * M * 2 ^ E;

其中（-1） ^ S 表示的是符号位，当S = 0的时候，V为正数；当S = 1的时候，V为负数

M表示的是有效数字，大于等于1，并且小于2

2 ^ E表示的是指数的位数

比如说，十进制下的5.5 ——> 2进制的101.1

用科学计数法表示，可以表示为：（-1）^ 0 * 1.011 * 2 ^ 2

其中，S = 0,，M = 1.011，E = 2

而对于32位的浮点数，最高的1位是符号位S，接着的8位是指数E，剩下的23位是有效数字M

而对于64位的浮点数，最高的1位时符号位S，接着的11位是指数E，剩下的52位是有效数字M

对于有效数字M的规定，1<= M <2，也就是说M可以写成1.xxxxxxx的形式，其中xxxxxxx表示的是小数部分。因此规定，在计算机内部保存M的时候，默认这个数的第一位总是1，因此这个1可以舍去，只保存后面的xxxxxx部分。比如在保存1.01的时候，只保存01，在读取M的时候，再把第一位上的1给加上去。这样做的目的，是节省1位有效数字。比如说32位的浮点数，留给M的只有23位。但是将第一位给舍去之后，就可以保存24位有效数字。

对于指数E的情况

首先，E为一个无符号的整数（unsigned int）

这也就意味着，如果E是8位，那么它的取值范围是0~255；如果E是11位的，那么它的取值范围就是0~2047。但是我们知道，科学计数法的E是可以出现负数的，因此IEEE标准规定，存入内存时候的E的真实值必须再加上一个数。对于8位的E，这个中间数就是127；对于11位的E，这个中间数就是1023。比如，2 ^ 10的E是10，所以保存成32位浮点数的时候，必须保存为10 + 127 = 137，即10001001

int main()
{
    float f = 5.5;
    //5.5
    //101.1
    //(-1) ^ 0 * 1.011 * 2 ^ 2
    //S = 0
    //M = 1.011
    //E = 2
    //E = 2,因此保存为2 + 127 = 129
    // 0 10000001 
    //M只存放小数点后面的地址
    //011
    //0 10000001 01100000000000000000000
    //0100 0000 1011 0000 0000 0000 0000 0000
    //    40       b0         00        00
    return 0;
}

此时观察到：&f后内存的具体情况，与结论一致

指数E从内存之中取出来还有三种情况：

1. E在8个bit位上既有1又有0

此时的浮点数采用以下规则进行，指数E的计算值减去127（或者1023），得到真实值，再将有效数字M前加上第一位的1。

2.当E为全0的时候，此时浮点数的指数E等于1 - 127（或者1 - 1023）即为真实值。并且作为有效数字的M，也不用再加上第一位的1了，而是还原为0.xxxxxxx的小数。这样子的做法是为了表示±0，以及接近于0的高阶无穷小数。

3.当E为全1的时候，此时如果有效数字M全为0，表示的是±无穷大（正负取决于符号位的S）。

因此回到开头的那段代码，

#include <stdio.h>

int main()
{
	int n = 9;
	//00000000000000000000000000001001
	//由于n的地址取出来的int*类型的，不能够随便赋给float*类型，因此需要通过强制转换，转换成float*类型
	float* Pfloat = (float*)&n;
	printf("n的值为:%d\n", n);
	printf("*pfloat的值为:%f\n", *Pfloat);
	//此时认为，n的内存是float类型了，根据规则，0 00000000 00000000000000000001001
	//E全部为0的时候，真实值为1 - 127 = -126 E = -126;
	//M = 0.000000000000000000000000001001
	//S = 0;
	//因此真实的数据为： (-1) ^ 0 * M * 2 ^ E ≈ 0
	*Pfloat = 10.0;
	printf("n的值为:%d\n", n);
	printf("*pfloat的值为:%f\n", *Pfloat);
	//1010.0
	//(-1) ^ 0 * 1.01 * 2 ^ 3
	//0 10000010 01000000000000000000000
	//其值为1092616192
	return 0;
}