浮点数在内存中的存储
常见的浮点数:3.14159 1E10 浮点数家族包括:float,double,long double类型。
小tips:浮点数表示的范围可在float.h中查找,整形表示的范围可在limits.h中查找。
查找步骤
1:查找program files所在路径
2:找到自己电脑所对应的VS版本
3:找到vc
4:找到vc文件夹中包含的include文件夹
5;在该文件夹中搜索limits.h/float.h
打开如下图所示,里面包含了很多有关不同数据类型的范围:
现在我们先来看一个实例:
#include<stdio.h>
int main()
{
int n = 9;
float* pFloat = (float*)&n;//定义浮点型指针pFloat指向n,注意:由于指针pFloat的类型和n的类型不相同,因此我们需要进行强制转化。
printf("n的值为:%d\n", n);
printf("*pFloat的值为:%f\n", *pFloat);//对指针进行解引用,以浮点数的形式进行输出
*pFloat = 9.0;//令指针解引用后的值为9.0
printf("num的值为:%d\n", n);
printf("*pFloat的值为:%f\n", *pFloat);
return 0;
}
上面这个程序的输出结果是什么呢?
有人会认为是9、9.000000、9、9.000000.
那么现在我们让程序运行看看输出结果是什么?
通过输出结果我们可以得到一个初步结论:整形和浮点型在内存中的存储方式不同。
那么浮点数在内存中到底怎么存储呢?下面我们来学习:
根据国际标准IEE(电子和电子工程协会)754,任意一个二进制浮点数V可以表示为下面的形式:
举例来说:十进制的5.0,写成二进制是101.0,相当于1.012的二次方(这里用到了科学计数法的表示),那么,按照上面V的格式,可以得出s=0,M=1.01,E=2
如果是十进制的-5.0,写成二进制是-101.0,相当于-1.012的两次方,那么按照上面的格式,s=1,M=1.01,E=2
IEEE 754规定:对于32位的浮点数,最高的一位是符号位s,接着的8位是指数E,剩下的23位位有效数字M,如下图所示:
单精度浮点数模型:
IEEE 754规定:对于64位的浮点数,最高的一位是符号位s,接着的11位是指数E,剩下的52位是有效数字M,如下图所示:
双精度浮点数模型:
IEEE 754对有效数字M和指数E,还有一些特别规定。前面说过,1SM<2 ,也就是说,M可以写成 1.xxxxxx的形
式,其中xxxxxx表示小数部分。
IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分。比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。
至于指数E,情况就比较复杂。
首先,E为一个无符号整数(unsigned int),这意味着,如果E为8位,它的取值范围为0~255;如果E为11位,它的取值范围为0-2047。但是,我们知道,科学计数法中的E是可以出现负数的,所以IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,对于8位的E(float类型),这个中间数是127;对于11位的E(double类型),这个中间数是1023.比如,2^10的E是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。
十进制浮点数转化为二进制的方法
浮点数在内存中的存储步骤
再根据上浮点数模型按照顺序存储,E不够比特位后面补0.
5.5在内存中的存储结果为:
指数E从内存中取出还可以分三种情况:
E不全为0或不全为1
举例:0 01111110(0和1都有) 00000000000000000000000000000000000000
这时,浮点数就采用下面的规则表示,即指数E的计算值(存储值)减去127(或1023),得到真实值,再将有效数字M前加上第一位的1(由于你在存储的时候没有存1,只存储了后面的值)。比如:0.5(1/2)的二进制形式为0.1,由于规定正数部分必须为1,即将小数点右移1位则为1.0*2^-1),其阶码为-1+127=126,表示为01111110,而尾数1.0去掉整数部分为0,补齐0到23位00000000000000000000000,则其二进制表示形式为:0 01111110 00000000000000000000000
E全为0
举例:0 00000000(全为0) 01111111110000000000000000000000
这时,浮点数的指数E等于1-127(或者1-1023)即为真实值(存储的时候加127/1023),有效数字M不再加上第一位的1,而是还原为0.xxxxxx的小数。这样做是为了表示±0,以及接近于0的很小的数字(举例:1/2的127次方)。
E全为1
这时,如果有效数字M全为0,表示+无穷大(举例:2的128次方)(正负取决于符号位s);
现在我们回过头来看上面所举的示例:
#include<stdio.h>
int main()
{
int n = 9;
//原码、反码、补码:0 00000000 00000000000000000000001001
float* pFloat = (float*)&n;
printf("n的值为:%d\n", n);
printf("*pFloat的值为:%f\n", *pFloat);//0.000000(由于E全为0,具体原因参考上面的E全为0的情况)
//存储值为:(-1)的0次方*0.00000000000000000001001*2的-126次方
*pFloat = 9.0;//按照浮点数存储方法进行存储
//1001.0(9.0的二进制)
//1.001*2的三次方
//(-1)的零次方*1.001*2的3次方
//存储值:0 10000010 00100000000000000000000000000000000
printf("num的值为:%d\n", n);//1091567616
//原码,反码,补码:0 10000010 00100000000000000000000000000000000
printf("*pFloat的值为:%f\n", *pFloat);
return 0;