浮点型的额数据存储
我们先看一份简单的代码:
#include <stdio.h>
int main()
{
int n = 6;
float* pFloat = (float*)&n;
printf("n的值为:%d\n", n);
printf("*pFloat的值为:%f\n", *pFloat);
*pFloat = 6.0;
printf("n的值为:%d\n", n);
printf("*pFloat的值为:%f\n", *pFloat);
return 0;
}
我们再来看一下运行结果:
- 运行结果为什么是这样子的呢
- 在文章的最后,我会解释上述代码的运行结果
- 接下来我们就来讲一下浮点型在内存中是如何存储的
有哪些浮点型
- 浮点型分为两类: 单精度浮点型和双精度浮点型
- 浮点型一共有三种类型:float, double 和 long double
- 分别占有4个字节,8个字节和16个字节
注:在接下来的所有案例中,全部都是float型
浮点型的存储规则
- 上述代码中,num 和 * pFloat在内存中明明是一个数,为什么浮点数和整数的解读
结果会差别这么大?- 要理解这个结果,就一定要搞懂浮点数在计算机内部的表示方法。
详细解读
- 根据国际标准IEEE(电气和电子工程协会)754,任意一个二进制浮点数V都可以表现成下面的形式
- (-1)^S * M * 2^E
- (-1)^S表示符号位,当S = 0,V为正数;当S = 1,V为负数。
- M表示有效数字,大于等于1,小于2。
- 2^E表示指数位。
注:^表示幂次方
- 接下来举几个例子
- ①5.5:
- 整数部分为5: 101
- 小数部分为0.5(2^-1): 0.1
- 5.5的二进制形式是:101.1
- 转换成上述形式为: (-1)^0 * 1.011 * 2^2
- 因此,S = 0,M = 1.011, E = 2
注:小数点右边,从左到右依次是2^-1, 2^-2, 2^^3……
- ②10.25
- 整数部分为10: 1010
- 小数部分为0.25(2^-2): 0.01
- 10.25的二进制形式是:1010.01
- 转换成上述形式为: (-1)^1 * 1.01001 * 2^3
- 因此,S = 1,M = 1.01001, E = 3
IEEE 754规定
- 对于32位的浮点数,最高的一位是符号位S, 接着的8位是指数E,剩下的23位为有效数字M。
- 对于64位的浮点数,最高的一位是符号位S, 接着的11位是指数E,剩下的52位为有效数字M。
- IEEE 754对有效数字M和指数E, 还有一些特别的规定
- 前面说过,1 <= M < 2,也就是说,M可以写成
1.xxxxxxx
的形式,其中xxxxxxx是小数部分。- IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1 ,因此可以被舍去,只保存后面的xxxxxxx(小数)部分。比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。这样做的目的,是节省1位有效数字。以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字。
- 至于指数E,情况就比较复杂
首先,E为一个无符号整数(unsigned int)
这就意味着,如果E为8位,它的取值范围为0~255,如果E为11位,它的取值范围是0 ~2047。但是, 我们知道,科学计数法中的E是可以出现负数的,所以在IEEE 754规定,存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023。比如,2^10的E是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。
- 所以根据以上规定,我们将上述两个例子转换成32位二进制
①5.5
- S=0
- E = E + 127 = 129
E的二进制序列为:10000001- M = 1.011,小数部分为011
M的二进制为:01100000000000000000000
5.5存储在内存中的二进制序列位:
0 10000001 01100000000000000000000
②
- S = 1
- E = E + 127 = 130
E的二进制序列为:10000010- M = 1.01001,小数部分为:01001
M的二进制为:01001000000000000000000
-10.25存储在内存中的二进制序列为:
1 10000010 01001000000000000000000
浮点型如何从内存中取出
指数E从内存中取出可以分为三种情况
E不全为0或不全为1
- 这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1。
- 比如:
0.5(1/2)的二进制形式为0.1,由于规定正数部分必须为1,即将小数点右移一位,则为1.0 * 2^(-1),其阶码为为-1+127=126,表示为01111110,而尾数1.0去掉整数部分为0,补齐23位00000000000000000000000,则其二进制表示形式为:
0 01111110 00000000000000000000000
E全为0
这时,浮点数的指数E等于1-127(或1-1023)即为真实值,
有效数字M不在加上第一位的1,而是还原为0.XXXX的小数。这样做是为了表示±0,以及接近于0的很小的数字。
E全为1
这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位S)。
解释文章开头的代码结果
- 我们一开始定义的n是一个整数6,那么存储在整数中的二进制序列为:
00000000 00000000 00000000 00000110
- 因此,当我们以浮点数形式输出这个二进制序列时,编译器就会把该序列认为是浮点数的二进制序列
0 00000000 00000000000000000000110
- E全为0,因此输出结果为0.
*pFloat = 6.0;
- 当我们把这个数以浮点数的形式转换成6.0时,内存中就会以浮点数的形式将它存储
- 此时6.0可以转变为:110.0
即:(-1)^0 * 1.1 * 2^2
S = 0, E = E + 127 = 129, M = 1.1- 二进制序列为:
0 10000001 10000000000000000000000
- 所以当我们再以整数的形式输出时,编译器就会认为该序列时整形序列
- 那么01000000110000000000000000000000的值就会是
1,086,324,736