浮点型存储的例子
int main()
{
int n = 9;
float *pFloat = (float *)&n;
printf("n的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
*pFloat = 9.0;
printf("num的值为:%d\n",n);
printf("*pFloat的值为:%f\n",*pFloat);
return 0;
}
可以看出这四个结果差别还是挺大的,具体是为什么呢,这就涉及到浮点型数据在内存中的存储,到下面在解释原因。
浮点数储存规则
根据国际标准
IEEE
(电气和电子工程协会)
754
,任意一个二进制浮点数
V
可以表示成下面的形式:
(-1)^S * M * 2^E
(-1)^s
表示符号位,当
s=0
,
V
为正数;当
s=1
,
V
为负数。
M
表示有效数字,大于等于
1
,小于
2
。
2^E
表示指数位。
十进制的
5.0
,写成二进制是
101.0
,相当于
1.01×2^2
。
那么,按照上面
V
的格式,可以得出
s=0
,
M=1.01
,
E=2
。
十进制的
-5.0
,写成二进制是
-
101.0
,相当于
-
1.01×2^2
。那么,
s=1
,
M=1.01
,
E=2
。
IEEE 754
规定:
对于
32
位的浮点数,最高的
1
位是符号位
s
,接着的
8
位是指数
E
,剩下的
23
位为有效数字
M
。
对于
64
位的浮点数,最高的
1
位是符号位S,接着的
11
位是指数
E
,剩下的
52
位为有效数字
M
。
IEEE 754
对有效数字
M
和指数
E
,还有一些特别规定。
对于M: 由于M的形式总是为 1.xxxxx, 所以在计算机内部保存M时,默认这个数的的一位总是1,因此可以被舍去。
这样做的目的,是节省
1
位有效数字。以
32
位 浮点数为例,留给M
只有
23
位,
将第一位的
1
舍去以后,等于可以保存
24
位有效数字。
至于指数
E
,情况就比较复杂。
首先,
E
为一个无符号整数(
unsigned int
)
这意味着,如果
E
为
8
位,它的取值范围为
0~255
;如果
E
为
11
位,它的取值范围为
0~2047
。
但是,我们知道,科学计数法中的E
是可以出 现负数的,
所以IEEE 754
规定,存入内存时
E
的真实值必须再加上一个中间数,
对于
8
位的
E
,这个中间数 是127
;
对于
11
位的
E
,这个中间 数是1023
。
比如,
2^10
的
E
是
10
,所以保存成
32
位浮点数时,必须保存成
10+127=137
,
即 10001001。
然后,指数E从内存中取出还可以再分成三种情况:
1、E不全为0,或不全为1
这时,浮点数就采用下面的规则表示,即指数
E
的计算值减去
127
(或
1023
),得到真实值,再将
有效数字
M
前加上第一位的
1
。
2、E全为0
这时,浮点数的指数
E
等于
1-127
(或者
1-1023
)即为真实值,
有效数字
M
不再加上第一位的
1
,而是还原为
0.xxxxxx
的小数。这样做是为了表示
±0
,以及接近于
0
的很小的数字。
3、E全为1
这时,如果有效数字
M
全为
0
,表示
±
无穷大(正负取决于符号位
s
)
解释前面的题目
下面,让我们回到一开始的问题:为什么 0x00000009 还原成浮点数,就成了 0.000000
首先,将
0x00000009
拆分,得到第一位符号位
s=0
,后面
8
位的指数
E=00000000
,最后
23
位的有效数字M=000 0000 0000 0000 0000 1001。
由于指数
E
全为
0
,所以符合上一节的第二种情况。
因此,浮点数
V
就写成: V=(-
1)^0 × 0.00000000000000000001001×2^(
-
126)=1.001×2^(
-
146)
显然,
V
是一个很小的接近于
0
的正数,所以用十进制小数表示就是
0.000000
。
再看例题的第二部分。
请问浮点数
9.0
,如何用二进制表示,还原成十进制又是多少。
首先,浮点数
9.0
等于二进制的
1001.0
,即
1.001×2^3
。
那么,第一位的符号位
s=0
,有效数字
M
等于
001
后面再加
20
个
0
,凑满
23
位,指数
E
等于
3+127=130
,
即
10000010
。
所以,写成二进制形式,应该是
s+E+M
,即
这个
32
位的二进制数,还原成十进制,正是
1091567616
。