转载:http://blog.sina.com.cn/s/blog_97b4973a0101j9eo.html
1.浮点数的存储格式
浮点数在C/C++中对应float和double类型,我们有必要知道浮点数在计算机中实际存储的内容。
IEEE754标准中规定float单精度浮点数在机器中表示用 1 位表示数字的符号,用
8 位来表示指数,用23 位来表示尾数,即小数部分。对于double双精度浮点数,用 1 位表示符号,用
11 位表示指数,52 位表示尾数,其中指数域称为阶码。IEEE 浮点值的格式如下图所示。
注意,IEE754规定浮点数的阶码E采用指数”e的移码-1”来表示,请记住这一点。为什么指数移码要减去1,这是IEEE754对阶码的特殊要求,以满足特殊情况,比如对正无穷的表示。
2.浮点数的规格化
若不对浮点数的表示作出明确的规定,同一个浮点数的表示就不是唯一的。例如(1.75)10可以表示成1.11×21,0.111×21,0.0111×22等多种形式。当尾数不为0时,尾数域的最高有效位为1,这称为浮点数的规格化。否则,以修改阶码同时左右移动小数点位置的办法,使其标称规格化数的形式。
2.1单精度浮点数真值
IEEE754标准中,一个规格化32位的浮点数x的真值表示为:
x=(−1)S×(1.M)×2e
e=E−127
其中尾数域表示的值是1.M。因为规格化的浮点数的尾数域最左位总是1,故这一位不予存储,而认为隐藏在小数点的左边。
在计算指数e时,对阶码E的计算采用源码的计算方式,因此32位浮点数的8bits的阶码E的取值范围是0到255。其中当E为全0或者全1时,是IEEE754规定的特殊情况,下文会另外说明。
2.1双精度浮点数真值
64位的浮点数中符号为1位,阶码域为11位,尾数域为52位,指数偏移值是1023。因此规格化的64位浮点数x的真值是:
x=(−1)S×(1.M)×2e
e=E−1023
3.移码
移码(又叫增码)是对真值的补码的符号位取反,就可得到移码,一般用做浮点数的阶码,引入的目的是为了便于浮点数运算时的对阶操作。
对于定点整数&#