一.浮点数与IEEE 754
浮点数可以表示成:
[-](-1)S(d0.d1d2…)bE
浮点数的二进制格式由两部分组成。一是尾数部分,就是上式中的[-](-1)S(d0.d1d2…),其次是指数部分,就是上式中的bE。
[-]表示这个负号是可选的。早期的机器数,符号位S用1表示正数,0表示负数。要加上这个负号。后来发现,如果反过来,以0表示正数,计算会方便得多。现在的机器都是这样,就没有这个负号。
浮点数与科学记数法相似,同样大小的一个数,可以有无数种表示(尾数小一点指数大一点,或相反)。这会造成精度损失。譬如,1011101110111011×22有16位精度,可是如果把它表示成0000000000000001×217,就只有1位精度了。为此,定义了一种归一化小数,使尾数的绝对值符合归一化规范。常见的归一化小数有两种:
0.1d1d2…
1.d1d2…dp
IEEE 754采用第二种。由于其整数恒为1,就不为它安排存储位了。
尾数归一化后,每个浮点数的表示就是唯一了。
为了解决负数问题,尾数可以采取原码、反码、补码三种编码之一。
对于现在的大多数CPU来说,指数部分的底都是2。以前也有10和16(IBM S/370就是16)。
显然,为了使浮点数能以给定的精度表示给定范围内的任意值,各段(同一指数为一段)之间既不脱节也不重叠,尾数绝对值的最大值与最小值之比应等于指数的底。譬如,若底是2,则尾数在[1, 2]区间能满足上述要求。
指数E一般是整数。现在多采用移码来解决负数问题。所谓移码,就是加上一个数,使范围移至全正数区域。譬如,指数为-128~127,全部加128,变成移码就是0-255。
下面以IEEE 754为例,说明浮点数的一些基础知识。
原始的IEEE 754定义了两种浮点数:single和double。下面以single(相当于C里的float)为例,说明该标准的格式(括号内的是double的属性)。
32(64)位长。b31 (b63)是尾数的符号位,0为正。b30~b23 (b62~b52)是表示指数的移码。加权值是127