浮点数 分为三部分表示,一是符号sign,用s表示,二是指数e,三是底数m。
对于一个32bit的数字,
第31位代表s位,第30-23位代表e,后面第22-0位代表m。
×××× ×××× ×
××× ×××× ×××× ×××× ×××× ××××
IEEE754的规定如下:
int e = ((bits >> 23 ) & 0xff );
int m = (e == 0 ) ?
(bits & 0x7fffff ) << 1 :
(bits & 0x7fffff ) | 0x800000 ;
我将其用我的语言表达一下:
int s=第31位为0?正数:负数;
int e=第30 - 23位数字表达成十进制数- 127 ( 单精度(float)型的幂用加上127后用8位二进制数表示 );
float m=(e! = 0 )?( 1 + (第22 - 第0位的二进制数表达为十进制数× 2 ^ ( - 23 )):
(第22 - 第0位的二进制数表达为十进制数× 2 ^ ( - 23 )<<1):
问题1:当e!=0时,为什么要在m前面+1呢?实际上就是后23位前加入了“1.”,为了使得不同的二进制序列表达不同的意思,充分利用各个数字。则我们可能认为在后23位前加入了“0.”。
如果不加1,则0 000 0001 0 001 0000 0000 0000 0000 0000 表示(2^ -3)×2^2×2^(-127);
和0 000 0001 1 010 0000 0000 0000 0000 0000 :(2^ -2)×2^3 ×2^(-127);表达同一个数字,
两个编码表达同一个数字,这就是浪费,为了避免浪费,就在前面+1,这样
0 000 0001 0 001 0000 0000 0000 0000 0000 表示(1+2^ -3)×2^2×2^(-127);;
和0 000 0001 1 010 0000 0000 0000 0000 0000 表示(1+2^ -2)×2^3×2^(-127);
于是,这两个编码所表达的数字就不一样了。
问题二:当e=0时,为什么前面不加“1.”了呢?如果前面还+1,那最小的正数就变成
0 000 0000 0 000 0000 0000 0000 0000 0000:为1×2^(-127);感觉精度还不够精细,
另外,那样的话,0就没法表示了。所以,这个时候前面不加“1.”而加“0.”
问题三:当e=0时,前面加“0.”,这时计算m的时候为什么要左移一位呢?
这个个人认为是数字表达的连续,如果不左移一位,那我们在
0000 0000 0111 1111 1111 1111 1111 1111 不左移的话,表示为0.111……(23个1)×2^(-127)
0000 0000 1000 0000 0000 0000 0000 0000 表达数字1×2^1×2^(-127)之间有缺口,处于这两个浮点数之间的浮点数无法用二进制编码表示。为了填补这个缺口,我们宁可牺牲点精度。于是按照IEEE754约定
0000 0000 0111 1111 1111 1111 1111 1111 表达浮点数1.111……(22个1,最后一个编码为0)×2^(127);
与1×2^1×2^(-127)之间的差为2^(-23)×2^1×2^(-127),这个就是浮点数的精度
2×2^(-150),也是能表达的最小的浮点数:0000 0000 0000 0000 0000 0000 0000 0001。
于是,按照IEEE754那样表达浮点数,从理论上来说相对比较完善了。
希望大家看完之后,能受到点启发,加深对浮点数表示的理解。IEEE754是一个标准,制定标准的人自然考虑比较周全,他们那么表示自然有他们的理由,希望我的理解对了。