浮点数的各种最值推算以及对python sys.float_info的解释

目录

最大和最小的正规约数取值

最小和最大的正非规约数取值

浮点数能在该范围内精确表示的最大十进制整数

大于1的最小规约数和1之间的距离epsilon

对python sys.float_info的解释


       本文将以64位浮点数为例,对64位浮点数的取值范围进行推算,并通过python的sys.float_info的信息,对其逐一解释,以对浮点数有一个更好的理解。本文需要笔者的这篇文章作为预备知识。

最大和最小的正规约数取值

       对于64位整数来说,由于规约数的移码后的指数取值范围为(1~2046)-1023=(-1022~1023),所以移码后的指数最小值为-1022,最大值为1023,对应着最小正规约数和最大正规约数的指数取值情形;对于尾数来说,自然就是当尾数小数部分全部为0和全部为1时,分别取到最小值和最大值,因此根据分析,我们可以通过如下代码进行二进制到十进制的最小最大值的推算。

s = '1'*53+'0'*(1023-52)
f_max = float(int(s,2))
[out]:
1.7976931348623157e+308

f_min = float(1/int('1'*1022,2))
[out]:
2.2250738585072014e-308

 

如上代码所示,最大规约数的二进制表示就是隐藏的首位1加52位尾数的1=53个1,然后剩下1023-52位的0,最后通过int函数将该二进制数转为十进制,就可以得到十进制的最大的规约数。同理,对于最小正规约数,就是当尾数全部为0,首位为1,指数为-1022时的二进制数,同样经过int函数转为十进制数,得到十进制的最小正规约数。

最小和最大的正非规约数取值

       根据非规约数的定义,即指数为0,尾数小数不全为0的数,这时首位的隐藏为也变成了0,不再是1,而且移码后的指数保持-1022不变。所以,最小的非规约数就是当尾数的小数部分最后一位为1,其他位全部为0的时候;由于这时移码后的指数依然为-1022,所以可由如下代码推算得到。同理,最大的非规约数就是当尾数首位隐藏位为0,其他52位小数全部为1时的数,注意这时的指数为-1022。如下所示。

f_subnormal_min = float(1/(2**(1022+52)))
f_subnormal_min
[out]:
5e-324

f_subnormal_max = float(int('1'*52,2)/(2**(1022+52)))
f_subnormal_max
[out]:
2.225073858507201e-308

f_min - f_subnormal_max #注意f_subnormal_min + f_subnormal_max刚好等于f_min
[out]:
5e-324

浮点数能在该范围内精确表示的最大十进制整数

       由于64位浮点数的尾数只有53位(52位加上一位隐藏位),所以如果某个十进制整数转为64位浮点数后,其二进制的位数超过了53位,那么这个整数的精度就会丢失,所以知道浮点数可以精确表示最大的十进制整数是很重要的,可以避免因为精度问题造成数据的错误。自然地,该十进制整数只需要通过53位全为1的二进制数反推回去就可以得到,如下所示。

max_int = int('1'*53,2)
print(max_int)
[out]:
9007199254740991 #该数就是64位浮点数可以精确表示的最大十进制整数

       所以,只要一个整数小于等于这个数,那么一定可以保证,当一个整数转为64位浮点数时,该整数还是原来那个数,精度不会丢失,但是如果大于这个数,那么精度就无法保证了。

大于1的最小规约数和1之间的距离epsilon

       这个数很简单,即第52位为1,其他全为0,且移码后的指数为0,注意不要忽略了隐藏的首位1。所以其和1之间的就是二进制下的0.000....0001,其中小数点后面的0共有51个,由此可以计算得到其和1之间的差epsilon,如下所示。

epsilon = float(1/int('1'*52,2))
print(epsilon)
[out]:
2.2204460492503136e-16

对python sys.float_info的解释

print(sys.float_info)
[out]:
sys.float_info(max=1.7976931348623157e+308, max_exp=1024, max_10_exp=308, min=2.2250738585072014e-308, min_exp=-1021, min_10_exp=-307, dig=15, mant_dig=53, epsilon=2.220446049250313e-16, radix=2, rounds=1)

       其中max表示的就是最大的规约数,上面已经进行了推算;radix表示的是在电脑中储存的基数,即进制数,这里表明的是二进制(很显然);max_exp表示的是使得radix**(e-1)为可表示的有限浮点数最大指数,根据上述,由于移码后的规约数的指数范围为-1022~1023,即最大为1023,所以最大的e自然就是1024;max_10_exp表示的是让10**e为一个可表示的浮点数最大的指数,同样的,根据上面对最大规约数的推导,计算得到的结果为1.7976931348623157e+308,所以max_10_exp自然就是308;min表示最小的正规约数,这个和上面的推导结果也是一致的;min_exp表示的是使得radix**(e-1)为可表示的有限浮点数最小指数,因为移码后的最小指数为-1022(尽管指数为0时,我们设定此时偏移量为1022,所以移码后的指数依然为-1022),因此最小的e为-1021;min_10_exp表示的是让10**e为一个可表示的规约浮点数最小的指数,由于计算得到的最小规约数为2.2250738585072014e-308,所以这时最小的e为-307(要注意不是-308,因为10**(-308)比最小正规约数2.2250738585072014e-308还小,这是不符合要求的,所以应该是-307);dig表示可以保证被精确的转为浮点数的整数的数字个数,因为我们上面计算得到的可以保证被精确的转为浮点数的整数应该小于等于9007199254740991,该数有16位数字,但是大于该数的16位数字的整数是无法被精确的转为浮点数的,所以能够被保证可以精确表示成64位浮点数的整数的最大位数应该为15;mant_dig就是mantissa digits,即尾数位数,由于我们知道尾数的首位1是被隐藏的,所以真正的尾数位数共有52位小数位数加上首位的隐藏1,共有53位;这里的epsilon和我们上面说的epsilon意义一样,就是最小的大于1的浮点数和1之间的差值;radix表示基数,也就是进制数,这里指的是二进制;最后rounds表示的是当一个整数转成浮点数,对无法精确表示的整数的近似模式,这里为1表示的是取里原值最近的浮点表示,如果存在两种不同的表示距离一样近,那么去最后一位(即第52位bit)为0的情形,对rounds的说明可以具体看笔者的下一篇文章

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值