计算机原理
为啥float32 和 int32 的乘法出来的结果会不一样呢。。
code:
>>> a = np.array(256849, dtype=np.float32)
>>> b = np.array(127, dtype=np.float32)
>>> a*b
32619824.0
>>> a1 = np.array(256849, dtype=np.int32)
>>> b1 = np.array(127, dtype=np.int32)
>>> a1*b1
32619823
解释:
这里主要的知识点就是:计算机原理中的整数乘法和浮点数乘法, 可以参考https://blog.csdn.net/qq_42192693/article/details/89051707看一下二进制的乘法是如何计算的。
图片来自以上博客
-
二进制乘法计算
256849 * 127 两数按二进制的乘法计算为:32619823,这是正确的结果,其二进制为1111100011011110100101111
-
float32的计算
int32的计算结果为32619823,那为啥float32的结果为32619824.0呢?
32619823的二进制为1111100011011110100101111
,共有25位二进制数,但是float32的尾数位为23位,所以这里超过了23,那怎么处理呢?
参考浮点数表示和运算:
“0舍1入”法。“0舍1入”法类似于十进制中的“四舍五入”法,即在尾数右移时,被移去的末位为0,则舍去;被移去的末位为1,则在尾数的末位加1.但是这样又很有可能导致尾数溢出,因此此时需要做一次右规,例如,011111 末尾加1,就变成0.0000,此时需要右规。
这里只是超过了2位,将其右移时,最后一位为1,所以对其+1处理,得到:1111100011011110100110000
, 这个时候虽然还是25位二进制数,但是用float32的表示方式可以表示为:1.11110001101111010011 * 2 ^ 24,尾数变成了:11110001101111010011
2. doule作证
上面分析的是float32的尾数位不够才造成上面的问题的。那么我用float64理论上结果应该是32619823
才是
code
>>> a1 = np.array(256849, dtype=np.float64)
>>> b1 = np.array(127, dtype=np.float64)
>>> a1*b1
32619823.0
完全符合预期