实现位数超过32bit的整数的加减乘除运算_简单加减运算为何还会出bug？

最新推荐文章于 2024-05-01 02:02:01 发布

weixin_39709674

最新推荐文章于 2024-05-01 02:02:01 发布

阅读量211

点赞数

文章标签：实现位数超过32bit的整数的加减乘除运算

本文链接：https://blog.csdn.net/weixin_39709674/article/details/111384191

版权

最近输入法有用户反馈一个bug：v模式中数学运算结果不准确，7250.11-7249.68无法得到正确结果0.43

为了分析bug的由来，小编调研了浮点数在计算机中的存储和运算过程，接下来为大家分享7250.11-7249.68详细运算处理过程，解析结果0.429999999999的由来。

浮点数的存储

浮点数，顾名思义就是小数点位置可以浮动的数据，科学的规定浮点数常用公示表示：

其中N为浮点数，M为尾数，E为阶码(指数)，R为阶的基数(计算机中R一般为2)。

类比十进制的科学计数法：12300 = 1.23 * 10^4，10为基数，4为指数，二进制中1.25 = 1.01 * 2^0，2为基数，0为指数，1.01为尾数。

基于以上基础，国际制定了IEEE 754标准规范完整定义了浮点数在计算机底层的存储方式。根据国际标准IEEEE 754，任意一个二进制浮点数N可以如下表示：

(1)S表示符号位，当S=0时，N为正数；当S=1时，N为负数；

(2)M表示尾数(二进制)，值大于等于1且小于2；

(3)E表示指数。

单精度浮点数float类型数值在计算机中使用32bit存储，存储方式如下：

双精度浮点数double类型数值在计算机中使用64bit存储，存储方式如下：

在计算机内部存储尾数M时，M的范围总是[1,2)，默认这个数的第一位总是1，可以被舍去，因此为了最大化利用这个空间，IEEE 754规定尾数部分只保存小数部分，所以float类型的尾数可以表示24位二进制，double类型的尾数可以表示53位二进制数。

根据IEEE 754标准，E指数部分是无符号整型数据，因此float类型E的取值范围为0~255，double类型的E的取值范围为0~2047。另外，在实际小数的二进制表示中，指数部分可能为负数，为了表示负数，IEEE 754规定，计算机中E部分实际存储的值为实际值加上中位值(float类型中位数为127，double类型中位数为1023)。

所以，float类型的数据，E用126表示-1，128表示1；double类型的数据，E用1021表示-2，1025表示2。

以上便是浮点数在计算机底层的存储过程。

浮点数转二进制

如何将一个浮点数转为符合IEEE 754标准的数据？

以float类型数3.22为例：

整数部分3：符号位为0，大小为11

小数部分0.22：

0.22 * 2 = 0.44 (0)

0.44 * 2 = 0.88 (0)

0.88 * 2 = 1.76 (1)

0.76 * 2 = 1.52 (1)

0.52 * 2 = 1.04 (1)