浮点数float累加误差分析与解决

最新推荐文章于 2022-08-01 00:36:46 发布

不抓老鼠的喵

最新推荐文章于 2022-08-01 00:36:46 发布

阅读量2k

点赞数

分类专栏： Android

Android 专栏收录该内容

40 篇文章 0 订阅

订阅专栏

1. 浮点数IEEE 754表示方法

要搞清楚float累加为什么会产生误差，必须先大致理解float在机器里怎么存储的，具体的表示参考[1] 和 [2]，这里只介绍一下组成

由上图可知(摘在[2])，浮点数由：符号位 + 指数位 + 尾数部分，三部分组成。由于机器中都是由二进制存储的，那么一个10进制的小数如何表示成二进制。例如: 8.25转成二进制为1000.01, 这是因为 1000.01 = 1*2^3 + 0*2^2 + 0*2^1 + 0*2^0 + 0*2^-1 + 2*2^-2 = 1000.01.

（2）float的有效位数是6-7位，这是为什么呢？因为位数部分只有23位，所以最小的精度为1*2^-23 在10^-6和10^-7之间，接近10^-7, [3]中也有解释

那么为什么float累加会产生误差呢，主要原因在于两个浮点数累加的过程。
2. 两个浮点数相加的过程

两浮点数X，Y进行加减运算时，必须按以下几步执行（可参考 [4] 中插图）：
（1）对阶，使两数的小数点位置对齐，小的阶码向大的阶码看齐。
（2）尾数求和，将对阶后的两尾数按定点加减运算规则求和(差)。
（3）规格化，为增加有效数字的位数，提高运算精度，必须将求和(差)后的尾数规格化。
（4）舍入，为提高精度，要考虑尾数右移时丢失的数值位。
（5）判断结果，即判断结果是否溢出。

关键就在与对阶这一步骤，由于float的有效位数只有7位有效数字，如果一个大数和一个小数相加时，会产生很大的误差，因为尾数得截掉好多位。例如：

123 + 0.00023456 = 1.23*10^2 + 0.000002 * 10^2 = 123.0002

那么此时就会产生0.00003456的误差，如果累加多次，则误差就会进一步加大。

那么怎么解决这种误差呢？
3. 误差解决的方法

（1）Kahan summation算法，具体解释和实现参考 [5] 和 [6]

（2）使用double类型进行计算，由于double类型的有效数字有15~16位，一般情况下产生误差可以接受。

Reference

[1] IEEE 754: floating point in modern computers

[2] C++中，float double区别

[3] How to Calculate Double + Float Precision

[4] 浮点加减法的运算步骤

[5] Kahan summation algorithm

[6] Kahan Summation
---------------------
作者：JerryRenhao
来源：CSDN
原文：https://blog.csdn.net/zhrh0096/article/details/38589067
版权声明：本文为博主原创文章，转载请附上博文链接！

不抓老鼠的喵

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
浮点数float累加误差分析与解决

1. 浮点数IEEE 754表示方法要搞清楚float累加为什么会产生误差，必须先大致理解float在机器里怎么存储的，具体的表示参考[1] 和 [2]，这里只介绍一下组成由上图可知(摘在[2])，浮点数由：符号位 + 指数位 + 尾数部分，三部分组成。由于机器中都是由二进制存储的，那么一个10进制的小数如何表示成二进制。例如: 8.25转成二进制为1000.01, 这是因为 1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。