float 最小误差_浮点数float累加误差解决方式总结

最新推荐文章于 2023-11-13 17:32:44 发布

欧明新

最新推荐文章于 2023-11-13 17:32:44 发布

阅读量552

点赞数

文章标签： float 最小误差

本文链接：https://blog.csdn.net/weixin_32998893/article/details/111958155

版权

首先是float累加产生误差的原因，该部分转自：http://blog.csdn.net/zhrh0096/article/details/38589067

1. 浮点数IEEE 754表示方法

要搞清楚float累加为什么会产生误差，必须先大致理解float在机器里怎么存储的，具体的表示参考[1] 和 [2]，这里只介绍一下组成

由上图可知(摘在[2])，浮点数由：符号位 + 指数位 + 尾数部分，三部分组成。由于机器中都是由二进制存储的，那么一个10进制的小数如何表示成二进制。例如: 8.25转成二进制为1000.01, 这是因为 1000.01 = 1*2^3 + 0*2^2 + 0*2^1 + 0*2^0 + 0*2^-1 + 2*2^-2 = 1000.01.

(2)float的有效位数是6-7位，这是为什么呢？因为位数部分只有23位，所以最小的精度为1*2^-23 在10^-6和10^-7之间，接近10^-7,[3]中也有解释

那么为什么float累加会产生误差呢，主要原因在于两个浮点数累加的过程。

2. 两个浮点数相加的过程

两浮点数X，Y进行加减运算时，必须按以下几步执行(可参考 [4] 中插图)：

(1)对阶，使两数的小数点位置对齐，小的阶码向大的阶码看齐。

(2)尾数求和，将对阶后的两尾数按定点加减运算规则求和(差)。

(3)规格化，为增加有效数字的位数，提高运算精度，必须将求和(差)后的尾数规格化。

(4)舍入，为提高精度，要考虑尾数右移时丢失的数值位。

(5)判断结果，即判断结果是否溢出。

关键就在与对阶这一步骤，由于float的有效位数只有7位有效数字，如果一个大数和一个小数相加时，会产生很大的误差，因为尾数得截掉好多位。例如：

123 + 0.00023456 = 1.23*10^2 + 0.000002 * 10^2 = 123.0002

那么此时就会产生0.00003456的误差，如果累加多次，则误差就会进一步加大。

解决方式有几种，但都不是最佳方式，参考：http://bbs.csdn.net/topics/390549664

3.解决方法

方法一

Kahan summation算法

https://en.wikipedia.org/wiki/Kahan_summation_algorithm

function KahanSum(input)

var sum = 0.0

var c = 0.0 // A running compensation for lost low-order bits.

for i = 1 to input.length do

var y = input[i] - c // So far, so good: c is zero.

var t = sum + y // Alas, sum is big, y small, so low-order digits of y are lost.

c = (t - sum) - y // (t - sum) cancels the high-order part of y; subtracting y recovers negative (low part of y)

sum = t // Algebraically, c should always be zero. Beware overly-aggressive optimizing compilers!

next i // Next time around, the lost low part will be added to y in a fresh attempt.

return sum

伪代码如上

解决方法就是把多余的误差部分算出来(c)，再在下一次循环减去这个误差

方法二

int main()

{

float f = 0.1;

float sum = 0;

sum+=add(f,4000000);

cout<

return 0;

}

float add(float f,int count)

{

if(count==1)

return f;

else

return add(f,count/2)+add(f,count-count/2);

}

二分法递归计算加法，这样会没有误差，但是函数调用消耗大(尤其是多次)

方法三

使用double，精度更高，但是本来是没有必要用这么高精度的

方法四

ieee浮点数,为了规格化,精度每超过2的整数次幂,精度要下降一位,

你的f是0.1,float位数是23,当sum足够大的时候,会出现 sum+f==sum 的情况,这个是ieee标准,

和C++没关系,事实上编译器应该已经做了浮点精度调整了,你这结果误差算小的了.

避免这种误差的方法就是浮点数,永远不要让一个很大的数去加上一个很小的数.不知你这段代码的目的是

什么,但如果你改成这样,误差会小很多:

float f = 0.1;

float sum = 0;

for( i=0; i<100; i++)

{

int sumEachBig=0;

for(....k<400....)

{

int sumEachSmall=0;

for(....j<100.....)

sumEachSmall += f;

sumEachBig+=sumEachSmall;

}

sum += sumEachBig;

}

来自manzi11的回答。多次用多次循环，小循环的计算结果加上大循环的运算结果

by wolf96 2017/7/10

欧明新

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
float 最小误差_浮点数float累加误差解决方式总结

首先是float累加产生误差的原因，该部分转自：http://blog.csdn.net/zhrh0096/article/details/385890671.浮点数IEEE 754表示方法要搞清楚float累加为什么会产生误差，必须先大致理解float在机器里怎么存储的，具体的表示参考[1] 和 [2]，这里只介绍一下组成由上图可知(摘在[2])，浮点数由：符号位 + 指数位 + 尾数...
复制链接

扫一扫