计算误差的真相：为什么 float 加法会出现精度损失？

Lion Long

已于 2024-07-20 23:20:16 修改

阅读量1.5k

点赞数 2

分类专栏： C/C++技术干货文章标签： c++ 开发语言 float 数据结构算法 linux c语言

于 2023-06-26 21:20:48 首次发布

本文链接：https://blog.csdn.net/Long_xu/article/details/131405612

版权

C/C++技术干货专栏收录该内容

107 篇文章 37 订阅

订阅专栏

文章详细介绍了float类型的特点，包括其精度限制，以及浮点数在计算机中二进制存储方式和运算中可能出现的舍入误差。通过实例展示了float相加时的精度损失，并提出了减少这种损失的方法，如使用double类型或特定算法。

摘要由CSDN通过智能技术生成

float相加产生精度损失的原因

一、什么是float类型及其特点
- 1.1、float类型的定义和使用方法
- 1.2、float类型的特点，包括精度限制
二、为什么会出现 float 相加精度损失
三、如何减少float相加精度损失
四、实例说明
- 4.1、实验数据对比展示float相加精度损失
- 4.2、减少float相加精度损失的方法的示例
五、总结

一、什么是float类型及其特点

1.1、float类型的定义和使用方法

float（浮点数）是一种在计算机编程中常用的数据类型，它用于表示带小数点的数字。在大多数编程语言中，float类型通常使用32位来表示，也被称为“单精度浮点数”或“单精度实数”。它可以表示的数值范围比整数类型要大得多，并且可以存储小数位数较多的数值。在C++、Java等语言中，float类型的定义通常如下：

C/C++：

float num = 3.14;

Java：

float num = 3.14f;

需要注意的是，在Java中赋值给float类型的数值后面必须加上字母“f”，否则会被默认为double类型。

在这里插入图片描述

其使用方法如下：

（1）声明float类型的变量：用float关键字声明一个变量，并为其赋值。例如：

float num = 3.14;

（2）进行运算：可以对float类型的变量进行数学运算，包括加、减、乘、除等。例如：

float result = num + 2.5;

（3）输出float类型的变量：可以使用printf或者cout函数来输出float类型的变量。例如：

printf("%.2f", num);

或

cout << num << endl;

需要注意的是，由于float类型只有32位，所以它的精度有限。在进行高精度计算时，建议使用double类型。

1.2、float类型的特点，包括精度限制

float类型是一种浮点数类型，用于表示带有小数的数字。它的特点是：

精度有限：float类型在内存中存储时只能精确表示一定范围内的数字，超出这个范围的数字会被舍入成最接近的可表示数字。这个范围通常是-3.4028235E+38到3.4028235E+38之间。
单精度：float类型只能表示单精度浮点数，即32位（4字节）的浮点数。
运算速度快：由于占用空间少，所以float类型的运算速度比较快。
可用科学计数法表示：由于float类型的精度有限，因此可以使用科学计数法来表示超过范围的数字。

float类型是一种精度有限但可以快速运算的浮点数类型。在处理较大或较小的数字时，需要注意其精度限制。

二、为什么会出现 float 相加精度损失

浮点数在计算机内部是以二进制表示的，但是很多十进制小数无法完全用二进制精确表示，因此在进行浮点数的加减乘除等运算时，可能会出现一定程度的精度损失。这是由于计算机只能使用有限的位数来表示数字，而且在计算过程中会发生舍入误差。如果参与运算的两个浮点数的小数位数比较多或者差异较大，那么可能会导致精度损失更大。

2.1、计算机二进制存储浮点数的方式

计算机通常使用IEEE 754标准来存储浮点数。在该标准中，一个浮点数由三部分组成：符号位、指数和尾数。

首先，第一位用于表示符号位（0表示正数，1表示负数），接下来的几位表示指数，最后的几位表示尾数。

具体来说，IEEE 754标准定义了两种浮点数格式：单精度浮点数和双精度浮点数。

单精度浮点数占用32位，其中1位表示符号位，8位表示指数，23位表示尾数。双精度浮点数占用64位，其中1位表示符号位，11位表示指数，52位表示尾数。

为了提高精度，IEEE 754标准还定义了一些额外的特殊值，包括正无穷大、负无穷大、NaN等。这些特殊值可以帮助计算机处理极端情况，并提高浮点数运算的安全性和可靠性。
在这里插入图片描述

2.2、浮点数运算中的舍入误差

浮点数运算中的舍入误差是指在进行浮点数计算时，由于数字的精度有限，导致计算得到的结果与实际结果存在一定误差。这种误差通常是由于计算机无法表示某些十进制小数或无理数的精确值而产生的。

例如，对于以下两个浮点数：0.1 和 0.2，将它们相加，得到的结果应该是0.3，但实际上计算机可能会返回一个略微不同的结果，如0.30000000000000004。这是因为计算机无法完全表示0.1和0.2的精确值，因此在计算时会存在一定的误差。

类似地，当进行多次浮点数运算时，每次运算都可能会使误差累积，从而导致最终结果与实际结果之间的误差变得更大。因此，程序员在进行浮点数计算时需要特别注意处理舍入误差的问题，以免影响程序的正确性和稳定性。

2.3、累加多个小数时的误差累积

在计算机中，浮点数的精度是有限的，因此在进行多个小数的累加时，会出现误差累积的问题。这是因为每次累加都会产生一些舍入误差，而这些误差会随着累加次数的增加而逐渐累积。

假设要计算一系列小数的和，例如0.1、0.2、0.3、0.4、0.5等等。如果使用单精度浮点数进行累加，那么最终得到的结果可能会与预期结果存在较大的误差。例如，在累加前四个数时，得到的结果可能为0.9999999999999999，而不是1.0。这是因为每次累加都会产生一些舍入误差，导致结果与实际值之间存在一定的误差。

为了避免误差累积的问题，可以使用高精度的数值类型或者采用一些特殊的算法来处理。例如，可以使用BigDecimal类来处理小数的加法运算，该类提供了高精度的计算功能，可以保证结果的精度和准确性。同时，在实际应用中，还需要合理设计算法，尽量减少累加次数，以降低误差累积的风险。

三、如何减少float相加精度损失

在进行浮点数相加时，精度损失是不可避免的，但可以通过一些方法来尽可能地减少精度损失。

尽量避免使用float类型进行累加操作。
将相近的数值合并。例如，在计算0.1 + 0.2 + 0.3时，可以先将0.1和0.2相加得到0.3，再加上0.3，这样可以减少误差的累计。
使用double类型或者BigDecimal类型进行数值计算。double类型具有更高的精度，可以减少精度损失；使用BigDecimal类型可以获得更高的精度和更好的控制。
按照从小到大的顺序进行相加。这样可以保证较小的数字先被相加，减少误差的传递。
避免多次重复相加相减。如果需要对同一组数进行多次相加或相减运算，可以先将它们全部相加或相减，然后再进行其它计算，以减少误差的产生。
对于需要高精度计算的场景，采用相关算法优化。

四、实例说明

4.1、实验数据对比展示float相加精度损失

由于浮点数的精度有限，相加时可能会出现精度损失。示例：

a = 0.1
b = 0.2
c = a + b

print(c)

期望输出结果为0.3，但实际结果为：

0.30000000000000004

这是由于0.1和0.2在内存中以二进制表示时，无法完全精确地表示。因此，在计算机内部，它们实际上被存储为最接近的二进制分数。当它们相加时，结果也被存储为最接近的二进制分数。

以下是进行多次浮点数相加的结果对比：

# 测试数据
a = 0.1
b = 0.2
c = 0.3

# 相加100次
sum_1 = sum_2 = sum_3 = 0
for i in range(100):
    sum_1 += a
    sum_2 += b
    sum_3 += c

# 输出结果
print("sum_1: ", sum_1)
print("sum_2: ", sum_2)
print("sum_3: ", sum_3)

输出结果为：

sum_1:  9.99999999999998
sum_2:  19.999999999999986
sum_3:  30.000000000000004

可以看到，进行多次浮点数相加后，结果出现了精度损失，与期望值有一定的偏差。这也说明了在进行浮点数计算时需要注意精度损失的问题。

4.2、减少float相加精度损失的方法的示例

使用double类型来减少float相加精度损失的影响：

#include <iostream>
using namespace std;

int main() {
    float a = 3.14159265358979;
    float b = 0.00000000000001;
    
    double c = 3.14159265358979;
    double d = 0.00000000000001;
    
    float sum1 = a + b;
    double sum2 = c + d;
    
    cout << "Sum1: " << sum1 << endl; // 输出：Sum1: 3.14159
    cout << "Sum2: " << sum2 << endl; // 输出：Sum2: 3.1415926535998
    return 0;
}

从上面的代码可以看出，当使用float类型进行相加运算时，得到的结果只保留了小数点后5位，而使用double类型进行相加运算时，得到的结果保留了小数点后13位，这是因为double类型具有更高的精度所导致的。

因此，在实际开发中，如果需要进行浮点数计算并且要求高精度的结果，建议使用double类型来代替float类型。

五、总结

float类型虽然有精度限制，但在某些场景下仍具有有效性。例如，在计算机图形学中，使用浮点数可以表示3D空间中的坐标和向量。在科学计算、金融分析等领域中，也常常需要对小数进行精确计算，此时使用高精度的浮点数类型也是很有用的。另外，浮点数还可以用于近似计算，例如在机器学习中，通常使用浮点数来表示神经网络的权重和偏置，通过迭代优化这些参数，可以让模型逼近最优解。因此，在实际应用中，浮点数依然是一种非常重要的数据类型。
减少float相加精度损失的方法可以提高计算结果的准确性。
在实际工作中要根据具体情况选择合适的数值计算方法。

在这里插入图片描述

Lion Long

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
1
评论
计算误差的真相：为什么 float 加法会出现精度损失？

float（浮点数）是一种在计算机编程中常用的数据类型，它用于表示带小数点的数字。在大多数编程语言中，float类型通常使用32位来表示，也被称为“单精度浮点数”或“单精度实数”。它可以表示的数值范围比整数类型要大得多，并且可以存储小数位数较多的数值。在C++、Java等语言中，float类型的定义通常如下：需要注意的是，在Java中赋值给float类型的数值后面必须加上字母“f”，否则会被默认为double类型。
复制链接

扫一扫