3.14 + 1e10 - 1e10 = 0 ? ——浮点数的本质

最新推荐文章于 2024-07-11 22:58:04 发布

王行知

最新推荐文章于 2024-07-11 22:58:04 发布

阅读量1k

点赞数 22

分类专栏： Programming 文章标签：学习笔记网络

本文链接：https://blog.csdn.net/qq_44151291/article/details/135890128

版权

Programming 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

3.14 + 1e10 - 1e10 = 0 ? ——浮点数的本质

我们先看这样一个例子：

#include <iostream>

int main(int argc, char **argv)
{   
    
    float a = 3.14;
    float b = 1e10;

    std::cout <<  a << "   " <<  b << std::endl;
    std::cout <<  (a+b)-b << std::endl;
    std::cout <<  a+(b-b) << std::endl;

	return 0;
}

这个程序的输出是：

我们可以看到 (a+b)-b 得到了0，这个结果是有些匪夷所思的。为了解答这个问题，我们需要理解浮点数在计算机中的表示方法。

浮点数的表示——IEEE754

IEEE浮点标准使用 $(-1)^s \times M \times 2^E$ 来表示一个数，其中 $s$ 是一个符号位，取0或者1，用来确定实数的符号， $M$ 是尾数， $E$ 是阶码，通常用移码表示。

对于单精度浮点数，符号位为1位，阶码为8位，尾数为23位。对于双精度浮点数，符号位为1位，阶码为11位，尾数为52位。

举个例子，对于一个实数0.675，其二进制表示为0.101，我们可以看做 $（-1）^0 \times 1.01 \times 2^{-1}$ ，因此阶码 $E$ 的移码表示是10000000，对于尾数，暗含一个1，因此对于尾数的表示是01000000000000000000000，空余位补0，综上可以得到0.625的单精度浮点数表示：