C++ 之浮点数的大小比较

最新推荐文章于 2024-03-02 20:49:31 发布

稚枭天卓

最新推荐文章于 2024-03-02 20:49:31 发布

阅读量1.5w

点赞数 4

分类专栏： C++/C 语法技巧应届面经文章标签： float 浮点数精度比较大小存储结构

本文链接：https://blog.csdn.net/u013630349/article/details/44947307

版权

C++/C 语法技巧同时被 2 个专栏收录

66 篇文章 7 订阅

订阅专栏

应届面经

16 篇文章 0 订阅

订阅专栏

摘要

本文首先将介绍浮点数的存储结构以及 (int&) 操作含义。其次，介绍常规浮点数比较方法。最后本文，将采用 (int&) 转换为整型数据，直接比较转换为的整形数据的大小。

1. 浮点数的存储结构

十进制 1.35

二进制 0 000 0000 0 010 1100 1100 1100 1100 1100

符号位 2的n次幂二进制小数中小数点后23位

符号位，1为负，0为正。

2的n次幂，二进制小数的科学计数法当然是写成：1.01011×2^n，这里就是 n 值。

二进制小数中小数点后 23 位，十进制数换算成二进制数后，表示成科学计数法如上所示，此处就是取点后 23 位数，而小数点前只有一位有效数字，当然就总是1了，比如二进制小数 0.001010 ,表示为二进制科学计数法为 1.010×2^-3 。X86架构下，浮点数 (int&) 操作含义在内存中以低位在前高位在后的方法存储的。

2. (int&) 操作

(int&a) 是与 *((int*)&a) 等价的，意思都是将 &a 这个地址上的 32 位看成 int 型，即使存储在这里的可能不是 int 型数据。

与(int)a 比较，（int ）a 实际上是以浮点数a为参数构造了一个整型数。

(int&)a 则是告诉编译器将a当作整数看（并没有做任何实质上的转换）。

因为，以整数形式存放和以浮点形式存放其内存数据是不一样的，因此两者不等。

3. 常规方法

在数学运算当中经常会涉及到判断两个数是否相等的情况，对于整数很好处理 A==B这样的一个语句就可以解决全部的问题，但是对于浮点数是不同的。

首先，浮点数在计算机当中的二进制表达方式就决定了大多数浮点数都是无法精确的表达。现在的计算机大部分都是数字计算机，不是模拟机，数字机的离散化的数据表示方法自然无法精确表达大部分的数据量的。
其次计算机浮点数的精度在单精度float类型下，只有7位，在进行浮点运算的时候，这个精度往往会导致运算的结果和实际期望的结果之间有误差。因为前两个原因，我们很难用 A==B来判定两个浮点数是否相同。

很自然，我们可以想到 fabs(A-B) < epsilon 这样的一种判别方法
但是这种判别方法稳妥吗？
它也不稳妥。

首先， epsilon是一个绝对的数据，也就是误差分析当中说说的绝对误差。使用一个固定的数值，对于float类型可以表达的整个数域来说是不可以的。比如epsilon取值为0.0001，而a和b的数值大小也是0.0001附近的，那么显然不合适。另外对于a和b大小是10000这样的数据的时候，它也不合适，因为10000和10001也可以认为是相等的呢？适合它的情况只是a或者b在1或者0附近的时候

既然绝对误差不可以，那么自然的我们就会想到了相对误差

bool IsEqual(float a, float b, float relError )
{
return ( fabs ( (a-b)/a ) < relError ) ? true : false;
}

这样写还不完善，因为是拿固定的第一个参数做比较的，那么在调用IsEqual(a, b, relError ) 和 IsEqual(b, a, relError ) 的时候，可能得到不同的结果。同时如果第一个参数是0的话，就有可能是除0溢出。这个可以改造把除数选取为a和b当中绝对数值较大的即可。

bool IsEqual(float a, float b, float relError )
{
if (fabs(a)<fabs(b)) return ( fabs((a-b)/b) < relError ) ? true : false;
else return (fabs( (a-b)/a) < relError ) ? true : false;
}

使用相对误差就很完善吗？
也不是，在某些特殊情况下，相对误差也不能代表全部。比如，在判断空间三点是否共线的时候，使用判断点到另外两个点形成的线段的距离的方法的时候
只用相对误差是不够的，应为线段距离可能很短也可能很长，点到线段的距离以及线段的长度做综合比较的时候，需要相对误差和绝对误差结合的方式才可以。

相对完整的比较算法应该如下（？？？）：
bool IsEqual(float a, float b, float absError, float relError )
{
if (a==b) return true;
if (fabs(a-b)<absError ) return true;
if ( fabs(a)<fabs(b) ) return (fabs((a-b)/b)<relError ) ? true : false;
else return (fabs((a-b)/a)<relError ) ? true : false;
}
这样才相对完整。

4. （int&）操作实现浮点数比较

4.1 回顾浮点数存储结构

IEEE的标准，浮点数的定义如下

	符号位	指数位	小数部分	指数偏移量
单精度浮点数	1 位[31]	8位 [30-23]	23位 [22-00]	127
双精度浮点数	1 位[63]	11 位[62-52]	52 位[51-00]	1023

我们以单精度浮点数来说明：

符号位，表述浮点数的正或者负

指数实际也有正负的，但是没有单独的符号位，而是采用了一个偏移来表示

在计算机的世界里，进位都是二进制的，指数表示的也是2的N次幂

这个数据格式当中的，指数是8位，可表达的范围是0到255，而对应的实际的指数是－127到＋128。这里特殊说明，－127和＋128这两个数据在IEEE当中是保留的用作多种用途的。－127表示的数字是0，128和其他位数组合表示多种意义，最典型的就是NAN状态。

小数部分，并不是一个浮点数的实际的小数。实际的小数在这个小数前面还保留了一个1。拿浮点数1.0来说，符号位是0，实际指数是0，对应这里的指数就是127了，也就是0x7f。而小数部分就是1.0了， 1是暗含的不存储，实际的小数部分就是0了。因此组合起来的数据就是，0x3f80000 。

可以用一个类来表示：

class FloatType 
{
public:
      union {
         DWORD m_dwInt;
         float          m_fFloat;
       struct {  

        int    m_nFra: 23;

          int    m_nExp : 8;

          bool m_bSign : 1;

      };
};

4.2 操作举例

4.2.1 源代码

#include<iostream>
#include<stdio.h>
int main()
{
float f1 = 1.23; 
float f2 = 1.24;
std::cout<<((int&)f1 > (int&)f2)<<std::endl;
std::cout<<(int&)f1 <<std::endl;
std::cout<<(int&)f2 <<std::endl;
std::cout<<(int)f1 <<std::endl;
std::cout<<(int)f2 <<std::endl;
std::cout<<((int&)f1 - (int&)f2)<<std::endl;
return 0;
}

4.2.2 代码输出

0
1067282596
1067366482
1
1

-83886

4.3 原理阐释

对于两个正的浮点数，他们的大小比较就可以用 (int&)f1 - (int&)f2 来进行比较了。差值的结果实际上就应该是相对误差了，这个相对误差，不等同于普遍意义上的相对误差，它所表达的是，两个浮点数之间可能还有多少个可以精确表达的浮点数。这样通过指定这个阈值来控制两个浮点数的比较就更有效了。

对于两个正的浮点数
bool IsEqual(float f1, float f2, int absDelta)
{
if ( abs ( (int&)f1 - (int&)f2 ) < absDelta )

return true;
}

这里用abs而不是fabs这在asm上面的运算差距也是很大的了

对于两个负数进行比较的情况也是相同的。只不过负数内存对应的整数加1，相应的找到的是更小的负数而已。但是负数和整数之间现在还不能进行直接的比较，因为根据IEEE的内存结构，正数和负数是不同的，对应的整数不能连续。
正的最小的数就是0了，对应的整数也是0x 00000000
负的最小的数就是 - 0 ，对应的整数则是0x 80000000
不用奇怪－0。在IEEE的表达当中是有两个0的，一个是 +0 一个是 -0，有趣的是，按照 f1 == f2 的判断 +0 和 -0是相等的。

通过对比我们可以发现， +0 和正的浮点数可以按照转换成为整数的方式直接进行比较，-0 和负的浮点数可以按照转换成为整数的方式直接进行比较。如果我们能够把他们连接起来，整个整数方式的直接比较就完备了。

对比一下负数的结构，可以找到一个简单的办法了：
把负数内存对应的整数减去 -0 ，他们就连续了
而且更好的结果是，所有的负数经过这次减法后，对应的整数也都是负数了。
这样整个整数比较就变得连续了，而且在整个浮点数范围内都是有效的了。
最后的比较算法就是：

// 函数: bool IsEqual(float f1, float f2, int absDelta)
// 功能：把比较两个浮点数是否近似相同
// 输入：f1, f2参与比较的两个浮点数
// absDelta 两个浮点数之间允许有多少个其他可以精确表达的浮点数存在，相当于相对误差
// 输出: true，两个浮点数进行相等； false 两个浮点数不等
// 注意：仅仅适合IEEE 32位浮点数结构

bool IsEqual(float f1, float f2, int absDelta)
{
int i1, i2;
i1 = ( f1>0) ? ((int&)f1) : ( (int&) f1 - 0x80000000 );
i2 = (f2>0) ? ((int&)f2) : ( (int&) f2 - 0x80000000 );
return ((abs(i1-i2))<absDelta) ? true : false;
}