C++ 浮点数的存储结构

最新推荐文章于 2024-06-03 05:30:00 发布

稚枭天卓

最新推荐文章于 2024-06-03 05:30:00 发布

阅读量1.2k

点赞数

分类专栏： C++/C 语法技巧文章标签：浮点数存储结构 C++ C 比较大小

本文链接：https://blog.csdn.net/u013630349/article/details/48163187

版权

C++/C 语法技巧专栏收录该内容

66 篇文章 7 订阅

订阅专栏

浮点数存储结构

IEEE的标准，浮点数的定义如下

	符号位	指数位	小数部分	指数偏移量
单精度浮点数	1 位[31]	8位 [30-23]	23位 [22-00]	127
双精度浮点数	1 位[63]	11 位[62-52]	52 位[51-00]	1023

我们以单精度浮点数来说明：

符号位，表述浮点数的正或者负

指数实际也有正负的，但是没有单独的符号位，而是采用了一个偏移来表示

在计算机的世界里，进位都是二进制的，指数表示的也是2的N次幂

这个数据格式当中的，指数是8位，可表达的范围是0到255，而对应的实际的指数是－127到＋128。这里特殊说明，－127和＋128这两个数据在IEEE当中是保留的用作多种用途的。－127表示的数字是0，128和其他位数组合表示多种意义，最典型的就是NAN状态。

小数部分，并不是一个浮点数的实际的小数。实际的小数在这个小数前面还保留了一个1。拿浮点数1.0来说，符号位是0，实际指数是0，对应这里的指数就是127了，也就是0x7f。而小数部分就是1.0了， 1是暗含的不存储，实际的小数部分就是0了。因此组合起来的数据就是，0x3f80000 。

可以用一个类来表示：
class FloatType
{
public:
      union {
         DWORD m_dwInt;
         float          m_fFloat;
       struct {

int m_nFra: 23;

int m_nExp : 8;

bool m_bSign : 1;

};
};

两个浮点数大小比较的源码实现：

#include<iostream>
#include<stdio.h>
int main()
{
float f1 = 1.23; 
float f2 = 1.24;
std::cout<<((int&)f1 > (int&)f2)<<std::endl;
std::cout<<(int&)f1 <<std::endl;
std::cout<<(int&)f2 <<std::endl;
std::cout<<(int)f1 <<std::endl;
std::cout<<(int)f2 <<std::endl;
std::cout<<((int&)f1 - (int&)f2)<<std::endl;

return 0;
}

4.2.2 代码输出

0
1067282596
1067366482
1
1

-83886

4.3 原理阐释

对于两个正的浮点数，他们的大小比较就可以用 (int&)f1 - (int&)f2 来进行比较了。差值的结果实际上就应该是相对误差了，这个相对误差，不等同于普遍意义上的相对误差，它所表达的是，两个浮点数之间可能还有多少个可以精确表达的浮点数。这样通过指定这个阈值来控制两个浮点数的比较就更有效了。

对于两个正的浮点数
bool IsEqual(float f1, float f2, int absDelta)
{
if ( abs ( (int&)f1 - (int&)f2 ) < absDelta ) return true;
}

这里用abs而不是fabs这在asm上面的运算差距也是很大的了

对于两个负数进行比较的情况也是相同的。只不过负数内存对应的整数加1，相应的找到的是更小的负数而已

但是负数和整数之间现在还不能进行直接的比较，因为根据IEEE的内存结构，正数和负数是不同的，对应的整数不能连续。
正的最小的数就是0了，对应的整数也是0x00000000
负的最小的数就是－0，对应的整数则是0x 80000000

不用奇怪－0。在IEEE的表达当中是有两个0的，一个是 +0 一个是-0，有趣的是，按照 f1 == f2 的判断 +0和-0是相等的。

通过对比我们可以发现， +0 和正的浮点数可以按照转换成为整数的方式直接进行比较，-0 和负的浮点数可以按照转换成为整数的方式直接进行比较。如果我们能够把他们连接起来，整个整数方式的直接比较就完备了。

对比一下负数的结构，可以找到一个简单的办法了：
把负数内存对应的整数减去 -0 ，他们就连续了
而且更好的结果是，所有的负数经过这次减法后，对应的整数也都是负数了
这样整个整数比较就变得连续了，而且在整个浮点数范围内都是有效的了

最后的比较算法就是：

// 函数: bool IsEqual(float f1, float f2, int absDelta)
// 功能：把比较两个浮点数是否近似相同
// 输入：f1, f2参与比较的两个浮点数
// absDelta 两个浮点数之间允许有多少个其他可以精确表达的浮点数存在，相当于相对误差
// 输出: true，两个浮点数进行相等； false 两个浮点数不等
// 注意：仅仅适合IEEE 32位浮点数结构

bool IsEqual(float f1, float f2, int absDelta)
{
int i1, i2;
i1 = ( f1>0) ? ((int&)f1) : ( (int&) f1 - 0x80000000 );
i2 = (f2>0) ? ((int&)f2) : ( (int&) f2 - 0x80000000 );
return ((abs(i1-i2))<absDelta) ? true : false;
}

稚枭天卓

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
C++ 浮点数的存储结构

浮点数存储结构IEEE的标准，浮点数的定义如下符号位指数位小数部分指数偏移量单精度浮点数1 位[31]8位 [30-23]23位 [22-00]127双精度浮点数1 位[63]11 位[62-52]52 位[51-00]1023我们以单精度浮点数来说明：符号位，表述
复制链接

扫一扫