浮点数比较

浮点数据在内存中表示是有误差的,所以一般不直接进行比较。

用10进制小数不能精确表示某些三进制小数0.1(3)=0.33333333333……(10)
同理,用二进制小数也不能精确表示某些10进制小数。


float类型

  1. if(x<0.000001&&x>-0.000001)  


前一段时间读了一下林锐博士的《高质量 C/C++ 编程指南》,其中有一个比较经典的问题。请写出 float x 与“零值”比较的 if 语句? 

当时只知道不能直接用 float 类型的值与 0 进行“ == ”或“ != ”比较,但不知道该具体怎么写这个 if 语句。看过答案才知道,应该设法转化成“ >= ”或“ <= ”,即: 

const float EPSINON = 0.00001; 

if((x >= - EPSINON) && (x <= EPSINON)) 

看了答案后觉得很有道理,然后就记了答案,算是取得了“真经”了。 

  

最近,我和项目组同事讨论问题的时候,正好涉及到这个问题。我马上想到自己的“真经”,炫耀地说出了标准答案,可同事问了句为什么,为什么是 0.00001 ?我马上哑炮了。终于体会那句话,凡事认真追问起来,都不简单。 

  

事情要知其然,还要知其所以然。马上编了个小程序验证了一把。 

#include<stdio.h> 

int main() 

{ 

float f = 1.0; 

float f1 = f/3;// f1 = 1/3 

float f2 = f1*3;     // f2 = 1; 

float f_result = f1 - f2/3;  // f_result = 0 ??? 

if(0.0f == f_result) 

printf("f_result == 0/n"); 

else 

printf("f_result != 0/n"); 

return 0; 

} 

  

通过上述程序,可以明确得到答案,但具体为什么如此,还需要从 C 语言中 float 类型变量的编码格式说起。 

  

浮点数表示形如 V=x * 2^y 的有理数进行编码, IEEE 标准 754 仔细制定了浮点数及其运算的标准。 

  

十进制的 12.34 可以这样表示: 1*10^1 + 2*10^0 + 3*10^-1 + 4*10^-2 。同样地,二进制的 101.11 可以这样表示: 1*2^2 + 1*2^0 + 1*2^-1 +1*2^-2 。注意而今之中形如 0.111…1 正好是小于 1 的数。假定只用有限长度的编码,那么十进制是不能准确表示想 1/3  5/7 这样的数的,类似的,小数的二进制表示法只能表示那些能够被写成 x * 2^y 的数,其他的只能用近似数来表示。 

  

IEEE 浮点标准用 V=(-1)^s * M * 2^E 的形式来表示一个数: 

 1 )符号( sign  s 决定数是负数( s=1 )还是正数( s=0 ),而对 0 的符号位作为特殊情况处理。 

 2 )有效数( significant  M 是一个二进制小数。 

 3 )指数( exponent  E  2 的幂(可能是负数),他的作用是对浮点数的加权。 

一个浮点数的位表示按上述情形划分为 3 个域。 

  

标准 C 语言中,单精度 float 浮点格式的符号位 =1 ,有效位 =23 指数位=8 ,产生一个 32 位的表示。双精度 double 浮点格式的符号位 =1 ,有效位 =52 指数位 =11 ,产生一个 64 位的表示。 

  

根据指数位的值,被编码的值可以分为三种不同的情况,即,规格化值、非规格化值、特殊数值。当指数的为不全为 0 且不全为 1 时,属于规格化值;当指数位全为 0 时,属于非规格化值;当指数位全为 1 时,属于特殊数值。下面主要了解一下后两者情况。 

  

非规格化值有两个目的。首先提供了一种表示数值 0 的方法当小数位也全为 0 时,可以根据符号位的不同表示 +0.0  -0.0 。另外一个功能是用来表示那些非常接近 0.0 的数,使用逐渐下溢出( gradual underflow )的方法实现这个属性。特殊数值当指数位全为 1 ,而小数位全为 0 时,可以表示正无穷大和负无穷大。当小数位为非零时,结果值被称为 NaN  

  

因为表示方法限制了浮点数的范围和精度,所以浮点运算只能近似地表示实数运算。系统需要使用“最接近”匹配值的值保存浮点值,这就是舍入( rounding )运算的任务。 IEEE 规定了四种舍入方式,默认的方式是向偶数舍入,也叫向最接近的值舍入。 

浮点数的表示是不精确的,不能直接比较两个数是否完全相等,一般都是在允许的某个范围内认为像个浮点数相等,如有两个浮点数a,b,允许的误差范围为1e-6,则abs(a-b)<=1e-6即可认为ab相等。还有一种方法就是扩大再取整,比如a=5.23,b=5.23,直接比较 a==b一般为false,但是ab都扩大一百倍,然后强制转换为int类型,再用==比较就可以了

 

float型变量和零值比较的方法:

const float EPSINON = 0.000001;

if ((x >= - EPSINON) && (x <= EPSINON))

浮点型变量并不精确,其中EPSINON是允许的误差(即精度),所以不可将float变量用“==”“!=”与数字比较,应该设法转化成“>=”“<=”形式。如果写成if x == 0.0),则是错误的。

因为1.0在计算机中可能存为0.9999991.00001等,很难恰好是1.0

 

 

 

1. 范围
  float和double的范围是由指数的位数来决定的。
  float的指数位有8位,而double的指数位有11位,分布如下:
  float:
  1bit(符号位) 8bits(指数位) 23bits(尾数位)
  double:
  1bit(符号位) 11bits(指数位) 52bits(尾数位)
  于是,float的指数范围为-127~+128,而double的指数范围为-1023~+1024,并且指数位是按补码的形式来划分的。
  其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。
  float的范围为-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38;double的范围为-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。

2.  精度
  float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的,其整数部分始终是一个隐含着的“1”,由于它是不变的,故不能对精度造成影响。
  float:2^23 = 8388608,一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字;
  double:2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值