浮点数表示及其实现.

原创 2006年06月21日 20:54:00

我两年前就知道不应该用==号来判断浮点数的相等了,因为存在一个精度的问题,但是一直以来,都没怎么在乎这些东西,而实际上,我对于浮点数的结构,虽然了解,但并不清晰. 作为一个C++爱好者,应该尽量搞清楚每一个问题,所以我搞清楚了浮点数的内在表示及实现.在没有大问题的情况下,一切以易于理解和记忆为标准.

首先说一下原,反,补,移码. 移码其实就等于补码,只是符号相反. 对于正数而言,原,反,补码都一样, 对负数而言,反码除符号位外,在原码的基础上按位取反,补码则在反码的基础之上,在其最低位上加1,要求移码时,仍然是先求补码,再改符号.

浮点数分为float和double,分别占4,8个字节,即32,64位. 我仅以32位的float为例,并附带说double.

在IEEE754标准中,规定,float的32位这样分:

    符号位(S)

1

阶码(E)

 8

尾数(M)

23

 

 这里应该注意三点:   A,阶码是用移码表示的,这里会有一个127的偏移量,它的127相当于0,小于127时为负,大于127时为正,比如:10000001表示指数为129-127=2,表示真值为2^2,而01111110则表示2^(-1).

                                     B, 尾数全都是小数点后面的数,

                                     C, 但尾数中省略了一个1,因此尾数全为0时,也是1.0...00;

接下来只要说明几个问题就明白了,以123.456为例,表示为二进制就是:N (2) = 1111011. 01110100101111001 ,这里,会右移6位,得到N (2) = 1.111011 01110100101111001*2^6; 这种形式就可以用于上图中的表示格式了.              

 符号位(S) 

          0 

阶码(E)  00000110

尾数(M) 11101101110100101111001

注意到,上面的阶码第一位为0表正,尾数比N(2)表示的第一位少了个1,这就是上面说的默认为第一位为1. 由于在将十进制转为二进制的过程中,常常不能正好转得相等, (当然,像4.0这样的就不会有损失,而1.0/3.0这样的必然损失),所以就产生了浮点数的精度问题, 实际上,小数点后的23位二进制数,能影响的十进制数的前8位,这是为什么呢?一般人在这时往往迷迷胡胡了,其实很简单,在上面表示的尾数中,是二进制的,小数点后有23位,最后一位的值为1时,它就是1/2^22=0.000000238实际取的时候肯定是0.0000002,也就是说,对于一个float型的浮点数,其有效的位数是从左到右数7位(包括缺省的1才是7位),当到达上面这个第8位时,就不可靠了,但我们的VC6可以输出最长的1.0/3.0为0.33333333333333331,这主要是编译器的问题了, 而并不是说浮点数小数点后的16位都有效. 如果不信的话,可以去试一下double类型的1.0/3.0, 得到的也将是小数点后17位.                                                                                                  ..另外,编译器或电路板一般都有"去噪声"的"修正"能力,它能够使得超过7位的十进制数即使无效了也不会变得离谱,这也是上面为什么一直都是输出333而不是345之类的,. 可以这样试一下:

float f=123456789;
 cout<<f<<endl;//这里肯定得到123456789.

这里有一个被人遗忘的问题,就是10进制小数怎么变为2进制小数,其实很简单,就是将10进的小数部分不断乘以2,进位时就将对应的2进制位写入1. 因此将上面的N (2) = 1.111011 01110100101111001*2^6;再转回十进制数时,很可能已经不再是123.456了. 好,精度问题应该说清楚了. 下面说示数范围.

阶码的示数位数是8位移码,最大为127最小为-127,这里的127用来作为2的指数,因此为2^127,约等于 1.7014*10^38, 而我们知道,float的示数范围约为-3.4*10^38-------3.4*10^38, 这是因为尾数的24位(默认第一位为1)全为1是,非常接近2,  1.11..11很明显约为2,因此浮点数的范围就出来了.

double的情况与float完全相似,只是它的内在形式是

    符号位(S)

          1

阶码(E)

11

尾数(M) 

   52

主要的区别在于它的阶码有11位了, 这就有2^1023约等于 0.8572*10^308, 尾数53位约为2,故double的示数范围约为 -1.7*10^308.------1.7*10^308.  至于其精度,同样,1.0/2^51=4.4*10^(-16).小数点后15位有效,加上缺省的那一位,因此对于double浮点数,从左到右的16位数都是可靠的.

有时,我们会听到"定点小数"这个词,单片机(如手机等)一般只使用定点数,迷糊的时候,我们会以为 float  a=23.4; 这种是定点小数, float a=2.34E1这种为浮点数,其实这是错误的, 上面只是同一个浮点数的不同表示,都是浮点数. 定点小数是有这种提法,认为整就是定点小数,小数点定在个位后面,小数部分为0.也可认为纯小数是定点小数,但它只能表示小于1的纯小数.

然后再说一下C/C++中的几个函数, C++中默认输出小数点后的5位小数,但可以设置,有两种方法:调用setpression或者使用cout.pression,但效果是不同的:

 float mm=123.456789f;
 cout<<mm<<endl;  //123.457           虽说默认为不数点后5位,但只是整数部分只有一位才这样.
 setprecision(10);                               //设置小数点后的位数,但当整数部分有两位时,与默认情况没什么两样,不起作用.
 cout<<mm<<endl;  //123.457
 cout.precision(4);                              //设置总的位数.
 cout<<mm<<endl;  //123.4     总之效果是比较怪的,个人认为虽然这样显得不够确定,但实为硬件系统所限.无可厚非.

对于0的实际表示,有人认为+0一般能绝对为0,而-0则可能表示一个极小的数.  为此,本人想到了一种很好的验证办法,证明了不管+0还是-0,它都是2^(-127),代码如下:

 float fDigital = 0.0f;       
 unsigned long nMem;// 临时变量,用于存储浮点数的内存数据
 // 将内存按位复制到临时变中,以便取用,此时的nMem并不等于fDigital了,它是按位复制的。
 nMem = *(unsigned long*)&fDigital;
 cout<<nMem<<endl;  //一般得到一个很大的整数.

 bitset<32>mybit(nMem);//妙在此处,这里的输出就是32float的内存表示了.终于完全直观地看到了.
 cout<<mybit<<endl;   //00000000000000000000000000000000 用-0.0来试,也是如此.

如果你还认为上面那一长串的0表示的是绝对的0,那么请重新看本文. 事实上,本人的这种做法是比较巧妙的,将上面的fDigital用任何其它浮点数表示,这个bitset数都可以反映出它的内存表示.

有移码表示阶码有是有原因的,主要是移码便于对阶操作,从而比较两个浮点数的大小. 这里要注意的是,阶码不能达到11111111的形式,IEEE规定,当编译器遇到阶码为0XFF时,即调用溢出指令.  总之,阶码化为整数时,范围是:-127~127.

最后,有一个往往高手也汗颜的地方,一定要记住,浮点数没有无符号型的usinged float/double是错误的.

本人才疏学浅,欢迎批评指正.

浮点数在计算机中的表示

浮点数在计算机中的表示 最后编辑于:2010-4-13计算机中数字是以0和1二进制保存的,我们熟悉的是整数的如何在计算机中表示,那么浮点数是如何表示的呢? 一.    转换我们先来看看如何将十进制的浮...
  • misterliwei
  • misterliwei
  • 2010年04月06日 19:25
  • 18713

浮点数表示

浮点数表示 浮点数的规格化表示 浮点数的表示范围 浮点数的表示精度 参考资料 之前的一些工作当中碰到了很多有关浮点数的问题,比如浮点数的表达范围、表达精度、浮点数...
  • shuzfan
  • shuzfan
  • 2016年12月22日 15:00
  • 1890

浮点数的表示方法

Java 语言支持两种基本的浮点类型: float 和 double ,以及与它们对应的包装类 Float 和 Double 。它们都依据 IEEE 754 标准,该标准为 32 位浮点和 64 位双...
  • ZCSYLJ
  • ZCSYLJ
  • 2011年09月18日 20:58
  • 14369

浮点数的表示

http://www.cnblogs.com/FlyingBread/archive/2009/02/15/660206.html 1 浮点数的表示 通常,我们可以用下面的格式来表示浮...
  • sunmenggmail
  • sunmenggmail
  • 2012年10月18日 22:40
  • 10053

浮点数二进制表示

在讨论浮点数之前,先看一下整数在计算机内部是怎样表示的。   int num=9; 上面这条命令,声明了一个整数变量,类型为int,值为9(二进制写法为1001)。普通的32位计算机,用4个字节表...
  • richerg85
  • richerg85
  • 2014年03月05日 20:56
  • 20303

浮点数与IEEE浮点标准

1 IEEE浮点数1.1 格式IEEE定义了多种浮点格式,但最常见的是三种类型:单精度、双精度、扩展双精度,分别适用于不同的计算要求。一般而言,单精度适合一般计算,双精度适合科学计算,扩展双精度适合高...
  • wenrang
  • wenrang
  • 2010年07月23日 20:10
  • 12033

程序员必知之浮点数运算原理详解

导读:浮点数运算是一个非常有技术含量的话题,不太容易掌握。许多程序员都不清楚使用==操作符比较float/double类型的话到底出现什么问题。 许多人使用float/double进行货币计算时经常会...
  • tercel_zhang
  • tercel_zhang
  • 2016年09月14日 14:30
  • 18040

IEEE制定的浮点数表示法

 基础知识: 十进制转十六进制; 十六进制转二进制; IEEE制定的浮点数表示规则; 了解: 目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double...
  • chen_lady
  • chen_lady
  • 2016年04月09日 15:33
  • 5062

浮点数的表示

在定点数表示中存在的一个问题是,难以表示数值很大的数据和数值很小的数据。例如,电子的质量(9×10-28克)和太阳的质量(2×1033克)相差甚远,在定点计算机中无法直接表示,因为小数点只能固定在某一...
  • meng4411yu
  • meng4411yu
  • 2013年03月13日 15:24
  • 11934

浮点数的表示方法及换算技巧

32位的浮点数中:  S:浮点数的符号位,1 位。0表示正数,1表示负数。 M:尾数,23位。用小数表示,小数点在尾数域前面。 E:阶码,采用移码方式来表示。移码方法对两个指数大小的比较和对阶操作都比...
  • wuhao1123
  • wuhao1123
  • 2016年06月10日 13:51
  • 1535
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:浮点数表示及其实现.
举报原因:
原因补充:

(最多只允许输入30个字)