计算机中的浮点数

最新推荐文章于 2023-06-01 23:33:31 发布

lijun5635

最新推荐文章于 2023-06-01 23:33:31 发布

阅读量1k

点赞数

分类专栏： C/C++语言

C/C++语言专栏收录该内容

42 篇文章 1 订阅

订阅专栏

浮点数的内存存储格式

浮点数内存存储，真心不想仔细看，先放这里，有空再看。

首先说一下原、反、补、移码。移码其实就等于补码，只是符号相反。对于正数而言。原，反，补码都一样，对负数而言，反码除符号位外，在原码的基础上按位取反，补码则在反码的基础之上，在其最低位上加1，要求移码时，仍然是先求补码，再改符号。

浮点数分为float和double，分别占4、8个字节，即32、64位。在此以32位的float为例，并附带说double。

在IEEE754标准中，规定，float的32位这样分：

符号位(S)	阶码(E)	尾数(M)
1	8	23

这里应该注意三点：

A．阶码是用移码表示的，这里会有一个127的偏移量，它的127相当于0，小于127时为负，大于127时为正，比如：10000001表示指数为129-127=2，表示真值为2^{^2}，而01111110则表示2^{^(-1)}；

B．尾数全都是小数点后面的数；

C．尾数中省略了一个1，因此尾数全为0时，也是1.0…00;

接下来只要说明几个问题就明白了，以123.456为例，表示为二进制就是：N (2) = 1111011.01110100101111001，这里，会右移6位，得到N (2) = 1.11101101110100101111001*2^{^6}; 这种形式就可以用于上图中的表示格式了。

符号位(S)	阶码	尾数(M)
0	(E) 00000110	11101101110100101111001

注意到，上面的阶码第一位为0表正，尾数比N(2)表示的第一位少了个1，这就是上面说的默认为第一位为1。由于在将十进制转为二进制的过程中，常常不能正好转得相等， (当然，像4.0这样的就不会有损失，而1.0/3.0这样的必然损失)，所以就产生了浮点数的精度问题，实际上，小数点后的23位二进制数，能影响的十进制数的前8位，这是为什么呢?其实很简单，在上面表示的尾数中，是二进制的，小数点后有23位，最后一位的值为1时，它就是1/2^{^22}=0.000000238实际取的时候肯定是0.0000002，也就是说，对于一个float型的浮点数，其有效的位数是从左到右数7位(包括缺省的1才是7位)，当到达上面这个第8位时，就不可靠了，但VC6可以输出最长的1.0/3.0为0.33333333333333331，这主要是编译器的问题了，而并不是说浮点数小数点后的16位都有效。如果不信的话，可以去试一下double类型的1.0/3.0，得到的也将是小数点后17位。

另外，编译器或电路板一般都有"去噪声"的"修正"能力，它能够使得超过7位的十进制数即使无效了也不会变得离谱，这也是上面为什么一直都是输出333而不是345之类的。可以这样试一下：

float f=123456789;

cout<<f<<endl; //这里肯定得到123456789。

这里有一个被人遗忘的问题，就是10进制小数怎么变为2进制小数，其实很简单，就是将10进的小数部分不断乘以2，进位时就将对应的2进制位写入1。因此将上面的N (2) = 1.11101101110100101111001*2^{^6};再转回十进制数时，很可能已经不再是123.456了。好，精度问题应该说清楚了,下面说示数范围。

阶码的示数位数是8位移码，最大为127最小为-127，这里的127用来作为2的指数，因此为2^{^127}，约等于 1.7014*10^{^38}，而我们知道，float的示数范围约为-3.4*10^{^38}—3.4*10^{^38}，这是因为尾数的24位(默认第一位为1)全为时，非常接近2， 1.11…11很明显约为2，因此浮点数的范围就出来了。

double的情况与float完全相似，只是它的内在形式是:

符号位(S)	阶码(E)	尾数(M)
1	11	52

主要的区别在于它的阶码有11位了，这就有2^{^1023}约等于 0.8572*10^{^308}，尾数53位约为2，故double的示数范围约为 -1.7*10^{^308}—1.7*10^{^308}。至于其精度，同样，1.0/2^{^51}=4.4*10^{^(-16)}。小数点后15位有效，加上缺省的那一位，因此对于double浮点数，从左到右的16位数都是可靠的。

有移码表示阶码有是有原因的，主要是移码便于对阶操作，从而比较两个浮点数的大小。这里要注意的是，阶码不能达到11111111的形式，IEEE规定，当编译器遇到阶码为0XFF时，即调用溢出指令。总之，阶码化为整数时，范围是：-127~127。

最后，有一个易于出错，一定要记住，浮点数没有无符号型的unsignedfloat/double是错误的。

浮点数的二进制转换

-12.5:

1. 整数部分12，二进制为1100; 小数部分0.5, 二进制是.1，先把他们连起来，从第一个1数起取24位（后面补0）：

1100.10000000000000000000

这部分是有效数字。（把小数点前后两部分连起来再取掉头前的1，就是尾数）

2. 把小数点移到第一个1的后面，需要左移3位, 加上偏移量127：127+3=130，二进制是10000010，这是阶码。

3. -12.5是负数，所以符号位是1。把符号位，阶码和尾数连起来。注意，尾数的第一位总是1，所以规定不存这一位的1，只取后23位：

1 10000010 10010000000000000000000

把这32位按8位一节整理一下，得：

11000001 01001000 00000000 00000000