Java中浮点数分为两种:
种类名称 | 存储大小 | 取值范围 |
float(单精度) | 4字节(32bit) | -3.403E38 ~ 3.403E38 |
double(双精度) | 8字节(64bit) | -1.798E308 ~ 1.798E308 |
存储结构
浮点数的存储分三个部分:
- 符号位
- 指数位
- 尾数位(有效数字)
单精度浮点数32位=1位符号位+8位指数位+23位有效数字
双精度浮点数64位=1位符号位+11位指数位+52位有效数字
计算机存储浮点数
- 符号位:1表示负值,0表示正值
- 指数位:float的指数范围8位(为-128~+127),而double的指数范围11位(为-1024~+1023),并且指数位是按补码的形式来划分的。
其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。 - 尾数位:float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的,其整数部分始终是一个隐含着的“1”,由于它是不变的,故不能对精度造成影响。
float:2^23 = 8388608,一共七位,由于最左为1的一位省略了,这意味着最多能表示8位数: 2*8388608 = 16777216 。有8位有效数字,但绝对能保证的为7位,即 float的精度为7~8位有效数字;double:2^52 = 4503599627370496,一共16位,double的精度为16~17位。
IEEE 浮点标准
根据IEEE 浮点标准,任意一个二进制浮点数N可以表示成下面的形式:
32位浮点数
N = (-1)^s × (1.M )× 2^(E-127)
64位浮点数
N = (-1)^s × (1.M )× 2^(E-1023)
- 符号(sign) s表示符号位,当s=0,N为正数;当s=1,N为负数。
- 尾数(significand) M是一个二进制小数,1≤M<2。
- 指数位(exponent) E的作用是对浮点数加权,这个权重是2的E次幂(可能是负数)
E阶码占用8位,阶符采用隐含方式,,即采用移码方法来表示正负指数。移码方法对两个指数大小的比较和对阶操作都比较方便,因为阶码域值大者其指数值也大。采用这种方式时,将浮点数的指数真值e变成阶码E时,应将指数e加上一个固定的偏移值127(01111111),即E=e+127。
精度损失的原因
例如
十进制小数转二进制小数
2.3
整数转整数
2 = 0000 0010
小数转小数,十进制的小数乘以2,得到结果如果不够1则补0,得到结果如果够1则补1(计算结果减1),结果一直乘以2,知道结果是1.0结束(大多数结果是无线循环)。
0.3 = 0100 1100 1100 1100 1100 1100....
0000 0010 . 0100 1100 1100 1100 1100 1100....= 1.0010 0011 0011 0011 0011 001*2^1
s(符号位)=0
E(指数位)=1+127 = 128 =10000000
M(有效位)=1.0010 0011 0011 0011 0011 001…
短浮点数 = 0100 0000 0001 0001 1001 1001 1001 1001
1位 | 8位 | 23位 | 丢弃 |
---|---|---|---|
0 | 10000000 | 0010 0011 0011 0011 0011 001 | 10011… |
以二进制保存浮点数,所以一些原本有限位的小数,按照上面方法运算以后,可能变成一个无限循环的小数。
计算机保存浮点数的精度有限,例如float可以保留十进制最多7位(二进制23位)有效数字,double 可以保留十进制15~16位(二进制52位)有效数字。那有效数字以后的就被忽略了。