和整形一样,浮点数在计算中的存储也是二进制存储,因此内存中要存储一个浮点数,首先要将该数的整数部分和小数部分转化成二进制数,如8.25,转换成二进制数1000.01,再用2进制科学计数法表示为1.00001 * 2^3。
float类型
double类型
符号位存储形式(占1位):正数为0,负数为1。例如1.00001 * 2^3是正数,因此符号位为0
指数位存储形式(占8位或11位):通过将真实的指数位进行偏移之后存储,所以指数位可以存储在区间[-(2^(n-1)-1), 2^n]之间的数据,大于这个区间则数据会溢出.所以使用32bit进行存储时,n=8,指数位真实值需要+127得到指数位在内存中的实际存储值;使用64位进行存储时,n=11,指数位真实值+1023得到指数位的存储值。例如1.00001 * 2^3的指数位是3,以32bit存储,指数位的值是127 + 3 = 130,再转化为二进制数则为10000010。
尾数部分存储形式(占剩余位数):1.00001 * 2^3尾数部分是00001,因此在内存中存储的就是00001。
浮点数在内存中的存储:符号位:0;指数位10000010;尾数:00001。
若为32bit存储,则8.25在内存中存储形式是:
0 10000010 00001 000000000000000000
符号 指数 尾数 补足32位
C++对于有效位的要求是,float至少32位,double至少48位。
float的有效位数:float的32位有效数字是对2进制数来说。每4位2进制数表示1位十进制数,即32位的2进制数就是8位的10进制数。float至少有6位有效位,同理,浮点数的符号位和指数位总共占了9位,因此小数部分占23位,在加上整数位1位,总共24位,24 ÷ 4 = 6,因此,浮点数的十进制有效位是6位。
float和double的精度:float的小数部分的有效位是23,即十进制的6位有效,而double的小数部分的有效位是52,即十进制的13位有效
float和double在内存中存储的是一个近似值(精度降低):例如11.17,这个数若以2进制表示则其小数位是无限的,而对于float的小数位有效位是23位(10进制是6位),因此超过了这个23位(十进制是6位)则数据是不准确的;double类型小数位的有效位则是52位(十进制13位),超过了52位也是不准确的数。
---------------------------------------------------------------------------------------------------------------------------------
最后,本篇文章如有不足或错误之处,请大家指出,我会耐心听取大家给出的意见。谢谢大家!!!