float精度是2^23,能保证6位。dudouble精度是2^52,能保证15位。但是默认float和double都只能显示6位,再多需要#include <iomanip>,然后在输出语句之前插入cout << setprecision(20);强制输出小数位。
1、范围
float和double的范围是由指数的位数来决定的。
float的指数位有8位,而double的指数位有11位,分布如下:float:1bit(符号位) 8bits(指数位) 23bits(尾数位)double:1bit(符号位) 11bits(指数位) 52bits(尾数位)
于是,float的指数范围为-127~+128,而double的指数范围为-1023~+1024,并且指数位是按补码的形式来划分的。其中负指数决定了浮点数所能表达的绝对值最小的非零数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。
float的范围为-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38;double的范围为-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308。
2、精度
float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的,其整数部分始终是一个隐含着的“1”,由于它是不变的,故不能对精度造成影响。
float:2^23 = 8388608,一共七位,这意味着最多能有7位有效数字,但绝对能保证的为6位,也即float的精度为6~7位有效数字;double:2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。
如果直接将float num=0xffffffff,是不可以的,可以直接它所存在的地址进行赋值ff,但是直接赋值7ffffffff,也是不行的,可能与指数的左移右移有关,如果直接赋值7f7fffff,就可以显示数值,后面可以深究一下,如果要用到float的最大值,用到头文件,double和float的这些最大值最小值都应该用float.h。FLT_MIN、FLT_MAX,#include <limits.h>这个头文件是long ln1 = LONG_MAX;long ln2 = LONG_MIN;long long lln1 = LONG_LONG_MAX;long long lln1 = LONG_LONG_MIN;int n1 = INT_MIN;int n2 = INT_MAX;