float与double的区别和分析_分析float和double的精度区别-CSDN博客

本文链接：https://blog.csdn.net/s13100679177/article/details/107733352

float精度是2^23，能保证6位。dudouble精度是2^52，能保证15位。但是默认float和double都只能显示6位，再多需要#include <iomanip>，然后在输出语句之前插入cout << setprecision(20);强制输出小数位。

1、范围

float和double的范围是由指数的位数来决定的。

float的指数位有8位，而double的指数位有11位，分布如下：float：1bit（符号位） 8bits（指数位） 23bits（尾数位）double：1bit（符号位） 11bits（指数位） 52bits（尾数位）

于是，float的指数范围为-127~+128，而double的指数范围为-1023~+1024，并且指数位是按补码的形式来划分的。其中负指数决定了浮点数所能表达的绝对值最小的非零数；而正指数决定了浮点数所能表达的绝对值最大的数，也即决定了浮点数的取值范围。

float的范围为-2^128 ~ +2^128，也即-3.40E+38 ~ +3.40E+38；double的范围为-2^1024 ~ +2^1024，也即-1.79E+308 ~ +1.79E+308。

2、精度

float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的，其整数部分始终是一个隐含着的“1”，由于它是不变的，故不能对精度造成影响。

float：2^23 = 8388608，一共七位，这意味着最多能有7位有效数字，但绝对能保证的为6位，也即float的精度为6~7位有效数字；double：2^52 = 4503599627370496，一共16位，同理，double的精度为15~16位。

如果直接将float num=0xffffffff,是不可以的，可以直接它所存在的地址进行赋值ff，但是直接赋值7ffffffff，也是不行的，可能与指数的左移右移有关，如果直接赋值7f7fffff,就可以显示数值，后面可以深究一下，如果要用到float的最大值，用到头文件，double和float的这些最大值最小值都应该用float.h。FLT_MIN、FLT_MAX，#include <limits.h>这个头文件是long ln1 = LONG_MAX;long ln2 = LONG_MIN;long long lln1 = LONG_LONG_MAX;long long lln1 = LONG_LONG_MIN;int n1　=　INT_MIN;int n2　=　INT_MAX;