二进制浮点数表示机制

最新推荐文章于 2023-08-09 16:05:16 发布

Sunny_Jie

最新推荐文章于 2023-08-09 16:05:16 发布

阅读量552

点赞数 1

分类专栏： C++编程文章标签：浮点数 float double

原文链接：https://blog.csdn.net/weixin_38597669/article/details/90582226

版权

C++编程专栏收录该内容

39 篇文章 2 订阅

订阅专栏

在这里插入图片描述

float范围：

最小负数 $2*2^{127}$ 最大负数 $1 * 2^{-126}$ ，0
最小正数 $1*2^{-126}$ 最大正数 $2*2^{127}$ 。

double范围：

负数：（-1.7976931348623157E+308，-4.94065645841246544E-324）；
零：0 ；
正数：（4.94065645841246544E-324，1.7976931348623157E+308）。
即绝对值为0和2^1022 —— 2^1024。

精度：

float和double的精度是由尾数的位数来决定的；
浮点数在内存中是按科学计数法来存储的，其整数部分始终是一个隐含着的“1”，由于它是不变的，故不能对精度造成影响；
float：2^23 =8388608，共七位，意味着最多能有7位有效数字，但绝对能保证的为6位，也即float的精度为6~7位有效数字；
double：2^52 = 4503599627370496，一共16位，同理，double的精度为15~16位。
原因
float：1bit（符号位）+8bits（指数位)+23bits（尾数位）；
double：1bit（符号位）+ 11bits（指数位）+ 52bits（尾数位）。
以float为例，阶码(指数)用移码来表示，8位移码（偏移量为127）本来应该可以表示-128~127，但是全0和全1被用来表示特殊状态的指数，所以为-126~127（无符号8位表示0-255，去除全0和1后是1-254，减去偏移量127，就是-126~127）。这里为什么要使用127来作为偏移量，若使用128 则8位移码表示范围-127~126，由于表示一个大的正数比一个小的负数更加重要，所以127作为偏移量比较合适。现在可以计算其表示范围了：尾数部分的取值范围[1,2)，所以最小负数 $2*2^{127}$ ，最大负数 $1*2^{-126}$ ，最小正数 $1*2^{-126}$ ，最大正数 $2*2^{127}$