浮点数的范围和精度

无论是单精度还是双精度在存储中都分为三个部分:

  1. 符号位(Sign) : 0代表正,1代表为负
  2. 指数位(Exponent):用于存储科学计数法中的指数数据,并且采用移位存储
  3. 尾数部分(Mantissa):尾数部分

1 范围

floatdouble的范围是由指数的位数来决定的。

float的指数位有8位,而double的指数位有11位,分布如下:

float

1bit(符号位)

8bits(指数位)

23bits(尾数位)

double

1bit(符号位)

11bits(指数位)

52bits(尾数位)

在数学中,特别是在计算机相关的数字(浮点数)问题的表述中,有一个基本表达法[1]

   value of floating-point = significand x base ^ exponent , with sign --- F.1
  译为中文表达即为:
   (浮点)数值 =      尾数    ×    底数 ^ 指数,(附加正负号)---------------- F.2

于是,float的指数范围为-127~128,而double的指数范围为-1023~1024,并且指数位是按补码的形式来划分的。其中负指数决定了浮点数所能表达的绝对值最小的数;而正指数决定了浮点数所能表达的绝对值最大的数,也即决定了浮点数的取值范围。

float的范围为-2^128 ~ +2^128,也即-3.40E+38 ~ +3.40E+38(2表示底数,二进制中只有0和1,要想值最大,则尾数位应全为1,即:1.1111111111111111111111,所以:1.111111... * 2*128 约等于 2^128,换成十进制就是3.40E+38。负数同理)

double的范围为-2^1024 ~ +2^1024,也即-1.79E+308 ~ +1.79E+308(double类型同理)

2 精度

floatdouble的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法(二进制的科学计数法)来存储的,其整数部分始终是一个隐含着的“1(即如果为011这种,前面的0是什么用的,就等于11),由于它是不变的,故不能对精度造成影响。

float2^23 = 8388608,一共七位,这意味着最多能有7位有效数字(第七位可能由它的后面一位做了舍入操作),但绝对能保证的为6位,也即float的精度为6~7位有效数字;

double2^52 = 4503599627370496,一共16位,同理,double的精度为15~16位。

原文链接

阅读更多
个人分类: 计算机基础
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭