C++中float和double类型的精度问题说明

最新推荐文章于 2024-05-15 14:53:59 发布

乘舟御风

最新推荐文章于 2024-05-15 14:53:59 发布

阅读量2.6k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tiandao2009/article/details/79840017

版权

有效数字的定义：有效数字是指在分析工作中实际能够测量到的数字。能够测量到的是包括最后一位估计的，不确定的数字。我们把通过直读获得的准确数字叫做可靠数字；把通过估读得到的那部分数字叫做存疑数字。把测量结果中能够反映被测量大小的带有一位存疑数字的全部数字叫有效数字。如图中测得物体的长度5.15cm。数据记录时，我们记录的数据和实验结果真值一致的数据位便是有效数字。在数学中，有效数字是指在一个数中，从该数的第一个非零数字起，直到末尾数字止的数字，如0.618的有效数字有三个，分别是6,1,8。

1 范围

float和double的范围是由指数的位数来决定的。

float的指数位有8位，而double的指数位有11位，分布如下：

float：

1bit（符号位） + 8bits（指数位） + 23bits（尾数位）

double：

1bit（符号位）+ 11bits（指数位） + 52bits（尾数位）

在数学中，特别是在计算机相关的数字（浮点数）问题的表述中，有一个基本表达法^[1]：

　value of floating-point = significand x base ^ exponent , with sign --- F.1

　　译为中文表达即为：

　（浮点）数值 = 尾数 × 底数 ^ 指数，（附加正负号）---------------- F.2

于是，float的指数范围为-127~128，而double的指数范围为-1023~1024，并且指数位是按补码的形式来划分的。其中负指数决定了浮点数所能表达的绝对值最小的数；而正指数决定了浮点数所能表达的绝对值最大的数，也即决定了浮点数的取值范围。

float的范围为-2^128 ~ +2^128，也即-3.40E+38 ~ +3.40E+38；double的范围为-2^1024 ~ +2^1024，也即-1.79E+308 ~ +1.79E+308。

2 精度

float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的，其整数部分始终是一个隐含着的“1”，由于它是不变的，故不能对精度造成影响。

float：2^23 = 8388608，一共七位，这意味着最多能有7位有效数字，但绝对能保证的为6位，也即float的精度为6~7位有效数字；

double：2^52 = 4503599627370496，一共16位，同理，double的精度为15~16位。

单精度类型（float）和双精度类型(double)存储

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
C++中float和double类型的精度问题说明

有效数字的定义：有效数字是指在分析工作中实际能够测量到的数字。能够测量到的是包括最后一位估计的，不确定的数字。我们把通过直读获得的准确数字叫做可靠数字；把通过估读得到的那部分数字叫做存疑数字。把测量结果中能够反映被测量大小的带有一位存疑数字的全部数字叫有效数字。如图中测得物体的长度5.15cm。数据记录时，我们记录的数据和实验结果真值一致的数据位便是有效数字。在数学中，有效数字是指在一个数中，从...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。