ieee754双精度浮点数转换_浅析浮点数精度问题

一、前言

相比于整数,浮点数的存储和表示方法更为复杂。很多开发人员因浮点数难以掌控的精度问题而尽量避免使用浮点数。本文从浮点数的表示方法入手,浅析浮点数的精度问题,希望可以加深大家对浮点数的理解。

常用的浮点数有单精度浮点数(float)和双精度浮点数(double),本文主要以单精度浮点数为例,双精度浮点数原理相同。

二、浮点数的表示方法

通常使用IEEE754标准存储和表示浮点数。IEEE754标准用以下形式来表示一个浮点数。

b39580be3101af4a7c75d7787c317baf.png

符号(sign)s决定数是负数(s=1)还是正数(s=0)。

 有效数(significand)M是一个二进制小数。

 指数(exponent)E是2的幂(可能是负数),它的作用是对浮点数加权。

C语言使用32bit存储单精度浮点数,这32bit被分为三个域,分别编码符号域sign(1bit)、指数域exp(8bit)和小数域frac(23bit),如下图所示。

2d1471a44ca9ad87e44e66ad258729b3.png

双精度浮点数符号域sign、指数域exp和小数域frac分别占1bit、11bit和52bit。

根据指数域exp的取值情况,浮点数被分为三类:规格化值、非规格化值和特殊数值。

规格化值

当指数域exp的bit位不为全0(数值0)或全1(数值255)时,该浮点数就是规格化值。对于规格化值,指数E = exp - Bias,有效数M = 1 + 0.frac。

说明:Bias是偏置值,根据指数域exp的位数k确定,单精度浮点数指数域exp占8bit,所以k=8。通过下面计算公式可用得到单精度浮点数Bias为127。

ab0a2c09992febf8f735b29099eaad21.png

非规格化值

当指数域exp的bit位全为0时,该浮点数就是非规格化值。对于非规格化值,指数E = 1 - Bias,有效数M = 0.frac。

特殊数值

当指数域exp的bit位全为1时,该浮点数就是特殊数值。特殊数值根据小数域frac的取值分为两种情况。当小数域frac全为0,符号域sign为0时,表示正无穷+∞;符号域sign为1时,表示负无穷-∞。当小数域frac不全为0时,表示的值被称为“NaN”,代表不是一个数(Not a number)。

以上就是浮点数的表示方法,了解了浮点数的表示方法,就可以进行浮点数数值和二进制位之间转换。

三、十进制浮点数值转换为二进制位(规格化值)

以十进制数值3.6为例,将其转换为单精度浮点数二进制位。

1、将十进制浮点数值转换为二进制浮点数值。

十进制3.6转换为二进制浮点数为11.1001100110011....(0011循环)。

说明:小数部分采用“乘2取整”的方法可以将十进制小数转换为二进制小数。

2、计算符号s、有效数M和指数E。

11.1001100110011....(0011循环)转换为2进制科学计数法为1.11001100110011.... * 2。

说明:二进制小数每乘以2相当于将小数点右移一位。

根据1.11001100110011.... * 2可得,符号s是0,指数E为1,有效数M为1.11001100110011....。

3、根据s、M、E推算符号域sign、小数域frac和指数域exp。

符号域sign = s,值为0,二进制位为0。

指数域exp = E + Bias,值为128,8bit的二进制位为10000000。

小数域0.frac=M - 1,值为0.11001100110011....,23bit的frac域二进制为11001100110011001100110。因为frac域截取了前23位,所以3.6无法被精确表示,得到的是一个近似值。

4、合并符号域sign、指数域exp、小数域frac得到浮点数的二进制位。

十进制3.6对应的二进制位为01000000011001100110011001100110

四、浮点数转换工具

手工对浮点数进行转换还是比较麻烦的,推荐使用下面的工具进行单精度浮点数之间的转换。

工具URL:

https://www.hschmidt.net/FloatConverter/IEEE754.html

abdb300d808902f34cdf823588fe5c63.png

该工具支持单精度浮点数各种进制直接的转换,以及数值无法准确被表示时的真实值和舍入的误差等。

五、浮点数精度问题

1、浮点数无法精确表示有效范围内所有数值

与整数不同,因为浮点数在计算机中的存储方式(IEEE754),浮点数无法精确表示有效范围内的所有数值。有效范围内的数值是否可以被精确表示取决于有效数字M是否可以被小数域frac完全存储。例如3.5可以被精确存储,3.6无法被精确存储。

2、浮点数有效数字

通常认为单精度浮点数的有效数字时6~7位,绝对可以保证的是6位。

说明:因为单精度浮点数使用23bit表示小数域,2的23次方是8,388,608。23位可以存储所有6位或更低的数字,以及大多数7位数字。

但是仅按6~7位有效数字使用浮点数,更保守的只使用6位的话,如果小数点后保留两位有效数字,那么整数位只能有4位有效数字,这其实是大打折扣的!

以保留小数点后两位小数为例,那么单精度浮点数整数部分可以使用的最大值是多少呢?要保证小数点后两位小数有效,即需要保证的精确度为0.01。小数域frac共23位,第一位代表2^(-1)=0.5,第二位代表2^(-2)=0.25,依次类推,第六位代表2^(-6)=0.015625,第七位代表2^(-7)=0.0078125,即至少需要7位小数域才能精确表示0.01。规格化浮点数有效数字域共23位,加上1默认占有的1位,共24位表示有效数字。小数部分需要占有7位有效数字域,那么整数部分占有位数为24-7=17位。2^17=131,072,即保留小数点后两位,单精度浮点数整数部分最大可以使用131071,超过该数值后,小数点后两位就无法被精确表示。

通过下面的程序进行验证,整数部分为131071时,小数点后两位可以被准确输出;整数部分为131072时,小数点后两位不可以被准确输出。

cb72c47eb8312c08e300f4118401693b.png

图.验证程序

6dda2a29cdd354482dc1a8875f33dcd3.png

图.输出结果

3、浮点数舍入

浮点数默认舍入方式是向偶数舍入,也被称为向最近值舍入。使用该舍入方式是为了避免浮点数计算过程中偏差越来越大。C语言可以通过fegetround 函数获取当前浮点数环境的舍入方式,通过 fesetround设置当前浮点数环境的舍入方式。

bd0d3e79b67f2b46a1e5a76d520c9f74.png

六、参考文献

《深入理解计算机操作系统》

https://zh.cppreference.com/w/c/numeric/fenv/FE_round

https://blog.demofox.org/2017/11/21/floating-point-precision/

https://devblogs.microsoft.com/cppblog/do-you-prefer-fast-or-precise/

9e579e09e75cf455ec6117ceb46b9e7e.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值