ieee754双精度浮点数转换_浅析浮点数精度问题

最新推荐文章于 2024-07-31 18:06:25 发布

weixin_39961636

最新推荐文章于 2024-07-31 18:06:25 发布

阅读量2.1k

点赞数

文章标签： ieee754双精度浮点数转换 ieee754浮点数转换工具双精度浮点数转换双精度浮点数转换为二进制双精度浮点数转换器在线双精度浮点数转整数

一、前言

相比于整数，浮点数的存储和表示方法更为复杂。很多开发人员因浮点数难以掌控的精度问题而尽量避免使用浮点数。本文从浮点数的表示方法入手，浅析浮点数的精度问题，希望可以加深大家对浮点数的理解。

常用的浮点数有单精度浮点数(float)和双精度浮点数(double)，本文主要以单精度浮点数为例，双精度浮点数原理相同。

二、浮点数的表示方法

通常使用IEEE754标准存储和表示浮点数。IEEE754标准用以下形式来表示一个浮点数。

符号(sign)s决定数是负数(s=1)还是正数(s=0)。

有效数(significand)M是一个二进制小数。

指数(exponent)E是2的幂(可能是负数)，它的作用是对浮点数加权。

C语言使用32bit存储单精度浮点数，这32bit被分为三个域，分别编码符号域sign(1bit)、指数域exp(8bit)和小数域frac(23bit)，如下图所示。

双精度浮点数符号域sign、指数域exp和小数域frac分别占1bit、11bit和52bit。

根据指数域exp的取值情况，浮点数被分为三类：规格化值、非规格化值和特殊数值。

规格化值

当指数域exp的bit位不为全0(数值0)或全1(数值255)时，该浮点数就是规格化值。对于规格化值，指数E = exp - Bias，有效数M = 1 + 0.frac。

说明：Bias是偏置值，根据指数域exp的位数k确定，单精度浮点数指数域exp占8bit，所以k=8。通过下面计算公式可用得到单精度浮点数Bias为127。

非规格化值

当指数域exp的bit位全为0时，该浮点数就是非规格化值。对于非规格化值，指数E = 1 - Bias，有效数M = 0.frac。

特殊数值

当指数域exp的bit位全为1时，该浮点数就是特殊数值。特殊数值根据小数域frac的取值分为两种情况。当小数域frac全为0，符号域sign为0时，表示正无穷+∞；符号域sign为1时，表示负无穷-∞。当小数域frac不全为0时，表示的值被称为“NaN”，代表不是一个数(Not a number)。

以上就是浮点数的表示方法，了解了浮点数的表示方法，就可以进行浮点数数值和二进制位之间转换。

三、十进制浮点数值转换为二进制位(规格化值)

以十进制数值3.6为例，将其转换为单精度浮点数二进制位。

1、将十进制浮点数值转换为二进制浮点数值。

十进制3.6转换为二进制浮点数为11.1001100110011....(0011循环)。

说明：小数部分采用“乘2取整”的方法可以将十进制小数转换为二进制小数。

2、计算符号s、有效数M和指数E。

11.1001100110011....(0011循环)转换为2进制科学计数法为1.11001100110011.... * 2。

说明：二进制小数每乘以2相当于将小数点右移一位。

根据1.11001100110011.... * 2可得，符号s是0，指数E为1，有效数M为1.11001100110011....。

3、根据s、M、E推算符号域sign、小数域frac和指数域exp。

符号域sign = s，值为0，二进制位为0。

指数域exp = E + Bias，值为128，8bit的二进制位为10000000。

小数域0.frac=M - 1，值为0.11001100110011....，23bit的frac域二进制为11001100110011001100110。因为frac域截取了前23位，所以3.6无法被精确表示，得到的是一个近似值。

4、合并符号域sign、指数域exp、小数域frac得到浮点数的二进制位。

十进制3.6对应的二进制位为01000000011001100110011001100110

四、浮点数转换工具

手工对浮点数进行转换还是比较麻烦的，推荐使用下面的工具进行单精度浮点数之间的转换。

工具URL：

https://www.hschmidt.net/FloatConverter/IEEE754.html

该工具支持单精度浮点数各种进制直接的转换，以及数值无法准确被表示时的真实值和舍入的误差等。

五、浮点数精度问题

1、浮点数无法精确表示有效范围内所有数值

与整数不同，因为浮点数在计算机中的存储方式(IEEE754)，浮点数无法精确表示有效范围内的所有数值。有效范围内的数值是否可以被精确表示取决于有效数字M是否可以被小数域frac完全存储。例如3.5可以被精确存储，3.6无法被精确存储。

2、浮点数有效数字

通常认为单精度浮点数的有效数字时6~7位，绝对可以保证的是6位。

说明：因为单精度浮点数使用23bit表示小数域，2的23次方是8,388,608。23位可以存储所有6位或更低的数字，以及大多数7位数字。

但是仅按6~7位有效数字使用浮点数，更保守的只使用6位的话，如果小数点后保留两位有效数字，那么整数位只能有4位有效数字，这其实是大打折扣的！

以保留小数点后两位小数为例，那么单精度浮点数整数部分可以使用的最大值是多少呢？要保证小数点后两位小数有效，即需要保证的精确度为0.01。小数域frac共23位，第一位代表2^(-1)=0.5，第二位代表2^(-2)=0.25，依次类推，第六位代表2^(-6)=0.015625，第七位代表2^(-7)=0.0078125，即至少需要7位小数域才能精确表示0.01。规格化浮点数有效数字域共23位，加上1默认占有的1位，共24位表示有效数字。小数部分需要占有7位有效数字域，那么整数部分占有位数为24-7=17位。2^17=131,072，即保留小数点后两位，单精度浮点数整数部分最大可以使用131071，超过该数值后，小数点后两位就无法被精确表示。

通过下面的程序进行验证，整数部分为131071时，小数点后两位可以被准确输出；整数部分为131072时，小数点后两位不可以被准确输出。