深入理解浮点数实现原理、范围和精度以及大数吃小数问题

loongknown

已于 2022-07-30 10:45:14 修改

阅读量1.2w

点赞数 37

分类专栏：数据结构和算法文章标签：算法数据结构 ieee754 浮点数精度

于 2022-04-23 09:07:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dong_HFUT/article/details/124290674

版权

深入理解浮点数实现原理、数范围和精度以及大数吃小数问题

浮点数实现原理
大数吃小数
参考

看完本文你将深入理解浮点数实现的原理：规格化表示、非规格化表示、+/- 0、INF、NAN、浮点数的表示范围和精度。并且也将搞清楚大数吃小数的原理以及相应的解决方案。

前几天有个同事和我讨论浮点数精度和大数吃小数的问题，正好借这个机会，把浮点数的实现原理和大数吃小数的问题写成本文，也方便后来人遇到类似问题查阅。

浮点数实现原理

这里以 IEEE-754 单精度浮点数为例，双精度浮点数也是类似的。

单精度浮点数在计算机中以 32 位存储。这 32 位被划分为符号位（Sign）、指数位（Exponent）和尾数位（Mantissa，Fraction）三个部分：

符号位：表示数值的符号，即正负。占 1 bit。
指数位：表示数值的指数部分。占 8 bit。
尾数位：表示数值的底数部分。占 23 bit。

$V = (-1)^S * M * 2^E$

在这里插入图片描述

规格化表示

尾数部分：

规格化（Normal）表示首先要将小数部分做规格化处理，即表示为 1.xx * 2 ^ exp 形式。例如：

0.09375 的二进制表示为 0.00011，规格化表示为 1.1 * 2 ^ (-4)。

这里也可以看到为什么需要规格化表示：尾数位固定占 23 位，尾数位如果有许多先导零，就会占用许多有效位，使用规格化表示可以去除这些先导零，变相使有效位变多，也就提高了浮点数的表示精度。

另外，规格化表示有个特点就是有效数字的首位都是 1，这个 1 也可以省去。

指数部分：

指数位占 8 bit，可以表示 [0, 255] ，为了表示负数（规格化表示产生），需要减去一个偏置（bias）， $bias = 2^{k-1} -1$ ，k 为指数位个数。单精度浮点的偏置为 127，则指数部分范围为 [-127, 128] ，这里去除指数位全为 0 和全为 1 的情况（后面会介绍用于非规格化表示和特殊数），则指数部分表示范围为 [-126, 127] 。

再看上面的例子， 0.09375 （ 0.00011）：

首先，规格化表示：1.1 * 2 ^ (-4)，尾数部分为 1.1，省去第一个 1 ，尾数为 1。指数为 -4，加上偏置 127，等于 123。符号位为 0。在计算机中的二进制表示为：

在这里插入图片描述
用十六进制表示则为 0x3DC00000，这个大家可以使用这个在线工具进行验证。

在这里插入图片描述

也可以直接写代码验证下：
在这里插入图片描述

再来看一个复杂点的数值，pi = 3.1415926：

二进制表示为：11.00100100001111110110100110100010010110110000100101 。大家可以使用这个工具转化。

使用规格化表示，并保留小数点位 23 位：1.10010010000111111011010 * 2 ^ 1

省去前面的 1 ，则尾数位为：10010010000111111011010

指数为 1，再加上 127，等于 128，二进制表示为：10000000

符号位为 0

则在计算机中表示为：
在这里插入图片描述
对应十六进制为 0x40490FDA

最后，总结下规格化表示的公式：

M = 1.f，f 为尾数部分二进制表示。

E = exp - bias

也即规格化表示的公式：
$v = (-1)^S * 1.f * 2^{exp-bias}$

其中 bias = 127。

对此，大家应该对浮点数的规格化表示已经非常清楚了。

非规格化表示（包括 0）

从上面介绍我们可以知道，浮点数的规格化表示是为了提高浮点数实现的精度，那为什么还需要非规格化（Denormal）表示呢？

根据浮点数的规格化表示我们知道，规格化表示能够表示的最接近 0 的数为 1.00…000 * 2 ^ (-126)。对应的二进制表示为：

在这里插入图片描述

为了能够得到更加接近 0 的数，也即扩大浮点数的表示范围，使用浮点数的非规格化表示。

比如 1.1 * 2 ^ (-130)，-130 超出了规格化指数最小 -126 能够表示的范围，使用非规格化表示为 0.00011 * 2 ^ (-126)，二进制表示如下：

在这里插入图片描述
因此，对于非规格化：

M = 0.f，f 为尾数部分二进制表示。

最低0.47元/天解锁文章

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。