深入理解浮点数实现原理、数范围和精度以及大数吃小数问题
看完本文你将深入理解浮点数实现的原理:规格化表示、非规格化表示、+/- 0、INF、NAN、浮点数的表示范围和精度。并且也将搞清楚大数吃小数的原理以及相应的解决方案。
前几天有个同事和我讨论浮点数精度和大数吃小数的问题,正好借这个机会,把浮点数的实现原理和大数吃小数的问题写成本文,也方便后来人遇到类似问题查阅。
浮点数实现原理
这里以 IEEE-754 单精度浮点数为例,双精度浮点数也是类似的。
单精度浮点数在计算机中以 32 位存储。这 32 位被划分为符号位(Sign)、指数位(Exponent)和尾数位(Mantissa,Fraction)三个部分:
- 符号位:表示数值的符号,即正负。占 1 bit。
- 指数位:表示数值的指数部分。占 8 bit。
- 尾数位:表示数值的底数部分。占 23 bit。
V = ( − 1 ) S ∗ M ∗ 2 E V = (-1)^S * M * 2^E V=(−1)S∗M∗2E
规格化表示
尾数部分:
规格化(Normal)表示首先要将小数部分做规格化处理,即表示为 1.xx * 2 ^ exp 形式。例如:
0.09375 的二进制表示为 0.00011,规格化表示为 1.1 * 2 ^ (-4)。
这里也可以看到为什么需要规格化表示:尾数位固定占 23 位,尾数位如果有许多先导零,就会占用许多有效位,使用规格化表示可以去除这些先导零,变相使有效位变多,也就提高了浮点数的表示精度。
另外,规格化表示有个特点就是有效数字的首位都是 1,这个 1 也可以省去。
指数部分:
指数位占 8 bit,可以表示 [0, 255] ,为了表示负数(规格化表示产生),需要减去一个偏置(bias), b i a s = 2 k − 1 − 1 bias = 2^{k-1} -1 bias=2k−1−1,k 为指数位个数。单精度浮点的偏置为 127,则指数部分范围为 [-127, 128] ,这里去除指数位全为 0 和 全为 1 的情况(后面会介绍用于非规格化表示和特殊数),则指数部分表示范围为 [-126, 127] 。
再看上面的例子, 0.09375 ( 0.00011):
首先,规格化表示:1.1 * 2 ^ (-4),尾数部分为 1.1,省去第一个 1 ,尾数为 1。指数为 -4,加上偏置 127,等于 123。符号位为 0。在计算机中的二进制表示为:
用十六进制表示则为 0x3DC00000,这个大家可以使用 这个 在线工具进行验证。
也可以直接写代码验证下:
再来看一个复杂点的数值,pi = 3.1415926:
二进制表示为:11.00100100001111110110100110100010010110110000100101 。大家可以使用 这个 工具转化。
使用规格化表示,并保留小数点位 23 位:1.10010010000111111011010 * 2 ^ 1
省去前面的 1 ,则尾数位为:10010010000111111011010
指数为 1,再加上 127,等于 128,二进制表示为:10000000
符号位为 0
则在计算机中表示为:
对应十六进制为 0x40490FDA
最后,总结下规格化表示的公式:
M = 1.f,f 为尾数部分二进制表示。
E = exp - bias
也即规格化表示的公式:
v = ( − 1 ) S ∗ 1. f ∗ 2 e x p − b i a s v = (-1)^S * 1.f * 2^{exp-bias} v=(−1)S∗1.f∗2exp−bias
其中 bias = 127。
对此,大家应该对浮点数的规格化表示已经非常清楚了。
非规格化表示(包括 0)
从上面介绍我们可以知道,浮点数的规格化表示是为了提高浮点数实现的精度,那为什么还需要非规格化(Denormal)表示呢?
根据浮点数的规格化表示我们知道,规格化表示能够表示的最接近 0 的数为 1.00…000 * 2 ^ (-126)。对应的二进制表示为:
为了能够得到更加接近 0 的数,也即扩大浮点数的表示范围,使用浮点数的非规格化表示。
比如 1.1 * 2 ^ (-130),-130 超出了规格化指数最小 -126 能够表示的范围,使用非规格化表示为 0.00011 * 2 ^ (-126),二进制表示如下:
因此,对于非规格化:
M = 0.f,f 为尾数部分二进制表示。