浮点数运算和溢出

最新推荐文章于 2024-10-22 21:31:27 发布

edenliuL

最新推荐文章于 2024-10-22 21:31:27 发布

阅读量8k

点赞数 2

分类专栏： C/C 基础知识文章标签： c++ C

本文链接：https://blog.csdn.net/MashiMaroJ/article/details/120512933

版权

C/C 基础知识专栏收录该内容

10 篇文章

订阅专栏

何为浮点数

在大部分实现中，浮点数通常是基于IEEE浮点标准用V=(-1) $V=(-1)^{s}*M*2^{E}$ 的形式来表示一个数

s是符号位，决定这个数是正数还是负数.
significand M是一个二进制小数，范围在[1~ 2 - $\epsilon$ ]或者[0- $\epsilon$ ] 中文称为尾数.
exponent E是对浮点数加权，权重是2的E次幂，中文称为码阶

将浮点数的位划分位3个字段，分别对这些值进行编码（encode value）：

最高位的单独位s直接编码成符号s，0或者1,0表示正数，1表示负数
k位的码阶字段集合exp= $e_{k-1}...e_{1}e_{0}$ 编码阶码E
n位小数字段frac= $f_{n-1}...f_{1}f_{0}$ 编码尾数M,但是编码出来的值也依赖于解码的字段的值是否等于0

单精度浮点格式 s、exp、frac字段分别位1，8，23

双精度浮点格式 s、exp、frac字段分别位1，11，52

bit 分布如下：

根据exp的值，被编码的值可以分成3种不同的情况(最后一种有两个变种)，已单精度举例：

情况1:规格化的值

这是最普遍的情况。当exp的位模式不全为0也不全为1时，都属于这种情况。在这种情况下阶码字段E= $e-Bias$ ,其中 $e$ 是无符号数，其位表示为 $e_{k-1}...e_{1}e_{0}$ , $Bias=2^{k-1} -1$ (单精度是127，双精度是1023)，由此计算出的E的范围在单精度下是[-126~127]，在双精度下是[-1022~1023].

小数字段frac被解释为描述小数值 $f$ ( $0\leq f < 1$ ),其二进制表示为 $0.f_{n-1}...f_{1}f_{0}$ .实数值= $b_{n-1}*2^{-1}+b_{n-2}*2^{-2}+...+b_{1}*2^{1-n}+b_{0}*2^{-n}$ 尾数定义为 $M=1+f$ .

情况2：非规格化的值

当exp的位模式全为0时，在这种情况下，阶码 $E=1-Bias$ = -126，而尾数 $M=f$ ,不包含隐含的开头1.为什么E没有= $-Bias$ ,而是 $E=1-Bias$ ，是为了从非规格化值平滑的转换到规格化值的方法.

非规格化的值有两个用途：

提供了一种表示0的方法，因为使用规格化数 $M \geq 1$ ,因此无法表示0.其中根据符号位不同，我们可以有 $+0.0$ 和 $-0.0$ 。根据IEEE浮点格式，两者某些方面被认为是不同的，而在其他方面是相同的
提供一个可以表示非常接近 $0.0$ 的数.它提供了一种属性，称为逐渐溢出，其中可能的数值分布均匀地接近于 $0.0$

情况3：特殊值

当exp的位模式全为1时出现。当小数域全为0时，得到的值表示无穷，当 $s=0$ 时是 $+\infty$ ；当s=1时是 $-\infty$ 。当我们把两个非常大的数相乘，或者除以0时，无穷可以表示“溢出”的结果。当小数域为非零时，结果值被称为“NaN”,无效值(Not a Number的缩写)。比如当计算 $\infty-\infty$ 时，也可用于表示未初始化的数据。