计算机中的小数（上）-浮点数的表示

Spring-99

已于 2022-12-06 20:40:51 修改

阅读量678

点赞数 1

分类专栏：计算机体系结构文章标签：嵌入式算法

于 2022-11-29 21:05:26 首次发布

本文链接：https://blog.csdn.net/qq_42475302/article/details/128064816

版权

计算机体系结构专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、计算机如何处理小数？

直观的想法是采用BCD码来表示一个小数，例如1.23可用0001.0010 0011来表示，但每一位需要用4为bit来表示，需要占用很多的位数，从信息量的角度来说，如果采用32位bit，可以表示40多亿个不同的数，而用BCD编码则只能表示1亿个数；
对于数值很大或很小的数，需要消耗非常多的位数；

鉴于上述缺点，目前计算机选择采用科学计数法的方式，通过有限的有效数位、底数和指数，来描述很大范围的数值；由于在科学计数法中小数点的位置是可以移动的，所以也称之为浮点数。

二、浮点数的编码规则

目前计算机的浮点数标准都遵循IEEE 754标准；

三、IEEE 754标准

IEEE 754标准用 $V=(-1)^{s}\times M\times2^E$ 的形式来表示一个数；
IEEE 754标准规定的两个基本格式分别为单精度32位bit(float) 和双精度64位bit(double)，格式如下。在此基础上还有扩展的格式，不过都大同小异。

float格式

符号(s)	阶码(e)	尾数(f)
1bit	8bits	23bits

double

符号(s)	阶码(e)	尾数(f)
1bit	11bits	52bits

符号位(s)：0正1负；
阶码(e)：指数部分,采用移码表示;对于规格数（整数部分非0），实际的值为 $E = e - B i a s$ ；对于非规格数，实际的值为 $E = 1 - B i a s$ ；其中 $Bias=2^{(k-1)}-1$ (k为阶码的位数，例如对于float，Bias=2^(8-1)-1=127);

阶码为什么采用移码而不用补码？
在浮点数运算时需要比较阶码的大小；补码需要判断符号位，比较大小很麻烦，而移码将有符号数偏移到正整数，易于比较大小；
例如，8位阶码的范围为1~254（0和255为特殊情况），通过偏移127可映射到-126 ~ 127，大小的相对关系不变。
非规格数实际的阶码为什么是 $1 - B i a s$ ?
从非规格化平滑过渡到规格化

尾数(f)：小数部分。对于规格数，实际的值为 $M = 1 . f$ ；对于非规格数，实际的值为 $M = 0 . f$ ；上述的整数部分在计算机中被隐藏，可节省存储空间（float的有效位数为24(隐含位1+23位尾数)；double的有效位数为53(隐含位1+52位尾数)）。
总体表达式如下：
$(-1)^{s}\times 1.f\times 2^{(e-bias)} (规格数)$
$(-1)^{s}\times 0.f\times 2^{(1-bias)} (非规格数)$