IEEE 754标准一篇就够了【必会】

leader_song(小宋编码)

已于 2022-03-15 21:07:52 修改

阅读量2.7w

点赞数 42

分类专栏：笔记文章标签：后端数据结构

于 2021-12-01 07:37:14 首次发布

本文链接：https://blog.csdn.net/leader_song/article/details/121647097

版权

笔记同时被 2 个专栏收录

14 篇文章

订阅专栏

计组

2 篇文章

订阅专栏

本文详细介绍了浮点数在计算机中的表示方法，包括阶码的概念、尾数的规格化以及浮点数的范围和精度。通过偏移量127的选择确保了指数的表示范围，使得32位浮点数可以表示从-3.40E+38到+3.40E+38的数值。此外，还阐述了float和double类型的指数位和尾数位对范围及精度的影响，float精度约为6-7位有效数字，double精度为15-16位。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先要知道浮点数补码原码反码。

定义：

 浮点数的阶码一般使用移码来表示，并不牵扯到规格化。
 规格化特指尾数的规格化。尾数可能是补码或者原码。

浮点数表示方法：

请添加图片描述

关于阶码：在机器中表示一个浮点数时需要给出指数，这个指数用整数形式表示，这个整数叫做阶码，阶码指明了小数点在数据中的位置。对于任意一个二进制数N，可用N=S×2^P表示，其中S为尾数，P为阶码，2为阶码的底，P、S都用二进制数表示，S表示N的全部有效数字，P指明小数点的位置。当阶码为固定值时，数的这种表示法称为定点表示，这样的数称为“定点数”；当阶码为可变时，数的这种表示法称为浮点表示，这样的数称为“浮点数”。为什么要定义使用阶码? 因为浮点数的定义导致的，也是浮点数的表示需求产生的。浮点数是属于有理数中某特定子集的数的数字表示，在计算机中用以近似表示任意某个实数。具体的说，这个实数由一个整数或定点数（即尾数）乘以某个基数（计算机中通常是2）的整数次幂得到，这种表示方法类似于基数为10的科学记数法。

为什么偏移量设置为127？

当阶码E 为全0且尾数M 也为全0时，表示的真值x 为零，结合符号位S 为0或1，有正零和负零之分。当阶码E 为全1且尾数M 为全0时，表示的真值x 为无穷大，结合符号位S
为0或1，也有+∞和-∞之分。这样在32位浮点数表示中，要除去E 用全0和全1(255)10表示零和无穷大的特殊情况，指数的偏移值不选128(10000000)，而选127(01111111)。对于规格化浮点数，E 的范围变为1到254，真正的指数值e
则为-126到+127。因此32位浮点数表示的绝对值的范围是10-38~10^38
请添加图片描述

这样我们就知道了，其实我们的浮点数是这样表示在计算机当当中的，那么浮点数的范围呢？

float与double的范围和精度

1.范围

float和double的范围是由指数的位数来决定的。 float的指数位有8位，而double的指数位有11位，分布如下：

float：
1bit（符号位） 8bits（指数位） 23bits（尾数位）
double：

1bit（符号位） 11bits（指数位） 52bits（尾数位）

于是，float的指数范围为-126到+127，而double的指数范围为-1022~+1023，并且指数位是按补码的形式来划分的。

之所以是上面的范围：上面黑体字部分已经解释了，为了比较方便，我们将指数加偏移量改为正值，由于隐匿一位偏移导致偏移量整体-1
其中负指数决定了浮点数所能表达的绝对值最小的非零数；而正指数决定了浮点数所能表达的绝对值最大的数，也即决定了浮点数的取值范围。
float的范围为-2^127 ~ +2^127，也即-3.40E+38 ~ +3.40E+38；double的范围为-2^1023 ~ +2^1023，也即-1.79E+308 ~ +1.79E+308。

2.精度

float和double的精度是由尾数的位数来决定的。浮点数在内存中是按科学计数法来存储的，其整数部分始终是一个隐含着的“1”，由于它是不变的，故不能对精度造成影响。
  float：2^23 = 8388608，一共七位，这意味着最多能有7位有效数字，但绝对能保证的为6位，也即float的精度为6~7位有效数字； 
   double：2^52 = 4503599627370496，一共16位，同理，double的精度为15~16位。这样IEE754就算基本弄清了。