小数在内存中究竟是如何存储的（C语言代码详细讲解 2）

最新推荐文章于 2025-02-27 22:41:21 发布

～晨曦静竹～

最新推荐文章于 2025-02-27 22:41:21 发布

阅读量1.6k

点赞数 2

分类专栏：计算机组成原理 C 语言文章标签： c语言

本文链接：https://blog.csdn.net/qq_43515862/article/details/108798137

版权

C 语言同时被 2 个专栏收录

9 篇文章

订阅专栏

计算机组成原理

4 篇文章

订阅专栏

本文深入探讨了二进制浮点数在内存中的存储原理，包括符号、尾数及指数的具体存储方式，并通过实例说明了精度问题及其对数值表示的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

小数在内存中是如何存储的，揭秘诺贝尔奖级别的设计

二进制形式的浮点数的存储

虽然C语言标准没有规定 base 使用哪种进制，但是在实际应用中，各种编译器都将 base 实现为二进制，这样不仅贴近计算机硬件（任何数据在计算机底层都以二进制形式表示），还能减少转换次数。

接下来我们就讨论一下如何将二进制形式的浮点数放入内存中。

原则上讲，上面的科学计数法公式中，符号 sign、尾数 mantissa、基数 base 和指数 exponent 都是不确定因素，都需要在内存中体现出来。但是现在基数 base 已经确定是二进制了，就不用在内存中体现出来了，这样只需要在内存中存储符号 sign、尾数 mantissa、指数 exponent 这三个不确定的元素就可以了。

仍然以 19.625 为例，将它转换成二进制形式的浮点数格式：

19.625 = 1.0011101×24

此时符号 sign 为 0，尾数 mantissa 为 1.0011101，指数 exponent 为 4。

1) 符号的存储

符号的存储很容易，就像存储 short、int 等普通整数一样，单独分配出一个位（Bit）来，用 0 表示正数，用 1 表示负数。对于 19.625，这一位的值是 0。
2) 尾数的存储

当采用二进制形式后，尾数部分的取值范围为 1 ≤ mantissa ＜ 2，这意味着：尾数的整数部分一定为 1，是一个恒定的值，这样就无需在内存中提现出来，可以将其直接截掉，只要把小数点后面的二进制数字放入内存中即可。对于 1.0011101，就是把 0011101 放入内存。

我们不妨将真实的尾数命名为 mantissa，将内存中存储的尾数命名为 mant，那么它们之间的关系为：

mantissa = 1.mant

如果 base 采用其它进制，那么尾数的整数部分就不是固定的，它有多种取值的可能，以十进制为例，尾数的整数部分可能是 1~9 之间的任何一个值，这样一来尾数的整数部分就不能省略了，必须在内存中体现出来。而将 base 设置为二进制就可以节省掉一个位（Bit）的内存，这也算是采用二进制的一点点优势。
3) 指数的存储
指数是一个整数，并且有正负之分，不但需要存储它的值，还得能区分出正负号来。

short、int、long 等类型的整数在内存中的存储采用的是补码加符号位的形式，数值在写入内存之前必须先进行转换，读取以后还要再转换一次。但是为了提高效率，避免繁琐的转换，指数的存储并没有采用补码加符号位的形式，而是设计了一套巧妙的解决方案，稍等我会为您解开谜团。

为二进制浮点数分配内存

为二进制浮点数分配内存C语言中常用的浮点数类型为 float 和 double；float 始终占用 4 个字节，double 始终占用 8 个字节。

下图演示了 float 和 double 的存储格式：
在这里插入图片描述

浮点数的内存被分成了三部分，分别用来存储符号 sign、尾数 mantissa 和指数 exponent ，当浮点数的类型确定后，每一部分的位数就是固定的。

符号 sign 可以不加修改直接放入内存中，尾数 mantissa 只需要将小数部分放入内存中，最让人疑惑的是指数 exponent 如何放入内存中，这也是我们在前面留下的一个谜团，下面我们以 float 为例来揭开谜底。

float 的指数部分占用 8 Bits，能表示从 0~255 的值，取其中间值 127，指数在写入内存前先加上127，读取时再减去127，正数负数就显而易见了。19.625 转换后的指数为 4，4+127 = 131，131 换算成二进制为 1000 0011，这就是 19.626 的指数部分在 float 中的最终存储形式。

先确定内存中指数部分的取值范围，得到一个中间值，写入指数时加上这个中间值，读取指数时减去这个中间值，这样符号和值就都能确定下来了。

中间值的求取有固定的公式。设中间值为 median，指数部分占用的内存为 n 位，那么中间值为：

median = 2n-1 - 1

对于 float，中间值为 28-1 - 1 = 127；对于 double，中间值为 211-1 -1 = 1023。

我们不妨将真实的指数命名为 exponent，将内存中存储的指数命名为 exp，那么它们之间的关系为：

exponent = exp - median

也可以写作：

exp = exponent + median

为了方便后续文章的编写，这里我强调一下命名：

	1.	mantissa 表示真实的尾数，包括整数部分和小数部分；mant 表示内存中存储的尾数，只有小数部分，省略了整数部分。
	2.	exponent 表示真实的指数，exp 表示内存中存储的指数，exponent 和 exp 并不相等，exponent 加上中间数 median 才等于 exp。

用代码验证 float 的存储

19.625 转换成二进制的指数形式为：

19.625 = 1.0011101×24

此时符号为 0；尾数为 1.0011101，截掉整数部分后为 0011101，补齐到 23 Bits 后为 001 1101 0000 0000 0000 0000；指数为 4，4+127 = 131，131 换算成二进制为 1000 0011。

综上所述，float 类型的 19.625 在内存中的值为：0 - 10000011 - 001 1101 0000 0000 0000 0000。

下面我们通过代码来验证一下：

#include <stdio.h>
#include <stdlib.h>
//浮点数结构体
typedef struct {
    unsigned int nMant : 23;  //尾数部分
    unsigned int nExp : 8;  //指数部分
    unsigned int nSign : 1;  //符号位
} FP_SINGLE;
int main()
{
    char strBin[33] = { 0 };
    float f = 19.625;
    FP_SINGLE *p = (FP_SINGLE*)&f;
   
    itoa(p->nSign, strBin, 2);
    printf("sign: %s\n", strBin);
    itoa(p->nExp, strBin, 2);
    printf("exp: %s\n", strBin);
    itoa(p->nMant, strBin, 2);
    printf("mant: %s\n", strBin);
   
    return 0;
}

运行结果：

sign: 0
exp: 10000011
mant: 111010000000000000000

mant 的位数不足，在前面补齐两个 0 即可。

printf() 不能直接输出二进制形式，这里我们借助 itoa() 函数将十进制数转换成二进制的字符串，再使用%s输出。itoa() 虽然不是标准函数，但是大部分编译器都支持。不过 itoa() 在 C99 标准中已经被指定为不可用函数，在一些严格遵循 C99 标准的编译器下会失效，甚至会引发错误，例如在 Xcode（使用 LLVM 编译器）下就会编译失败。如果 itoa() 无效，请使用%X输出十六进制形式，十六进制能够很方便地转换成二进制。

精度问题

对于十进制小数，整数部分转换成二进制使用“展除法”（就是不断除以 2，直到余数为 0），一个有限位数的整数一定能转换成有限位数的二进制。但是小数部分就不一定了，小数部分转换成二进制使用“乘二取整法”（就是不断乘以 2，直到小数部分为 0），一个有限位数的小数并不一定能转换成有限位数的二进制，只有末位是 5 的小数才有可能转换成有限位数的二进制，其它的小数都不行。

float 和 double 的尾数部分是有限的，固然不能容纳无限的二进制；即使小数能够转换成有限的二进制，也有可能会超出尾数部分的长度，此时也不能容纳。这样就必须“四舍五入”，将多余的二进制“处理掉”，只保留有效长度的二进制，这就涉及到了精度的问题。也就是说，浮点数不一定能保存真实的小数，很有可能保存的是一个近似值。

对于 float，尾数部分有 23 位，再加上一个隐含的整数 1，一共是 24 位。最后一位可能是精确数字，也可能是近似数字（由四舍五入、向零舍入等不同方式得到）；除此以外，剩余的23位都是精确数字。从二进制的角度看，这种浮点格式的小数，最多有 24 位有效数字，但是能保证的是 23 位；也就是说，整体的精度为 23~24 位。如果转换成十进制，224 = 16 777 216，一共8位；也就是说，最多有 8 位有效数字，但是能保证的是 7 位，从而得出整体精度为 7~8 位。

对于 double，同理可得，二进制形式的精度为 52~53 位，十进制形式的精度为 15~16 位。