数据在内存中的存储

原创于 2025-10-05 17:57:07 发布 · 472 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#c语言

这是我的第二篇博客，非常感谢大家的支持，以后我会继续更新关于C语言和C++以及嵌入式的内容，如果有问题的话，恳请各位大佬在评论区指正，我会努力把每部分的知识给大家讲懂，下面正文开始。

1. 整数在内存中的存储

整数的二进制表示方法有三种，即原码，补码，反码。

有符号的整数，三种表示方法均有符号位和数值位两部分。符号位都是用0表示正，1表示负，最高一位是符号位，其余都是数值位。

原码：直接将数值按照正负数的形式翻译成⼆进制得到的就是原码。

反码：将原码的符号位不变，其他位依次按位取反就可以得到反码。

补码：反码+1就得到补码。

正整数的原码，补码，反码都相同，负整数的原码，反码，补码就按照定义来。

对于整形来说，数据在内存中其实放的是补码。为什么呢？

原因是使⽤补码，可以将符号位和数值域统⼀处理；同时，加法和减法也可以统⼀处理（CPU只有加法器）。此外，补码与原码相互转换，其运算过程是相同的，不需要额外的硬件电路。

2. 大小端字节序和字节序判断

当我们了解了整数在内存中存储后，我们调试看⼀个细节：

#include<stdio.h>

int main()
{
    int a = 0x11223344;
    return 0;
}

在这里，我是用VS2022来调试的，我们可以看到 0x11223344 这个数字是按照字节为单位，倒着存储的

在这里，我们发现数据的低位字节内容保存在内存的低地址处，⽽数据的⾼位字节内容，保存在内存的⾼地址处。下面我们引出大小端的概念。

2.1 什么是大小端？

其实超过⼀个字节的数据在内存中存储的时候，就有存储顺序的问题，按照不同的存储顺序，我们分为大端字节序存储和小端字节序存储，下⾯是具体的概念：

大端（存储）模式：

是指数据的低位字节内容保存在内存的⾼地址处，而数据的高位字节内容，保存在内存的低地址处（可以理解为正着放）。

小端（存储）模式：

是指数据的低位字节内容保存在内存的低地址处，而数据的高位字节内容，保存在内存的⾼地址处。（可以理解为倒着放）

在VS2022中数据存储是以小端模式存储的，就是倒着放。

2.2 为什么有大小端?

为什么会有大小端模式之分呢？

这是因为在计算机系统中，我们是以字节为单位的，每个地址单元都对应着⼀个字节，⼀个字节为8 bit 位，但是在C语言中除了8bit的 char 之外，还有16bit的 short 型，32bit的 long 型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器（处理器）宽度大于⼀个字节，那么必然存在着⼀个如何将多个字节安排的问题。因此就导致了大端存储模式和小端存储模式。

例如：⼀个 16bit 的 short 型 x ，在内存中的地址为0x0010 ,x 的值为 0x1122。那么0x11 为⾼字节, 0x22 为低字节。对于大端模式，就将 0x11放在低地址中，即 0x0010，0x22放在高地址处，即 0x0011 中。小端模式，刚好相反。我们常用的X86 结构是小端模式，而keil C51（51单片机会用到的软件）则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

下面来做一些练习来巩固一下大小端的知识。

2.3 练习

2.3.1 练习1

请简述大端字节序和小端字节序的概念，设计⼀个⼩程序来判断当前机器的字节序。(百度笔试题）

关于大小端字节的概念上面已经说过，这里就不再赘述了。下面我们来看如何实现一个程序来判断机器的字节序，我们不能想当然的通过调试来解决，要让结果显示在屏幕上，直接告诉我们是大端还是小端。

方法1：

#include<stdio.h>

int check_sys()
{
    int i = 1;
    return (*(char *)&i);
}

int main()
{
    int ret = check_sys();
    if(ret == 1)
     {
         printf("⼩端\n");
     }
    else
     {
         printf("大端\n");
     }
    return 0;
}

check_sys函数中定义了一个局部变量1，在32位的处理器中其二进制表示方法为 0000 0000 0000 0000 0000 0000 0000 0001 ，16进制中表示方法为 0x 00 00 00 01，&i是把i的地址取出来，类型是int *,然后强转为char *,然后再解引用，就访问到了一个字节（该字节是存储在内存低地址处的），主函数里调用check_sys函数，判断返回值，根据大小端字节的定义就得到结果

进入VS的调试过程就看到如下结果

可以看到01放在最前面（也就是低地址处）符合小端存储的定义，下面是运行结果

方法二很巧妙，用了联合体的方法（这个方法叫我在考场上独立写出来，我估计也写不出来）

int check_sys()
{
	union
	{
		char c;
        int i;
	}un;
	un.i = 1;
	return un.c;
}

int  main()
{
	int ret = check_sys();
	if (ret == 1)
	{
		printf("小端\n");
	}
	else
	{
		printf("大端\n");
	}
}

这里先简单介绍一下联合体，关于联合体的具体知识，我之后会专门出一篇博客来讲解。

联合体是由⼀个或者多个成员构成，这些成员可以不同的类型。但是编译器只为最大的成员分配足够的内存空间。联合体的特点是所有成员共用同⼀块内存空间。所以联合体也叫：共用体。

联合的大小至少是最大成员的大小。当最大成员大小不是最大对齐数的整数倍的时候，就要对齐到最大对齐数的整数倍。关于最大对齐数，我会在有关结构体那一篇博客讲到。这里我们知道这里un联合体的大小为4个字节。下面是示意图（地址是瞎填的，具体地址取决与编译器）

我们把un.i的值置为1 ，在32位的处理器中用二进制来表示为 0000 0000 0000 0000 0000 0000 0000 0001，用16进制表示为0x 00 00 00 01，最后我们返回的是un.c的值，un.c的地址就是操作系统分配的低地址，取出这个值，判断它的值，根据定义一样能判断出当前机器是大端还是小端。该方法比较巧妙，写出来能给人眼前一亮的感觉。

2.3.2 练习2

下面程序的输出结果是什么

#include <stdio.h>
int main()
{
	char a = -1;
	signed char b = -1;
	unsigned char c = -1;
	printf("a=%d,b=%d,c=%d", a, b, c);
	return 0;
}

当然在这里先说明一下，我们自己在写程序的时候不要这么写，int用%d来打印，char用%f 打印（或者选择保留几位小数，这里就不再说了）这个只是题目这么考的。

首先我们要知道char 到底是有符号的还是无符号的是取决于编译器的，在VS中，char是有符号的，我们之前说过整数在内存中的是以补码形式存储的。

以四个字节来看，-1补码为1111 1111 1111 1111 1111 1111 1111 1111

-1的原码为1000 0000 0000 0000 0000 0000 0000 0001

存储在a里面的是1111 1111因为char 是一个字节，所以取低8位

a="%d"要整形提升 char(在VS中）最高位为符号位，符号位为1，整形提升后在前面全补1，即

1111 1111 1111 1111 1111 1111 1111 1111（这是补码形式），所以a=%d输出为-1，同理b=%d输出也为-1

signed char 表示范围为-128到127 unsigned char 表示范围为0到255，对于c,虽然-1不在0到255范围内，但仍可存在c里，最后以%d打印

同理c存的是 1111 1111

整形提升后，unsigned char 最高位不是符号位，所以前面全补0，即

0000 0000 0000 0000 0000 0000 1111 1111，以%d打印出来即为255

下面是运行结果

2.3.3 练习3

下面两个程序的运行结果是什么

先看第一个程序

#include <stdio.h>
 int main()
 {
     char a = -128;
     printf("%u\n",a);
     return 0;
 }

上面我们说过在VS中char 会被认为是有符号的数字

以四个字节来看（即32位）

-128的原码 1000 0000 0000 0000 0000 0000 1000 0000

-128的反码 1111 1111 1111 1111 1111 1111 0111 1111

-128的补码 1111 1111 1111 1111 1111 1111 1000 0000

所以在a里面存的是1000 0000

以“%u"的形式打印，认为a中存储的是无符号的数字

a是char类型，要进行整形提升，整形提升后为

1111 1111 1111 1111 1111 1111 1000 0000，由于以%u的形式打印，这个数为无符号的数，即为正数，正数的原码和补码相等，然后再将这个数转为10进制，即为下面的结果

我们再来看一个和这个程序很像的程序

#include <stdio.h>
int main()
{
	char a = 128;
	printf("%u\n", a);
	return 0;
}

可以发现这个程序和上一个程序的差别就是a从-128变到了128

128的原码补码和反码都相等，即为（以4个字节来看）

0000 0000 0000 0000 0000 0000 1000 0000

所以a中存储的是1000 0000

整形提升后为 1111 1111 1111 1111 1111 1111 1000 0000

以“%u"的形式打印，把这个数看成无符号的整数，正数的原码和补码相同，将这个2进制转为10进制即得到下面结果，和上面一个代码运行结果相同

2.3.4 练习4

下面程序的运行结果是什么

#include <stdio.h>
int main()
{
	char a[1000];
	int i;
	for (i = 0; i < 1000; i++)
	{
		a[i] = -1 - i;
	}
	printf("%d", strlen(a));
	return 0;
}

a数组中的每一个元素是char类型的，在VS中char被当成signed char ，此时char的范围为-128到127，所以我们不能天真的以为a数组中的元素减到-128之后就是-129了，a数组中的元素为

-1 -2 -3 ...-128,这是前面的一些数据，到减到-128后结果是啥呢，我们不妨来画个图，该图如下

我们用补码形式来以此加或减，1的补码为0000 0001，加1之后就变为 0000 0010 ，一直当加到127的时候（0111 1111），再加一就变为1000 0000，由于符号位是1，该数为负数，1000 0000即为-2的7次方，即128，依次加1，直到加到1111 1111（-1）的时候，再加1 即 1 0000 0000，取低8为就是0000 0000 ，即为0。同理减也类似

所以-128后面是127，126. ...0 -1 -2，直到循环1000次

而strlen求得的是字符串的长度，统计的是\0(ASCII码值是0）之前的字符个数，即从-1，-2...-128,127,126....1,这其中有255个数字，即程序运行结果是255，如下图

2.3.5 练习5

下面两个程序运行结果是什么

#include <stdio.h>
unsigned char i = 0;
int main()
{
    for (i = 0; i <= 255; i++)
    {
	    printf("hello world\n");
    }
    return 0;
}

我们知道unsigned char 的取值范围为0到255，就像上面那个转盘一样，加到255后就变为0 了，由于我对电脑自带的画图软件不熟悉，我就上传我自己在纸上画的转盘如下图所示。还有一个图借用鹏哥的图

所以该程序i的范围始终在0到255，循环会一直执行，该循环是死循环，一直在打印hello world

下图是运行结果

接下来看另一个程序

#include<stdio.h>
int main()
{
	unsigned int i;
	for (i = 9; i >= 0; i--)
	{
		printf("%u\n", i);
	}
	return 0;
}

和上一个程序差不多，unsigned int 表示范围为0到65535，i从9，8，7...0再减下去就变为65535，65534，一直再减到0，循环条件一直为真，程序一直处于死循环，由于最后要整形提升，从8位二进制到32位二进制，最后变为10进制，所以最后打印的数会很大，下面是运行结果，如果不手动关闭，会一直打印

2.3.6 练习6

下面程序的运行结果是什么（前提是在小端环境下）当然在大端环境下也能做，只是结果和这不一样罢了，各位可以自己课后去想想，我会把结果放在评论区。

#include <stdio.h>
int main()
{
	int a[4] = { 1, 2, 3, 4 };
	int* ptr1 = (int*)(&a + 1);
	int* ptr2 = (int*)((int)a + 1);
	printf("%x,%x", ptr1[-1], *ptr2);
	return 0;
}

&a取出来的是数组的地址，&a等价于int(*)[4]，&a+1指向的是数组最后面的地址，ptr[-1]相当于*（ptr1-1),解引用ptr1是从该地址往后取一个整形，如下图所示

所以ptr[-1]的值就是4

(int)a是将数组的首元素的地址强转为int，整形类型的值加1就是加1 ，这里要和指针加1区别，指针加1，取决于指针的类型，假设（int*）a的值为0x0012ff40,0x0012ff40加1就变成0x0012ff41,所以这时用（int *)强转后是指向首元素的下一个字节，*ptr2解引用访问四个字节，具体图如下所示（要注意是小端存储）

所以此时*ptr2= 0x02000000,在16进制中x后面的0写不写都没事，下面是运行结果

3. 浮点数在内存中的存储

常见的浮点数：3.14159、1E10等，浮点数家族包括：float 、 double 、 long double 类型。浮点数表示的范围： float.h 中定义

3.1 练习

#include <stdio.h>
int  main()
{
	int n = 9;
	float* pFloat = (float*)&n;
	printf("n的值为：%d\n",n);
	printf("*pfloat的值为:%f\n", *pFloat);

	*pFloat = 9.0;
	printf("num的值为:%d\n",n);
	printf("*pfloat的值为:%f\n", *pFloat);
	return 0;
}

这个程序的运行结果大家可以先想想，等我把浮点数在内存中的存储讲完就来回到这一题。

3.2 浮点数的存储

根据国际标准IEEE（电气和电子工程协会）754，任意⼀个⼆进制浮点数V可以表⽰成下⾯的形式：

$V=(-1)^{S}*M*{2}^E$

$(-1)^{{_{S}}^{}}$ 表示符号位，当S=0，V为正数；当S=1，V为负数

M表示有效数字，M是大于等于1，小于2的

$^{{2{}}^{E}}$ 表示指数位

举例来说：

⼗进制的5.0，写成⼆进制是 101.0 ，相当于 1.01×2^2 。

那么，按照上面V的格式，可以得出S=0，M=1.01，E=2。

⼗进制的-5.0，写成⼆进制是-101.0,相当于-1.01×2^2 。那么，S=1，M=1.01，E=2。

IEEE 754规定：

对于32位的浮点数，最高的1位存储符号位S，接着的8位存储指数E，剩下的23位存储有效数字M 对于64位的浮点数，最高的1位存储符号位S，接着的11位存储指数E，剩下的52位存储有效数字M

3.2.1 浮点数存的过程

IEEE 754对有效数字M和指数E，还有⼀些特别规定。

前⾯说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中 xxxxxx 表示小数部分。 IEEE 754规定，在计算机内部保存M时，默认这个数的第⼀位总是1，因此可以被舍去，只保存后⾯的 xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第⼀位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第⼀位的1舍去以后，等于可以保存24位有效数字。

至于指数E，情况就比较复杂

首先，E为⼀个无符号整数（unsigned int）

这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE754规定，存入内存时E的真实值必须再加上⼀个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10的E是 10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

3.2.2 浮点数取的过程

指数E从内存中取出还可以再分成三种情况：

E不全为0或不全为1

这时，浮点数就采⽤下⾯的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第⼀位的1。比如：0.5的⼆进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127(中间值)=126，表⽰为01111110，而尾数1.0去掉整数部分为0，补齐0到23位 00000000000000000000000，则其⼆进制表示形式为:

E全为0

这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，有效数字M不再加上第⼀位的1，⽽是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）

好了，到现在关于浮点数在内存中的存储以及一些细节我已经讲完了，现在我们再回头看那个题目吧

#include <stdio.h>
int  main()
{
	int n = 9;
	float* pFloat = (float*)&n;
	printf("n的值为：%d\n",n);
	printf("*pfloat的值为:%f\n", *pFloat);

	*pFloat = 9.0;
	printf("num的值为:%d\n",n);
	printf("*pfloat的值为:%f\n", *pFloat);
	return 0;
}

首先，第一个输出的结果是很明显的，为9，再看第二个，&n是int *类型的，将它强转为float *，然后再赋给pFloat。

n=9,我们实际上存储的是9的补码，即（用32个bit位来写）

0000 0000 0000 0000 0000 0000 0000 10001

站在pFloat的角度上来看，它会认为自己指向的是float类型的数值，会以下述方法解读

0 00000000 00000000000000000001001

S E M

当内存中的E为全0时，真实的E为1-127=-126，有效数字M取出后不再加上第一位的1，此时这个数特别小，几乎接近于0,以%f打印的时候默认打印到小数点后6位，所以第2个输出的是0.000000

再看第三个，*pFloat-9.0,站在pFloat的角度上来看，它会认为自己指向的是float类型的数值,所以此时9.0以浮点数的存储规则来存储，即此时S=0;M=1.001,E=3，即存储成

0 10000010 00100000000000000000000

然后再以整数的视角往外拿的时候，它认为这个是补码，且%d是以有符号数打印的，最高位为符号位，这个数最高位为0，正数的原码和补码相同。

即 0100 0001 0001 0000 0000 0000 0000 0000，转换成10进制就是1091567616

下面是运行结果