解码新时代内存架构：探秘数据在内存中的灵动驻足

Miracle_86.

已于 2024-04-24 20:03:03 修改

阅读量1.9k

点赞数 94

分类专栏： C语言知识文章标签： c语言学习方法数据结构算法

于 2024-03-24 20:10:26 首次发布

本文链接：https://blog.csdn.net/Miracle_86/article/details/136989406

版权

C语言知识专栏收录该内容

21 篇文章 21 订阅

订阅专栏

欢迎来到白刘的领域 Miracle_86.-CSDN博客

系列专栏 C语言知识

先赞后看，已成习惯

创作不易，多多支持！

随着信息技术的飞速发展，我们身处一个数据爆炸的时代。数据的处理和存储方式正日益成为技术革新的重要领域。在新时代的内存架构中，数据的灵动驻足，正为计算世界注入无限活力。今天我们就来简单探讨一下数据在内存中的存储。

一、整数在内存中的存储

前面在讲解操作符的时候，我们就提到了原码、反码、补码。这三个是整数的二进制的三种表示方法。

武器大师——操作符详解（上）-CSDN博客

三种表示方法均有符号位和数值位两部分，符号位都是由“ 0 ”表示“ 正 ”，“ 1 ”表示“ 负 ”，而数值位的最高一位被当做符号位，其余的都是数值位。

正整数的原、反、补码都相同。

负整数则各不相同，需要运算：

原码：直接将数值按照正负数的形式翻译成二进制得到的就是原码。

反码：原码的符号位不变，其它位都取反（也就是0变成1，1变成0）。

补码：就是在反码的基础上+1。

而对于整型来讲：数据在内存中存放的其实是补码。

为什么呢？

在计算机系统中，数值⼀律⽤补码来表⽰和存储。

原因在于，使⽤补码，可以将符号位和数值域统⼀处理；

同时，加法和减法也可以统⼀处理（CPU只有加法器）此外，补码与原码相互转换，其运算过程是相同的，不需要额外的硬件电路。

二、大小端字节序和字节序判断

当我们了解完整数在内存中的存储后，我们调试看会发现一个细节：

#include <stdio.h>
int main()
{
	int a = 0x11223344;

	return 0;
}

调试的时候我们可以看到a中的0x11223344这个数字是以字节为单位，倒着存储的。那它为什么不是正着存储的呢？

2.1 什么是大小端

其实超过一个字节的数据在内存中存储的时候，不可避免出现存储顺序的问题，按照不同的存储顺序，我们分为大端字节序和小端字节序。

大端（存储）模式：是指数据的低字节内容保存在高地址处，而数据的高字节内容保存到低地址处。

小端（存储）模式：是指数据的低字节内容保存在低地址处，而数据的高字节内容保存到高地址处。

2.2 为什么要有大小端

在计算机系统中，内存的基本组织单位是字节，每个内存地址单元都对应一个字节，即8位。然而，在编程语言如C语言中，除了8位的char类型外，还存在其他位宽的数据类型，如16位的short型和32位的long型（具体位宽可能因编译器而异）。

当使用位数大于8位的处理器，比如16位或32位处理器时，由于它们的寄存器宽度超过一个字节，这就涉及到了如何将多个字节组合在一起存储的问题。这种多字节数据的存储顺序问题导致了两种不同的字节序模式：大端字节序和小端字节序。

以16位的short型变量x为例，假设其在内存中的起始地址为0x0010，并且x的值为0x1122。在这里，0x11是高位字节，0x22是低位字节。如果采用大端字节序，高位字节0x11会被存放在较低的地址0x0010中，而低位字节0x22则存放在较高的地址0x0011中。相反，如果采用小端字节序，存储顺序则正好相反。

在我们常见的X86架构中，采用的是小端字节序。然而，不同的处理器架构或编程环境可能有不同的选择。例如，KEIL C51通常使用大端字节序，而许多ARM和DSP处理器则采用小端字节序。甚至有些ARM处理器允许通过硬件配置来选择使用大端字节序还是小端字节序。

2.3 练习

练习1

设计一个程序来判断当前机器的字节序。（10分）——百度笔试题。

//代码1
#include <stdio.h>
int check_sys()
{
	int i = 1;
	return (*(char*)&i);
}
int main()
{
	int ret = check_sys();
	if (ret == 1)
	{
		printf("⼩端\n");
	}
	else
	{
		printf("⼤端\n");
	}
	return 0;
}

思路：我们知道整型1的原码是0x00 00 00 01（仅写8位做示例），如果按照小端字节序，它存放的应该是01 00 00 00；如果是大端则是00 00 00 01。那我们只需要判断第一个字节是00还是01即可，所以我们用到了强制类型转换，将其转换成char*。

//代码2
int check_sys()
{
	union
	{
		int i;
		char c;
	}un;
	un.i = 1;
	return un.c;
}

第二种方法则用到了联合体，这段先放着，我们以后再来讲（继续挖坑ing）。

练习2

#include <stdio.h>
int main()
{
	char a = -1;
	signed char b = -1;
	unsigned char c = -1;
	printf("a=%d,b=%d,c=%d", a, b, c);
	return 0;
}

这里先说一下什么是signed char以及unsigned char，正常的char我们都知道，存放一个字节，也就是8个比特位，而signed char是有符号字符型，说明它的最高位被当成了符号位，而unsigned char就是无符号的，那接下来就可以计算了。

//对于a：

//首先写出-1的原码   10000000 00000000 00000000 00000001
//反码              11111111 11111111 11111111 11111110
//补码              11111111 11111111 11111111 11111111
//由于a为char 所以只能存储一个字节，所以存储的为11111111
//继续计算，补码变成原码，取反+1,              10000001
//所以输出-1。

//对于b，和a同理

//对于c，因为它是无符号的，所以存储的为10000001，直接换算为255

来看运行结果：

练习3

#include <stdio.h>
int main()
{
	char a = -128;
	printf("%u\n", a);
	return 0;
}

如果想知道这题如何做，我们首先要知道%u是什么，它的意思是认为a中存放的是无符号整数。由于a为char类型，所以我们首先要进行整型提升。

//原码 10000000 00000000 00000000 10000000
//反码 11111111 11111111 11111111 01111111
//补码 11111111 11111111 11111111 10000000

//由于%u，所以打印出来一个很大的数

运行结果：

三、浮点数在内存中的存储

常见的浮点数：3.14159、1E10...浮点数家族包括：float、double、long double类型。

浮点数的范围：在<float.h>中定义。

#include <stdio.h>
int main()
{
	int n = 9;
	float* pFloat = (float*)&n;
	printf("n的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);
	*pFloat = 9.0;
	printf("num的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);
	return 0;
}

来看运行结果：

上述代码的n和*pFloat明明存储的是一样的值为什么两次*pFloat的值不一样呢？

要理解这个结果的话，我们需要搞懂浮点数在计算机内部的存储方法。

3.1 浮点数存的过程

根据国际标准IEEE（电气和电子工程协会）754，任意一个二进制浮点数V可以表示成下面的形式： $V=\left ( -1 \right )^{S}\ast M\ast 2^{E}$ （其中 $\left ( -1 \right )^{S}$ 代表符号位，M代表有效数字， $2^{E}$ 代表指数位）。

举个例子：

十进制的5.0，写成二进制是101.0，相当于1.01*2²，S=0，M=1.01，E=2。

十进制的-5.0，写成二进制是-101.0，相当于-1.01*2²，S=1，M=1.01，E=2。

IEEE 754规定：

对于32位的浮点数，最高1位存储符号位S，之后的8位存储指数E，剩下的23位存储有效数字M；

对于64位的浮点数，最高1位存储符号位S，之后的11位存储指数E，剩下的23位存储有效数字M。

IEEE 754对M和E还有一些特殊规定。

前面说过，1≤M<2，也就是说M可以写成1.xxxxxxxxx，其中xxxxxxxxx是小数部分。

IEEE 754规定，在计算机内部保存M时，默认这个数的第一位是1，因此可以被舍去，只保存后面的小数部分。比如保存1.01时，只保存后面的01，等到读取的时候，再把前面的1加上，这样做的目的，是可以节省1位有效数字。以32位浮点数为例，留给M的只有23位，将1舍去后，就可以保留24位。

而至于指数E，情况就比较复杂了。

首先E是一个无符号整数（unsigned int）。

这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存⼊内存时E的真实值必须再加上⼀个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。⽐如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

3.2 浮点数取的过程

E从内存中取出还可以分为三种情况：

E不全为0或不全为1

这时，浮点数就采⽤下⾯的规则表⽰，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第⼀位的1。
⽐如：0.5 的⼆进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为1.0*2^(-1)，其阶码为-1+127(中间值)=126，表⽰为01111110，⽽尾数1.0去掉整数部分为0，补⻬0到23位00000000000000000000000，则其⼆进制表⽰形式为: