【从浅学到熟知Linux】程序地址空间分布与进程地址空间详谈（含虚拟地址到物理地址的映射）

最新推荐文章于 2024-04-15 14:05:08 发布

Jammingpro

最新推荐文章于 2024-04-15 14:05:08 发布

阅读量1k

点赞数 13

分类专栏：从浅学到熟知Linux 文章标签： linux 运维服务器

本文链接：https://blog.csdn.net/m0_66926829/article/details/137735427

版权

从浅学到熟知Linux 专栏收录该内容

31 篇文章 5 订阅

订阅专栏

本文详细解释了C语言程序中的地址空间概念，包括代码段、全局数据区、栈区和堆区的存储规律，以及进程地址空间如何与物理地址映射。通过实例探讨了虚拟地址、写时拷贝和进程独立性的实现机制，以及操作系统如何通过页表管理和优化内存使用。

摘要由CSDN通过智能技术生成

在这里插入图片描述

🏠关于专栏：Linux的浅学到熟知专栏用于记录Linux系统编程、网络编程等内容。
🎯每天努力一点点，技术变化看得见

程序地址空间概览

我们在执行一个C语言程序时，它包含代码、变量，这些数据均需要空间，那它们的存储规律是什么样的呢？下面我们通过一段代码来验证一下↓↓↓

#include <stdio.h>
#include <stdlib.h>

int g_val = 100;
int u_g_val;

int main(int argc, char* argv[], char* env[])
{
	printf("code:%p\n", main);
	printf("init_g_val:%p\n", &g_val);
	printf("uninit_g_val:%p\n", &u_g_val);
	
	char* arr1 = (char*)malloc(sizeof(char) * 4);
	char* arr2 = (char*)malloc(sizeof(char) * 4);
	char* arr3 = (char*)malloc(sizeof(char) * 4);
	char* arr4 = (char*)malloc(sizeof(char) * 4);

	printf("heap:%p\n", arr1);
	printf("heap:%p\n", arr2);
	printf("heap:%p\n", arr3);
	printf("heap:%p\n", arr4);

	printf("stack:%p\n", &arr1);
	printf("stack:%p\n", &arr2);
	printf("stack:%p\n", &arr3);
	printf("stack:%p\n", &arr4);

	printf("&argc=%p\n", &argc);
	printf("argv=%p\n", argv);
	printf("env=%p\n", env);

	return 0;
}

在这里插入图片描述
由上面代码的执行结果可知，从低地址到高地址存储的依次是：代码段、初始化全局数据区、未初始化全局数据区、堆区、栈区、命令行参数与环境变量。其中，堆区的空间是从小到大增长的，而栈区的空间是从大到小增长的。因而，可以总结出下图↓↓↓

★ps：32位机器中，表示一个地址时使用的是32个比特位，32个比特位能表示的空间为 $2^{32}$ ，即4GB；64位机器中，表示一个地址时则使用64个比特位，64个比特能表示的空间为 $2^{64}$ ，即16EB。

在这里插入图片描述

但这个空间是真正的内存吗？我们来看一段程序及其运行结果↓↓↓

#include <stdio.h>
#include <unistd.h>
#include <sys/types.h>

int g_val = 100;

int main()
{
	pid_t id = fork();
	if(id == 0)
	{
		//子进程
		int cnt = 5;
		while(1)
		{
			printf("I am child process, pid = %d, g_val = %d, &g_val = %p\n", getpid(), g_val, &g_val);
			sleep(1);
			if(cnt == 0)
			{
				printf("Child process change g_val from 100 to 200\n");
				g_val = 200;
			}
			cnt--;
		}
	}
	else
	{
		while(1)
		{
			printf("I am parent process, pid = %d, g_val = %d, &g_val = %p\n", getpid(), g_val, &g_val);
			sleep(1);
		}
	}
	return 0;
}

在这里插入图片描述
我们发现，子进程将g_val从100改为200后，父子进程的g_val数值不同，但g_val的地址却是相同的！怎么可能从同一个地址中读取不同的数据呢？如果是物理地址，则不可能出现这种情况，说明这里的程序地址空间并不是物理地址。也说明了，我们平时在使用的C/C++指针保存的地址并不是物理地址。这种地址被称为线性地址或虚拟地址。

进程地址空间

对于每个进程，它维护着一片虚拟地址空间，进程中各个变量的地址是该虚拟空间内的地址，虚拟地址空间中的地址并不是真正的物理地址。那这里的地址如何与真正的物理地址空间产生关联的呢？进程的PCB中指向一张维护虚拟空间与物理地址映射关系的页表（左侧为虚拟地址，右侧为物理地址的key-value映射表）。

当我们获取初始化全局数据g_val时，它的虚拟地址为0x00601054；拿着它的虚拟地址到页表中查找它的物理地址，再从物理地址中返回g_val的值。
在这里插入图片描述
当父进程fork出一个子进程时，由于每个进程都有自己的虚拟地址空间，因而子进程也有自己的虚拟地址空间，该空间是从父进程那里继承下来的。这时，子进程的页表中虚拟地址到物理地址的映射关系与父进程相同。也就是说，子进程与父进程共享同一个g_val的存储位置及正文代码。
在这里插入图片描述
当子进程尝试修改g_val的值时，为了保证进程之间的独立性（也就是说，子进程的数值修改不应该影响父进程），此时就会发生写时拷贝。会给子进程的g_val开辟独立的物理地址空间，而不是与父进程共享同一空间。

★ps：如果子进程在创建时，就将父进程的所有数据拷贝一遍，若此时子进程只用到父进程的1个/2个数据，则会出现大量的空间浪费。引入写时拷贝后，如果子进程不需要对父进程的数据做修改，就不会为子进程的该数据创建独立的物理空间，可以大大提高内存的使用效率，提高整机效率。
在这里插入图片描述
下面我们来探索一下三个问题↓↓↓

什么叫做地址空间？

在32位机器下，数据与地址总线共32根，每根数据与地址线可以产生充电和放电两种状态，即产生0或1。因此地址总线排列组合形成地址范围[0，2^32]，这就是地址空间。

如何理解地址空间上的区域划分？

【示例】小学生划分38线
小明和李华是同桌，他们的桌子长度为200cm，他们约定每个人占用100cm的空间。即将课桌划分为[0,100]，[101,200]这两个区域。这也就是区域划分。

如果要记录区域的结果，我们就需要先描述再组织。即使用结构体保存。

struct deskstop
{
	int xiaoming_start;
	int xiaoming_end;
	int lihua_start;
	int lihua_end;
}

操作系统为每个进程创建了进程地址空间的结构体mm_struct，用于记录每个进程的各个区域（堆区、栈区、代码区等）的起始和结束位置。在已经被分配给某进程的空间范围内，该进程可以随意访问与使用。

为什么要有进程地址空间？

【示例1】大富翁的3个私生子
某个有100亿的大富翁，他有3个私生子，3个私生子互相不知道对方的存在，他们各自坚信自己能获得老爹的100亿。当某个儿子有需求时，他回向他父亲申请1万，此时大富翁会将对应的钱数给他；但如果申请100亿时，可能无法申请成功（因为有一部分被大富翁的其他私生子占用了），但他并不会觉得这100亿不是他的，而是觉得自己申请的太多了。
在这里插入图片描述
而这里的大富翁就等同于操作系统，而这3个私生子就等同于系统上的进程。操作系统拥有4GB的内存空间，进程坚信自己拥有操作系统的全部空间（即4GB），但通常情况下，进程并不会申请过大的空间。

由上面的示例我们可以得出为什么要有进程空间第一个结论：
①让进程以统一视角看待内存（当两个进程申请同一个地址空间时，他们貌似能使用同一个地址空间，但操作系统给它分配的实际的物理地址并不是同一个；只是由于页表的存在，将他们想要的地址和实际操作系统分配的地址形成映射，让进程以为自己独占内存，即让进程得以按统一视角看待内存）

【示例2】小朋友的红包被妈妈管理
小时候收到红包时，妈妈会说：我帮你管理，等你需要买什么了，我再给你。如果我要买的是橡皮擦，妈妈会给我对应的钱数（即合法访问）；如果我要买50块钱的游戏机，妈妈不会给我钱还会骂我一顿（即非法访问）。

在操作系统中，页表除了包含虚拟地址到物理地址的映射关系，还记录了该区域的读写权限。当用户对其已申请空间做了超出读写权限外的操作，则会被操作系统识别到，并终止该进程。

★ps：物理地址本身没有读写权限，我们在语言中的const等限制某个地址空间的读写权限，本质是在页表中添加读写权限。
在这里插入图片描述
如果直接使用物理地址，而非虚拟地址。当我们对野指针进行访问时，由于物理地址没有读写权限控制，导致我们修改了其他进程的数据，破坏了进程的独立性。因而，使用虚拟地址+页表的方式可以保证进程的独立性。

由这个示例，我们可以的出第二个结论：
②增加进程虚拟地址可以让我们访问内存的时候，增加一个转换的过程，在这个转化过程中，可以对我们的寻址请求进行审查，所以一旦异常访问，直接拦截，该请求不会到达物理内存，即保护了物理内存。

在操作系统中，由于内存空间十分宝贵，进程中的代码和数据不一定会被全部加载到内存（这被称为操作系统的惰性加载方式），因而页表中还会有一个字段，用户标识虚拟地址指向的代码和数据是否在磁盘上。如果虚拟地址映射物理地址时，发现该数据或代码位于磁盘上（不再在内存中），则会引发缺页中断（即当前页表无法映射），此时系统再将对应的代码和数据加载到内存中。

★ps：惰性加载（也称为延迟分配），它可以提高整机效率。因而，在创建进程时，一定是先创建内核数据结构，而不是先加载对应的代码和数据到内存的。如果创建内核数据结构后，调用该进程时，即使代码和数据不存在于内存，只要发生缺页中断即可，这样可以大大提高创建进程的效率。
在这里插入图片描述
同时，如果因为内存资源紧张，可能会将某个进程挂起，即将它的代码和数据先保存到磁盘中；待内存资源不紧张时再重新加载进来，但重新加载后的物理地址可能与之前的物理地址不再相同。假设进程没有使用虚拟地址空间+页表映射的方式，则每次将进程代码和数据加载到内存就需要改动PCB中的地址空间内容，而不是修改页表的内容。这么样将使得进程管理与内存管理耦合度过高。

同时，物理内存中几乎所有的数据和代码都是乱序的，由于页表的存在，它可以将物理地址和虚拟地址进行映射，在进程视角，可以将内存分布有序化。

由上面可以得出第三个结论：
③因为有地址空间和页表的存在，将进程管理模块和内存管理模块进行了解耦合。

从上面还可以得到一个结论：
当某个进程被挂起（即它的代码和数据均在磁盘），它的状态可能是S/T/t/D等状态，而没有专门的挂起状态。但只要识别到它的代码段的"是否在磁盘上"标识为1，则表明该进程已经挂起，故无需专门设置挂起状态。

★ps：C/C++上new/malloc空间时，本质上是在哪里申请的？物理空间还是虚拟空间呢？
本质上是在虚拟地址空间上申请的，物理空间甚至一个字段都不给。而是当我们需要访问对应内存空间时，才会执行内存的相关管理（由操作系统自动完成），再从物理空间处申请空间。

此时，有个问题：当我们的程序，在编译的时候，形成可执行程序的时候，没有被加载到内存中之前，我们的程序内部有地址吗？

我们可以使用obj -afh查看可执行程序的反汇编↓↓↓
在这里插入图片描述
由上面可知，可执行程序在编译的时候，内部已经有地址了！（即VMA，虚拟地址）。地址空间不仅仅理解成操作系统内部要遵守的。编译器编译代码的时候，就已经给我们形成了各个区域：代码区、数据区…并且采用与Linux内核相同的编址方式，给每个变量，每一行代码都进行了编址。故程序在编译的时候，每一个字段早已经具有一个虚拟地址。