Linux_理解进程地址空间和页表

安权_code

已于 2024-06-19 19:43:23 修改

阅读量1.5k

点赞数 38

分类专栏： Linux 文章标签： linux 进程后端

于 2024-06-17 23:01:05 首次发布

本文链接：https://blog.csdn.net/efls111/article/details/139755300

版权

Linux 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

前言：

在Linux下，每一个进程都有属于自己的进程地址空间，进程地址空间又叫虚拟内存、虚拟地址空间，从“虚拟二字”可以判断进程地址空间并不是真实的物理空间，他只是物理空间的一个映射表，具体是通过页表作为媒介来建立他们之间的映射关系，所以我们在程序中定义的一系列变量，这些变量的地址都只是该进程的进程地址空间上的地址数，并不是真实的物理地址数。

注意：本文物理空间和物理内存指的是一个概念。

1、进程地址空间示意图

我们所说的代码段（正文代码，包括字符常量区）、数据段（已初始化数据区）、BSS段（未初始化数据区）、堆区、共享区、栈区实际上都是Linux下的进程地址空间中的概念，物理内存上根本不存在上面这些划分，所以可以得出进程地址空间是在对物理内存进行管理。

进程地址空间一般分为两个部分：用户空间、内核空间，用户空间就是上面所说的堆、栈区域，而内核空间拥有比用户空间更高的权限级别，他主要是系统内部进行进程管理、内存管理、设备驱动、文件系统、网络系统等相关工作，对外只会暴露接口给到程序员使用。进程地址空间示意图如下：

2、验证进程地址空间的结构

从上图可以发现，进程地址空间的地址数是从下往上增大的，即在32位平台下，最低处代码段的地址是0x0000 0000，而最高处内核空间的地址是0xffff ffff，因此可以通过代码打印在不同区域所出创建的各种变量的地址，来观察他们的地址数就能验证进程地址空间的结构组织。

代码如下:

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int g_val_1;
int g_val_2 = 100;

int main(int argc, char *argv[], char *env[])
{
    printf("main函数地址: %p\n", main);
    const char *str = "hello world";
    printf("代码段 %p\n", str);
    printf("数据段 %p\n", &g_val_2);
    printf("BSS段  %p\n", &g_val_1);

    char *mem = (char*)malloc(100);
    char *mem1 = (char*)malloc(100);
    char *mem2 = (char*)malloc(100);
    printf("堆区: %p\n", mem);
    printf("堆区: %p\n", mem1);
    printf("堆区: %p\n", mem2);
    printf("栈区: %p\n", &str);
    printf("栈区: %p\n", &mem);

    static int a = 0;
    static int a1;
    int b;
    int c;
    printf("数据段: %p\n", &a);
    printf("BSS段: %p\n", &a1);
    printf("栈区: %p\n", &b);
    printf("栈区: %p\n", &c);

    int i = 0;
    for(; argv[i]; i++)
        printf("命令行参数：argv[%d]: %p\n", i, argv[i]);

    for(i=0; i<10; i++)
        printf("环境变量：env[%d]: %p\n", i, env[i]);

    return 0;
}

运行结果：

从上图的测试结果可以发现，地址数的大小确实按照了进程地址空间的排布来打印，但是这里有必要说明一点：BSS段的地址数大部分场景下是比数据段的地址数要高的，但是BSS段的变量地址不一定就比数据段的变量地址要高，具体根据程序实现和操作系统加载机制有关。

3、验证进程地址空间是虚拟地址

若要验证进程地址空间里的地址数是虚拟地址，则需要用fork函数创建子进程来完成，具体思路：定义一个全局变量g_val，目的是让父子进程都能看到，然后在子进程中对g_val进行修改，发现父进程里看到的g_val还是原值，但是父子进程看到g_val的地址却还是一样的。即现象是：同一个地址下看到不同的值。

测试代码如下：

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int g_val = 100;

int main()
{
   pid_t id = fork();
   if(id == 0)
   {
       int cnt = 3;
       // 子进程
       while(1)
       {
            //观察g_val的值和地址
           printf("i am child, pid : %d, ppid : %d, g_val: \
            %d, &g_val: %p\n", getpid(), getppid(), g_val, &g_val);
           sleep(1);

           if(cnt) cnt--;
           else {
               g_val=200;
               printf("子进程change g_val : 100->200\n");
               cnt--;
           }
       }
   }
   else
   {
       // 父进程
       while(1)
       {
           //观察g_val的值和地址
           printf("i am parent, pid : %d, ppid : %d, g_val: \
            %d, &g_val: %p\n", getpid(), getppid(), g_val, &g_val);
           sleep(1);
       }
   }
   return 0;
}

运行结果：

通过进程相关概念可以得知，当父子进程修改同一份资源时，会发生写时拷贝，即修改资源的进程会拷贝一份资源到该进程的空间地址中进行修改，这样一来修改的资源不会影响另一个进程所看到的资源，保证了进程的独立性。

但是从测试结果可以发现，虽然发生了写时拷贝，但是他们的地址却是一样的，如果进程地址空间的地址数就是真实物理内存的地址数，那么这里所看到的g_val的地址肯定是不一样的，因为同一个地址只能记录一个值，因此可以推断进程地址空间上的地址数是虚拟的（即我们平常打印出来的地址数都是虚拟的）。他们和物理内存的关系图如下：

4、页表-虚拟地址与物理地址

从上图可以发现虚拟地址和物理地址不一定是一一对应的，即虚拟地址的具体值在物理地址上可能指向的是另一个地址，那么要完成这个转换动作就必须有一个转换器，这个转换器就是页表，页表中记录了虚拟地址和物理地址的对应关系，其实发生写时拷贝的时候，虚拟地址在页表中对应的物理地址就已经是另一个地址数了，只是虚拟地址不关心物理地址的变化，并且程序员也无需关心，因为虚拟地址到物理地址的转换是由操作系统自动完成，操作系统只需要保证程序员访问虚拟地址时可以拿到正确的值即可。

页表结构图：

小结：每一个进程都会有一个进程地址空间的蓝图，即进程的进程地址空间是独立的，子进程会将父进程的PCB和进程地址空间和页表深拷贝一份给自己使用（除了一些子进程自带的特性字段不拷贝，比如子进程自己的pid，其他的内容都会拷贝一份），这也就解释了父子进程代码共享，所以创建一个进程的消耗是很大的，因为需要维护进程本身的结构体PCB还要维护地址空间、页表等。

有了上述的认知，就能理解fork创建子进程的细节了，因为fork返回值是一个写入，所以会发生写时拷贝，则子进程会在物理空间上开辟一块新空间存放子进程的id（此时子进程的页表的物理地址会被更改，但是虚拟地址不变），然后父进程和子进程通过查找自己的虚拟地址映射到不同的物理地址处，所以用于保存fork返回值的变量就会显示两个值。

5、什么是进程地址空间

我们知道物理内存中的地址是由32根地址总线经过不同的排列组合得来的（32位平台下），所以在32位平台下，物理内存的大小是2^32 = 4GB，而进程地址空间是物理内存的映射，即进程地址空间也是有自己的大小，但是他的大小不可能和物理内存一样大，前面虽说进程地址空间的大小是4GB，其实只是一个地址范围而不是真正的大小，记录一个范围只需要两个int类型的变量即可，例子示意图如下：

所以进程地址空间的堆、栈这些部分，其实只是用两个变量来维护的，这样一来只需多个变量就可以描述进程地址空间的结构了，所以进程地址空间本质是一个描述线性内存可视范围的结构体，该结构体内的成员变量的含义就是用来划分不同的区域板块。

比如可以用以下结构体来描述进程地址空间（进程PCB结构体中有一个指向地址空间的指针）：

每个进程的进程地址空间的范围都是一样的，所以对于每个进程而言，仿佛都可以申请到3G的物理内存空间，但是实际上并不如此，因为一个进程不可能用掉3G的物理空间，当物理内存快被消耗殆尽了，则系统肯定会发出警告，所以进程地址空间的结构体就像是操作系统给进程画的一个大饼，因为该结构体让进程以为物理空间内有很多的空间，但实际上可能没剩下多少空间了，但是进程只要向系统申请空间则物理空间就会分给该进程，若物理空间不足则申请失败。

6、进程地址空间和页表的存在意义

6.1 原因一（效率性）

因为若没有进程地址空间，则进程直接在物理内存上进行数据的存放，此时如果进程的状态变成挂起状态，为了节省物理内存则该进程原本存放在物理内存的数据可能就要被移到磁盘中，下一次该进程进入内存时要重新摆放数据至物理内存中，并且还要重新修改PCB的内容了，太麻烦了效率又低。

有了进程地址空间后就无需关心进程在物理空间内的数据摆放的位置了，因为数据在物理内存中的存放顺序我们不关心，系统会帮我们建立页表和物理内存的映射关心，我们只要按照页表的虚拟地址进行寻址即可，所以可以把进程地址空间看成是进程和物理内存之间的桥梁、转换器。

以统一视角来看待内存，做到了一致性，让进程对内存的分配和控制更加方便了。

6.2 原因二（安全性）

进程如果直接访问物理内存，会有可能更改其他用户的内容，而如果进程先访问虚拟地址空间和页表，若发生了修改其他用户内容的情况，则虚拟地址空间和页表会直接反馈并拒绝这个动作，达到保护物理内存的效果。

并且对于代码的结构也做了明确的功能划分，比如代码段的数据不可更改，保护了代码。

6.3 原因三（解耦）

将进程管理模块和内存管理模块进行了解耦，具体示意图如下：

7、页表的使用

从上文得知，若要使用进程地址空间，则在PCB结构体中的pmm指针就能找到进程地址空间，但是该如何找到并使用页表呢？

使用页表的示意图如下：

总结而来就是进程PCB中间接的包含了找到页表的方法。

8、页表的权限

页表实际上还有一列用于显示权限，示意图如下：

页表会记录虚拟地址对应的物理地址是否为文字常量区，若为文字常量区而进程还要修改该地址的内容，则页表直接会报错并且终止这个进程，这也是为什么代码段的数据不可被修改，原因就是所有的访问都要通过页表这个媒介，页表会判断虚拟地址然后对权限做出相关改变。

9、页表的缺页中断

当进程被挂起时就表示缺页中断，该进程的代码会被从内存移至磁盘，页表中还有一列是专门记录代码是否还存放在内存中，因为若把进程的所有代码都从磁盘加载至内存中，有些代码还没使用到就会浪费内存的资源，因此进程的调度遵循着“分批加载-惰性加载” ，而页表的缺页中断就是为了让cpu知道目前哪些代码已经被加载进内存中哪些代码还在磁盘上。

页表中用于记录当前是否为缺页中断的标识符示意图如下：

进程的挂起实际上就是页表中断，他的底层是将进程的代码都拿走放到磁盘中，然后页表中的物理内存地址也清空，并且把内容标志位为0，这时候就是进程挂起了。挂起结束时就会根据内再将磁盘中的代码重新拿到内存中，然后把内容标志位从0置为1，表示缺页中断结束，并且页表中的物理内存地址填上加载后新的地址，这个过程虚拟地址是不需要改变的。