[Linux]进程地址空间

华丞臧.

已于 2023-01-25 22:48:46 修改

阅读量1.5k

点赞数 8

分类专栏： LINUX 文章标签： linux

于 2023-01-25 21:59:22 首次发布

本文链接：https://blog.csdn.net/qq_59456417/article/details/128749527

版权

LINUX 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

🥁作者： 华丞臧.
📕专栏：【LINUX】
各位读者老爷如果觉得博主写的不错，请诸位多多支持(点赞+收藏+关注)。如果有错误的地方，欢迎在评论区指出。
推荐一款刷题网站 👉 LeetCode刷题网站

前言

在之前的学习中，我们通常知道代码和数据存放在程序地址空间不同的几个区域，如：代码区、常量区、静态区、堆区、栈区等；那么我们说的这个地址空间是内存吗？

一、进程地址空间

1.1 程序地址空间回顾

在这里插入图片描述
前面粗略地学习过程序地址空间，更准确地应该称为进程地址空间；进程地址空间不是C/C++是操作系统上概念，并且进程地址空间不是内存。

//进程地址空间的验证
#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>

int un_g_val;
int g_val = 100;


int main(int argc, char *argv[], char *env[])
{
    char *m1 = (char*)malloc(sizeof(char));
    char *m2 = (char*)malloc(sizeof(char));
    char *m3 = (char*)malloc(sizeof(char));
    char *m4 = (char*)malloc(sizeof(char));
    printf("code addr           : %p\n", main);
    printf("init global addr    : %p\n", &g_val);
    printf("uninit global  addr : %p\n", &un_g_val);
    printf("heap addr           : %p\n", m1);
    printf("heap addr           : %p\n", m2);
    printf("heap addr           : %p\n", m3);
    printf("heap addr           : %p\n", m4);
    printf("stack addr          : %p\n", &m1);
    printf("stack addr          : %p\n", &m2);
    printf("stack addr          : %p\n", &m3);
    printf("stack addr          : %p\n", &m4);
    printf("argv addr           : %p\n", &argv);
    
    int i = 0;
    for(;env[i]; ++i)
    {
        printf("env addr           : %p\n", &env[i]);
    }

    return 0;
}

堆区向地址增大的方向增长，栈区向地址减小的方向增长；一般在C函数中定义的变量，通常在栈上保存，那么先定义的一定是地址较高的。
在这里插入图片描述

如何理解static变量？

函数内定义的变量用static修饰，本质是编译器会把该变量编译进全局数据区。

1.2 地址空间的存在

首先来看下面这一段代码：

//code1.c
#include <stdio.h>
#include <unistd.h>

int g_val = 100;

int main()
{
    pid_t id = fork();
    if(id == 0)
    {
        int i = 0;
        //child
        while(1)
        {
            printf("我是子进程：%d，ppid：%d，g_val：%d，&g_val：%p\n", getpid(), getppid(), g_val, &g_val);
            sleep(1);
            ++i;
            if(i == 5)
            {
                printf("我是子进程，全局变量已被修改\n");
                g_val = 200;
            }
        }
    }
    else if(id > 0)
    {
        //parent
        while(1)
        {
            printf("我是父进程：%d，ppid：%d，g_val：%d，&g_val：%p\n", getpid(), getppid(), g_val, &g_val);
            sleep(3);
        }
    }
    return 0;
}

当父子进程没有修改全局变量时，如下图：我们发现父子进程的全局变量数据一模一样并且地址相同，那么可以确定父子进程是共享该数据的。
在这里插入图片描述

当子进程修改全局数据时，如下图所示：我们发现子进程的全局数据修改并没有影响父进程的全局数据，但是父子进程全局数据的地址是相同的，显然同一块空间不可能存放两个不同的值，所以我们可以肯定在C/C++中使用的地址都不是物理地址。
在这里插入图片描述

通过上述代码实现，我们可以感觉到实际上物理内存和我们的操作系统之间隔了一层地址，这个地址是虚拟地址，是一种线性地址逻辑地址。

为什么操作系统不让用户直接访问物理内存呢？

内存是一个硬件，不能拦截用户访问，只能被动的进行读取和写入，让用户直接访问存在风险。

1.3 进程地址空间

进程地址空间不是物理内存，它是一种虚拟地址，介于操作系统和物理内存之间；那么该如何理解呢？

首先我们需要知道虚拟地址并不是真正存在的物理空间，而是逻辑地址是操作系统给进程画的蓝图；简单来说就是操作系统给进程画饼说你可以独占所有资源，进程可以随意使用，而且进程之间并不知道对方存在。
32位的机器上进程地址空间大小为4G，而实际上我们自己编写出的进程不会使用4G的进程地址空间，而是每次都申请进程需要的空间大小。

操作系统如何画饼呢？画饼本质是在你的大脑中描绘蓝图，而在操作系统中描述某种对象通常使用数据结构。
结论：进程地址空间本质是内核的一种数据结构。
每个进程都有一个自己的进程地址空间，操作系统通过其数据结构管理这些进程地址空间，管理的本质是先描述再组织，因此进程地址空间被操作系统中的struct mm_struct描述再被链表组织，此时进程地址空间就能被操作系统管理。实际上，进程PCB中有指向进程地址空间的指针即PCB中有特定的指针指向进程的mm_struct。

//mm_struct实际上是描述进程地址空间是对其空间各个区域大小的描述
//类似下面这种方式
struct mm_struct
{	
	//代码区
	long code_start;
	long code_end;
	
	//初始化数据区
	long init_start;
	long init_end;
	
	//未初始化数据区
	long uninit_start;
	long uninit_end;
	
	//堆区
	long heap_start;
	long heap_end;
	
	//栈区
	long stack_start;
	long stack_end;
}

进程地址空间的好处：

虚拟地址空间会让进程认为自己独占操作系统的资源，进程之间并不知道对方的存在；
所有进程都可以用统一的方式进程描述，因为虚拟地址空间是一样的，方便操作系统管理进程。

1.4 程序如何变成进程？

所谓进程地址空间其实就是操作系统通过软件的方式，给进程提供一个软件视角，认为自己会独占系统所有资源（主要指内存）。
那么程序如何变成进程的呢？操作系统又是如何通过进程地址空间运行进程的呢？

首先，程序本质是磁盘上的文件，即编译出来的可执行文件；程序内部肯定有地址，也肯定划分了区域，理由是一个代码经过编译形成可执行文件需要四个阶段：预编译、编译、汇编、链接，其中汇编会将程序中的全局符号及其地址汇总成一个一个的符号表，各个符号表在链接时合并。
其次在LInux中，通过指令可以查看可执行文件的内容，如下图：

在这里插入图片描述

虚拟地址空间不仅仅是操作系统会考虑，编译器也会考虑，编译程序的时候就认为程序是按照0000~FFFF进行编址的。程序内部的地址可以看做是虚拟地址空间，和内存的地址没有关系。

内存地址是物理地址；
进程地址空间是虚拟地址；
代码和数据是加载到内存中的；
操作系统管理进程通过PCB来管理；
操作系统管理进程地址空间通过mm_struct来管理；

因此操作系统要执行进程代码获得进程的数据，可以通进程PCB找到进程mm_struct，通过mm_struct操作系统可以执行进程的代码也可读取进程的数据，进程地址空间通过页表和实际内存地址相关联，通过页表可以找到进程在内存中的代码和数据。

在Linux当中，映射进程地址空间和内存地址的表称为页表。

在这里插入图片描述

1.5 如何理解进程的独立性

在前面的测试当中，fork创建子进程，父子进程同时运行，同样地址的全局变量，子进程改变全局变量，父进程不会改变。
在这里插入图片描述
这体现了进程的独立性，即多进程运行，独享个中资源，运行期间进程互不干扰。

当我们使用fork创建子进程时，子进程会继承父进程的一切包括进程控制块PCB（task_struct），也包括mm_struct和页表，因此子进程也会继承mm_struct和页表；那么子进程就有了自己的PCB并且该PCB与父进程相同。
这也就是为什么我们看到开始时，父子进程全局变量的值和地址都相同。
在这里插入图片描述

当有进程试图改变g_val时，该进程就进行写时拷贝，即：任何一方尝试写入，操作系统先进行数据拷贝，更改该进程的页表映射，然后再让进程进行修改。（这就是写时拷贝）

在这里插入图片描述

1.6 为什么要有虚拟进程地址空间？

1. 保护内存，访问内存添加了一层软硬件层，可以对转化过程进行审核，非法访问，就可以直接拦截了。
2. 进程和进程代码数据的解耦，通过地址空间进行功能模块的解耦，即进程管理和内存管理解耦。
3. 让进程或者程序可以以一种统一的视角看待内存，方便以统一的方式来编译和加载所有的可执行程序，简化进程本身的设计与实现。