Linux内核中的用户空间内存管理-CSDN博客

本文链接：https://blog.csdn.net/Tanswer_/article/details/78764778

本文详细介绍了Linux系统中32位平台的内存划分，其中用户空间占据3GB，由mm_struct和vm_area_struct结构描述。内存描述符用于整个用户空间的描述，而虚拟内存区域(VMA)则针对不同内存区间进行管理。进程用户空间在创建时涉及mm_struct、vm_area_struct及页目录的建立，而虚存映射通过exec()系统调用实现，包括共享和私有映射。VMA区域包括代码、数据、堆和栈，各自具有不同的权限和特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

32 位的平台上，线性地址空间为固定的 4GB，并且由于采用了保护机制，Linux内核将这 4GB 分为两部分，线性地址较高的 1GB（0xC0000000 到 0xFFFFFFFF ）为共享的内核空间；而较低的 3GB 为每个进程的用户空间。由于每个进程都不能直接访问内核空间，而是通过系统调用间接进入内核，因此所有的进程都共享内核空间。而每个进程都拥有各自的用户空间，各个进程之间不能互相访问彼此的用户空间。

这里写图片描述

一个进程的用户地址空间主要由两个数据结构来描述。一个是 mm_struct 结构，它对进程的整个用户空间进行描述，简称内存描述符；另一个是 vm_area_struct 结构，它对用户空间中各个区间( 代码区、数据区等 )进行描述。

进程用户空间的描述

内存描述符

每个进程只有一个 mm_struct 结构，在每个进程的 task_struct 结构中，有一个指向该结构的指针。

struct mm_struct {
    struct vm_area_struct *mmap;        /* list of VMAs */
    struct rb_root mm_rb;

    pgd_t * pgd;            //页目录基址

    atomic_t mm_users;  //记录正在使用该地址空间的进程数目
    atomic_t mm_count;  //记录mm_struct 结构体被引用的次数。
//如果当前地址空间只被两个进程共享，那么该值为1，mm_users为2

    int map_count;      //虚拟内存区的个数

    spinlock_t page_table_lock;     /* Protects page tables and some counters */
    struct rw_semaphore mmap_sem;

    struct list_head mmlist;        /* List of maybe swapped mm's.  These are globally strung
                         * together off init_mm.mmlist, and are protected
                         * by mmlist_lock
                         */


    unsigned long start_code, end_code, start_data, end_data;
    unsigned long start_brk, brk, start_stack;
    unsigned long arg_start, arg_end, env_start, env_end;
……
};

一个进程的虚拟空间中可能有多个虚拟区间，对这些虚拟区间的组织形式有两种，
- mmap 单链表，利于高效的遍历所有元素
- mm_rb 红黑树适合搜索指定元素，快速定位
mmap_cache 指向虚拟区间，根据局部性原理，最近一次用到的虚拟区间很可能下一次还要用到，因此把最近用到的虚区间放到高速缓存
pgd 指向该进程的页目录，当调度程序调度一个程序运行时就将这个地址转换成物理地址并写入CR3
page_table_lock 和 mmap_sem 提供互斥操作
还有代码段、数据段等的起始地址和结束地址。

这里写图片描述

虚拟内存区域( VMA )

虚拟内存区域由 vm_area_struct 结构体描述，每一块虚拟内存区都是由连续的虚拟地址组成。每个 vm_area_struct 代表了不同的内存区域。

struct vm_area_struct {
    struct mm_struct * vm_mm;   //内存描述符
    unsigned long  vm_start;        //区域的首地址
    unsigned long vm_end;           //区域的尾地址
    struct vm_area_struct * vm_next，*prev; //VMA双链表
    struct rb_node_ vm_rb;          //VMA的红黑树结构

    pgrot t_vm_page_prot;           //访问控制权限
    unsigned long vm_flags;         //保护标志位和属性标志位
        ...
    struct vm_operations_struct * vm_ops;   //虚拟区的操作函数
    struct file * vm_file;      //这块内存是由哪个文件映射的，如果没有则这块内存是匿名的
    void * vm_private_data;     //设备驱动私有数据，与内存管理无关。
};

为什么要划分出区间？

因为每个虚存区可能来源不同，有的可能来自于可执行文件，有的可能来自共享库，有的可能是动态分配的内存区，对不同的虚存区可能有不同的访问权限，也可能有不同的操作。因此Linux将进程的用户空间分割管理，并利用虚存区处理函数( vm_ops )来抽象对不同来源虚存区的处理方法。面向对象的思想，相当于class了一个对象表示虚存区，有属性，有操作。

struct vm_operations_struct {
    void (*open) (struct vm_area_struct * area);
    void (*close) (struct vm_area_struct * area);
    struct page * (*nopage)(struct vm_area_struct *area, unsigned long address, int write_access);
    ...
}

vm_ops 结构中包含的是函数指针，nopage()是当虚存页面不在物理内存而引起的缺页异常时所应该调用的函数。

这里写图片描述

进程用户空间的创建

在调用 fork() 系统调用创建一个新进程时就为这个进程创建了一个完整的用户空间。
简单的说在创建的过程中所做的工作是 mm_struct 结构的建立、vm_area_struct 结构的建立以及页目录和页表的建立。并没有真正地复制一个物理页面，这也是为什么 Linux 内核能迅速创建进程的原因之一。

虚存映射

Linux并不将可执行映像装入到物理内存，相反，可执行文件只是被装载到进程的用户空间中。当调用 exec() 系统调用开始执行一个进程时，进程的可执行映像被装入到进程的用户地址空间，如果还用到任何一个共享库，那么共享库页必须装入到进程的用户空间。随着进程的运行，被引用的程序部分会由操作系统装入到物理内存，这种将映像映射到进程用户空间的方法被称为“虚存映射”，也就是把文件从磁盘映射到进程的用户空间，这样把对文件的访问转化为对虚存区的访问。

有两种类型的虚存映射：