内存管理之内存节点Node、Zone、Page

最新推荐文章于 2024-05-07 17:27:03 发布

Blue summer

最新推荐文章于 2024-05-07 17:27:03 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/u010039418/article/details/109632502

版权

内存管理专栏收录该内容

25 篇文章 27 订阅

订阅专栏

注：本文分析基于linux-4.18.0-193.14.2.el8_2内核版本，即CentOS 8.2

1、Node

Node是内存管理最顶层的结构，在NUMA架构下，CPU平均划分为多个Node，每个Node有自己的内存控制器及内存插槽。CPU访问自己Node上的内存时速度快，而访问其他CPU所关联Node的内存的速度比较慢。而UMA则被当做只有一个Node的NUMA系统。

内核中使用struct pglist_data来描述一个Node节点，我们看下主要的一些变量，

/*
 * On NUMA machines, each NUMA node would have a pg_data_t to describe
 * it's memory layout. On UMA machines there is a single pglist_data which
 * describes the whole memory.
 */
typedef struct pglist_data {
    //当前节点中包含的zone数组，如ZONE_DMA，ZONE_DMA32，ZONE_NORMAL
	struct zone node_zones[MAX_NR_ZONES];
	struct zonelist node_zonelists[MAX_ZONELISTS];
    //当前节点中不同内存域zone的数量
	int nr_zones;
	...
	unsigned long node_start_pfn; //当前节点的页帧的起始值
	unsigned long node_present_pages; //当前节点可使用的page数量
	unsigned long node_spanned_pages; //包含空洞内存的内存总长度
	int node_id; //节点编号
	wait_queue_head_t kswapd_wait; //kswapd进程的等待队列
	wait_queue_head_t pfmemalloc_wait; //直接内存回收过程中的进程等待队列
	struct task_struct *kswapd;	//指向该结点的kswapd进程的task_struct
	int kswapd_order; //kswap回收页面大小
    enum zone_type kswapd_classzone_idx; //kswap扫描的内存域范围
	...
	//每个节点的保留内存
	unsigned long		totalreserve_pages;

	//zone reclaim becomes active if more unmapped pages exist.
	unsigned long		min_unmapped_pages;
    //当前node中可回收slab页面阈值，超过该值才会回收该node内存
	unsigned long		min_slab_pages;
    ...
	/* Fields commonly accessed by the page reclaim scanner */
    //LRU链表管理结构
	struct lruvec		lruvec;
    ...
} pg_data_t;

第一部分主要是内存管理域，比如包括的zone类型，以及该Node管理的内存范围等。
第二部分主要是和kswap进程相关，我们后续会专门对kswap进行梳理，看看它是如何工作的。从这里我们也能看出，kswap是和Node挂钩，也就是每个Node对应一个kswap进程，更多的我们后续再说。
第三部分是LRU链表相关，这个成员原本是在zone结构体中，后来移到了Node上，我们后面也会对页面的LRU管理进行梳理。

2、Zone

在x86_64的机器上，主要有以下几种Zone类型，

[root@my-test proc]# cat /proc/zoneinfo | grep -w zone
Node 0, zone      DMA
Node 0, zone    DMA32
Node 0, zone   Normal
Node 0, zone  Movable
Node 0, zone   Device

ZONE_DMA：内存首部16MB，即低端范围的物理内存，某些工业标准体系结构（ISA）设备需要用到ZONE_DMA；

    ZONE_DMA32：标记了使用32位地址字可寻址, 适合DMA的内存域。

    ZONE_NORMAL：16MB~896MB，该部分的内存由内核直接映射到线性地址空间的较高部分；

    ZONE_HIGHMEM：896MB~末尾，将保留给系统使用，是系统中预留的可用内存空间，不能被内核直接映射。

    ZONE_MOVABLE：内核定义了一个伪内存域ZONE_MOVABLE, 在防止物理内存碎片的机制memory migration中需要使用该 内存域. 供防止物理内存碎片的极致使用。

    ZONE_DEVICE：为支持热插拔设备而分配的Non Volatile Memory非易失性内存。

内存域Zone用struct zone描述，

struct zone {
	/* Read-mostly fields */

	//每个zone的min、low、high水位值
	unsigned long watermark[NR_WMARK];

	unsigned long nr_reserved_highatomic;

    //每个zone的预留内存，有些进程只能使用某些低地址的zone空间，但是在极端情况下
    //有些进程本来是可以使用高地址zone，但是可能此时系统内存刚好被占用，就会去
    //使用这些低地址zone的内存，导致后续一些进程即使高地址zone还有空闲内存，但还是
    //无法获得内存。因此需要为每个zone预留一部分内存，保证跨zone内存分配有上限
    //预留的值可通过/proc/sys/vm/lowmem_reserve_ratio设置
	long lowmem_reserve[MAX_NR_ZONES];

	int node;
	struct pglist_data	*zone_pgdat; //指向所属node节点
	struct per_cpu_pageset __percpu *pageset; //每CPU保留一些页面，避免自旋锁冲突

	unsigned long		zone_start_pfn; //该内存域起始页帧地址
	unsigned long		managed_pages;  //该zone中被伙伴系统管理的页面数量
	unsigned long		spanned_pages;  //该zone包含的总页数，包含空洞
	unsigned long		present_pages;  //该zone包含的总页数，不包含空洞
    //内存域名字，如"DMA", "NROMAL"
	const char		*name;
    ...
    //页面使用状态的信息，用于伙伴系统的，每个元素对应不同阶page大小
    //目前系统上有11种不同大小的页面，从2^0 - 2^10，即4k-4M大小的页面
	struct free_area	free_area[MAX_ORDER];

	/* zone flags, see below */
	unsigned long		flags;
    ...
} ____cacheline_internodealigned_in_smp;

第一部分为zone的水位值watermark，包括MIN、LOW、HIGH三个水位，这三个值根据/proc/sys/vm/min_free_kbytes来设置；以及zone的保留内存lowmem_reserve，则是由/proc/sys/vm/lowmem_reserve_ratio控制，关于这两部分可以参考之前的文章《vm内核参数之内存水位min_free_kbytes和保留内存lowmem_reserve_ratio》。
第二部分就是内存域的描述，比如管理的内存范围以及page数量
第三部分就是free_area，用于管理伙伴系统上11个不同大小的page页面

3、Page

页是内存管理的最小单位，页面中的内存其物理地址是连续的，每个物理页面由struct page描述。为了节约内存，struct page是个联合体，我们在之前梳理slab的时候知道，slab管理结构也是用struct page描述。

struct page {
    /* 在lru算法中主要用到的标志
     * PG_active: 表示此页当前是否活跃，当放到或者准备放到活动lru链表时，被置位
     * PG_referenced: 表示此页最近是否被访问，每次页面访问都会被置位
     * PG_lru: 表示此页处于lru链表
     * PG_mlocked: 表示此页被mlock锁在内存中，禁止换出和释放
     * PG_swapbacked: 表示此页依靠swap，可能是进程的匿名页(堆、栈、数据段)，匿名mmap共享内存映射，shmem共享内存映射
     */
	unsigned long flags;		/* Atomic flags, some possibly
					 * updated asynchronously */
    struct {	/* Page cache and anonymous pages */
        //通过该结构挂到node的对应LRU链表
        struct list_head lru;
        //以下三个变量都是pagecache相关
        struct address_space *mapping;
        pgoff_t index;		/* Our offset within mapping. */
        /**
         * @private: Mapping-private opaque data.
         * Usually used for buffer_heads if PagePrivate.
         * Used for swp_entry_t if PageSwapCache.
         * Indicates order in the buddy system if PageBuddy.
         */
        unsigned long private;
    };
    ...
	struct mem_cgroup *mem_cgroup; //cgroup相关

	void *virtual;			//页面内核虚拟地址
    ...
} _struct_page_alignment;

第一部分是LRU链表相关，包括用于LRU的标志位，和LRU表头
第二部分是pagecache相关，我们之后也会梳理

Blue summer

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
内存管理之内存节点Node、Zone、Page

注：本文分析基于linux-4.18.0-193.14.2.el8_2内核版本，即CentOS 8.21、NodeNode是内存管理最顶层的结构，在NUMA架构下，CPU平均划分为多个Node，每个Node有自己的内存控制器及内存插槽。CPU访问自己Node上的内存时速度快，而访问其他CPU所关联Node的内存的速度比较慢。而UMA则被当做只有一个Node的NUMA系统。内核中使用struct pglist_data来描述一个Node节点，我们看下主要的一些变量，/* * On NUMA mach
复制链接

扫一扫