Linux内存管理:(六)页交换算法

文章说明:

1. 引言

在Linux操作系统中,当内存充足时,内核会尽量多地使用内存作为文件缓存(page cache), 从而提高系统的性能。文件缓存页面会添加到文件类型的LRU链表中;当内存紧张时,文件缓存页面会被丢弃,或者把修改的文件缓存页面回写到存储设备中,与块设备同步之后便可释放出物理内存。现在的应用程序转向内存密集型,无论系统中有多少物理内存都是不够用的,因此Linux操作系统会使用存储设备作为交换分区,内核将很少使用的内存换出到交换分区,以便释放出物理内存,这个机制称为页交换(swapping),这些处理机制统称为页面回收(page reclaim)

在最近几十年操作系统的发展过程中,出现了很多页面交换算法,其中每个算法都有各自的优点和缺点。Linux内核中采用的页交换算法主要是经典LRU链表算法第二次机会(second chance)法

2. 经典LRU链表算法

LRU是Least Recently Used的缩写,意为最近最少使用。根据局部性原理,LRU假定最近不使用的页面在较短的时间内也不会频繁使用。在内存不足时,这些页面将成为被换出的候选者。内核使用双向链表来定义LRU链表,并且根据页面的类型将LRU链表分为LRU_ANON和LRU_FILE。每种类型根据页面的活跃性分为活跃LRU链表和不活跃LRU链表,所以内核中一共有如下5个LRU链表:

// 定义了各种 LRU 链表的类型
enum lru_list {
	// 不活跃匿名页面链表
    LRU_INACTIVE_ANON = LRU_BASE,
    // 活跃匿名页面链表
	LRU_ACTIVE_ANON = LRU_BASE + LRU_ACTIVE,
    // 不活跃文件映射页面链表
	LRU_INACTIVE_FILE = LRU_BASE + LRU_FILE,
    // 活跃文件映射页面链表
	LRU_ACTIVE_FILE = LRU_BASE + LRU_FILE + LRU_ACTIVE,
    // 不可回收页面链表
	LRU_UNEVICTABLE,
	NR_LRU_LISTS
};

LRU链表之所以要分成这样,是因为当内存紧缺时总是优先换出文件映射的文件缓存页面 (LRU_FILE链表中的页面),而不是匿名页面。因为大多数情况下,文件缓存页面不需要被回写到磁盘,除非页面内容修改了(称为脏页),而匿名页面总是要在写入交换分区之后,才能被换出。LRU链表按照内存节点配置,也就是说,每个内存节点中都有一整套LRU链表,因此内存节点的描述符数据结构(pglist_data)中有一个成员lruvec指向这些链表。枚举类型变量lru_list 列举出上述各种LRU链表的类型,lruvec数据结构中定义了上述各种LRU类型的链表:

// 定义了各种 LRU 链表
struct lruvec {
	struct list_head		lists[NR_LRU_LISTS];
	...
};

// 内存节点的数据结构
typedef struct pglist_data {
	// 每个内存节点中都有一整套 LRU 链表,由 lruvec 指向
	struct lruvec		lruvec;
} pg_data_t;

万事从图说起,经典LRU链表算法如下图所示:

在这里插入图片描述

为了使读者有更真切的理解,下文将根据流程图围绕源代码进行讲解这个过程:

将页面加入 LRU 链表:

static void __lru_cache_add(struct page *page)
{
	// 这里使用了页向量数据结构,借助一个数组来保存特定数目的页,可以对这些页面执行同样的操作
	// 页向量会以“批处理的方式”执行,比单独处理一个页面的方式效率要高
	struct pagevec *pvec = &get_cpu_var(lru_add_pvec);

	get_page(page);
	// pagevec_add() 函数首先往 pvec->pages[] 数组里添加页面,
	// 如果没有空间了,则调用 __pagevec_lru_add() 函数把原有的页面添加到 LRU 链表中
	if (!pagevec_add(pvec, page) || PageCompound(page))
		__pagevec_lru_add(pvec);
	put_cpu_var(lru_add_pvec);
}

void lru_cache_add(struct page *page)
{
	...
	__lru_cache_add(page);
}

lru_to_page(&lru_list)list_del(&page->lru)函数的组合用于从LRU链表中获取页面。其中,lru_to_page()的实现如下:

#define lru_to_page(head) (list_entry((head)->prev, struct page, lru))

lru_to_page()使用了(head)->prev,表示从链表的末尾获取页面。因此,LRU链表实现了 FIFO算法。最先进入LRU链表的页面在LRU中的时间会越长,老化时间也越长。

在系统执行过程中,页面总是在活跃LRU链表和不活跃LRU链表之间转移,不是每次访问内存页面都会发生这种转移,而是发生的时间间隔比较长。随着时间的推移,这会导致—种热平衡,最不常用的页面将慢慢移动到不活跃LRU链表的末尾,这些页面正是页面回收中最合适的候选者。

3. 第二次机会法

当系统内存短缺时,LRU链表尾部的页面将会离开并被换出。当系统再需要这些页面时,这些页面会重新置于LRU链表的开头。显然,这个设计不是很巧妙,在换出页面时,没有考虑该页面是频繁 使用的,还是很少使用的。也就是说,频繁使用的页面依然会因为在LRU链表末尾而被换出

第二次机会法的改进是为了避免把经常使用的页面置换出去,设置了一个访问状态位(硬件控制的位,PTE_YOUNG),所以要检查页面的访问位。如果访问位是0,就淘汰这个页面;如果访问位是1,就给它第二次机会,并选择下一个页面来换出。当该页面得到第二次机会时,它的访问位被清零,如果该页面在此期间再次被访问过,则访问位设置为1。

Linux内核使用下面这两个标志位来是实现第二次机会法:

  • PG_active:表示该页面是否活跃
  • PG_referenced:表示该页面是否被引用过

mark_page_accessed() 函数将页面标记为活跃:

  • 如果 PG_active==0 && PG_referenced==1,则把该页面加入活跃LRU链表,并设置 PG_active=1,清除PG_reference 标志位
  • 如果 PG_active==0,则设置 PG_referenced 标志位

在扫描不活跃 LRU 链表时,page_check_references() 这个函数会被调用:

// page 表示要处理的物理页面的page数据结构
// sc 表示内部用来控制页面扫描的数据结构
static enum page_references page_check_references(struct page *page,
						  struct scan_control *sc)
{
	...

	// page_referenced() 检查该页面访问、引用了多少个PTE(referenced_ptes)
	referenced_ptes = page_referenced(page, 1, sc->target_mem_cgroup,
					  &vm_flags);
	// TestClearPageReferenced() 函数返回该页面 PG_referenced 标志位的值(referenced_page),并且清除该标志
	referenced_page = TestClearPageReferenced(page);

	...

	if (referenced_ptes) {
		...
		// 在内存短缺的情况下,kswapd 巧妙地释放了短时间内只访问一次的大量文件缓存
		SetPageReferenced(page);

		// referenced_ptes > 1 表示那些第一次在不活跃LRU链表中的共享文件映射页面(共享文件缓存),
		// 它们应该晋升到活跃 LRU 链表中,因为它们应该在活跃 LRU 链表中多待一段时间,以便其他用户可以再次访问到。
		if (referenced_page || referenced_ptes > 1)
			return PAGEREF_ACTIVATE;

		...
	}

	...
}

page_referenced() 函数用于判断页面是否被访问过,并返回引用的PTE的个数,即访问引用这个页面的用户进程空间虚拟页面的个数,核心思想是利用 RMAP 系统来统计访问、引用 PTE 的用户个数:

int page_referenced(struct page *page,
		    int is_locked,
		    struct mem_cgroup *memcg,
		    unsigned long *vm_flags)
{
	...
	// 定义 rmap_one() 函数的指针
	struct rmap_walk_control rwc = {
		.rmap_one = page_referenced_one,
		.arg = (void *)&pra,
		.anon_lock = page_lock_anon_vma_read,
	};

	*vm_flags = 0;
	// 判断 page->_mapcount 是否大于或等于 0
	if (!page_mapped(page))
		return 0;

	// 判断 page->mapping 是否有地址空间映射
	if (!page_rmapping(page))
		return 0;

	...

	// 遍历所有映射该页面的 PTE
	rmap_walk(page, &rwc);
	*vm_flags = pra.vm_flags;

	...

	return pra.referenced;
}

4. 页交换算法的优化

即使第二次机会算法可以尽可能地避免把经常使用地页面置换出去,但是实际上,一些场景下,某些页面经常被访问,但是在下一次访问之前在不活跃LRU链表中回收并释放了它们,因此又必须从存储系统中读取这些内容缓存页面,这会产生颠簸(thrashing)现象。

在学术界和Linux内核社区,页面回收算法的优化一直没有停止过,其中 Refault Distance 算法在Linux 3.5内核中加入,作者是社区专家 Johannes Weiner,该算法目前只针对页面高速缓存类型的页面

Refault Distance 的概念:第一次访问内容缓存称为fault,第二次访问该页称为refault。内容缓存页面第一次被移出LRU链表并回收的时刻称为E,第二次再访问该页面的时刻称为R,那么R-E的时间里需要移动的页面个数称为Refault Distance。

Refault Distance概念再加上第一次访问的时刻,可以用一个公式来概括第一次和第二次访问的间隙(readdistance)。

在这里插入图片描述

如果页面想一直保持在LRU链表中,那么read_distance不应该比内存的大小还大;否则,该页面永远会被移出LRU链表。因此,下式成立:

在这里插入图片描述

换句话说,Refault Distance可以理解为不活跃LRU链表的“财政赤字”:

  • 如果不活跃LRU 链表的长度至少再延长到Refault Distance,就可以保证该内容缓存在第二次访问之前不会被移出 LRU链表并释放内存;
  • 否则,就要把该内容缓存重新加入活跃LRU链表加以保护,以防颠簸。

在理想情况下,内容缓存的平均访问间隙要大于不活跃LRU链表的大小、小于总的内存大小。Refault Distance 算法如下图所示:

在这里插入图片描述

  • T0时刻表示第一次访问一个内容缓存。这时会调用 add_to_page_cache_lru() 函数分配一个shadow来存储zone->inactive_age(inactive_age原子变量成员用于记录文件缓存不活跃LRU链表中的移出操作和激活操作的计数)值。每当有页面被升级为活跃LRU链表中的页面时,zone->inactive_age值会加1;每当有页面被移出不活跃LRU链表时,zone->inactive_age值也加1
  • T1时刻,该页面被移出LRU链表并从LRU链表中回收释放, 因此把当前T1时刻的zone->inactive_age的值编码存放到 shadow 中
  • T2时刻,第二次访问该页面,因此要计算Refault Distance,Refault Distance=T2-T1,如果Refault Distance≤NR_active, 说明该内容缓存极有可能在下一次读时已经被移出LRU链表,因此要人为地激活该页面并且将其加入活跃LRU链表中
  • 28
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Linux内存管理是一个复杂而强大的系统级概念,它由多个组件和机制组成,以确保内存的有效使用和保护。以下是Linux内存管理的一些关键方面: 1. 内存分区:Linux将物理内存划分为多个分区或区域,每个分区都有不同的用途。例如,内核内存(用于操作系统代码和数据)、交换空间(用于将不再使用的内存交换到磁盘上的交换分区)、缓存空间(用于存储最近使用的面,以便快速访问)等。 2. 帧管理:帧是内存管理的关键概念,它代表虚拟内存地址到物理内存地址的映射。Linux使用帧来处理内存访问,确保正确地寻址和访问物理内存。 3. 交换(Swap):当系统内存不足时,Linux会使用交换机制将不再活跃的进程或数据交换交换分区,以便为需要更多内存的进程腾出空间。 4. 缓存(Cache):Linux使用缓存来优化内存使用。缓存用于存储最近使用的面,以便快速访问,从而减少访问时间并提高性能。 5. 请求调度(Request Scheduling):Linux使用请求调度算法来决定将内存分配给哪个进程。这些算法考虑了许多因素,如进程优先级、时间片、系统负载等。 6. 内存管理工具:Linux提供了一组工具,如free、top、vmstat等,用于监视和管理内存使用情况。这些工具可以帮助管理员和开发者了解系统的内存状态,并采取适当的措施来优化内存使用。 总的来说,Linux内存管理机制涉及多个组件和算法,旨在确保系统的稳定性和性能。它通过精细的调度、缓存和交换策略来管理内存资源,以确保在各种负载条件下提供最佳的性能和可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值