Copy-On-Write

最新推荐文章于 2024-03-03 21:19:21 发布

Emacx

最新推荐文章于 2024-03-03 21:19:21 发布

阅读量513

点赞数

分类专栏： linux 内核源代码文章标签： table unix linux 磁盘 access null

linux 内核源代码专栏收录该内容

4 篇文章 1 订阅

订阅专栏

写时复制

写时复制技术最初产生于Unix 系统，用于实现一种傻瓜式的进程创建：当发出fork( ) 系统调用时，内核原样复制父进程的整个地址空间并把复制的那一份分配给子进程。这种行为是非常耗时的，因为它需要：

· 为子进程的页表分配页面

· 为子进程的页分配页面

· 初始化子进程的页表

· 把父进程的页复制到子进程相应的页中

创建一个地址空间的这种方法涉及许多内存访问，消耗许多CPU 周期，并且完全破坏了高速缓存中的内容。在大多数情况下，这样做常常是毫无意义的，因为许多子进程通过装入一个新的程序开始它们的执行，这样就完全丢弃了所继承的地址空间。

现在的Unix 内核（包括Linux ），采用一种更为有效的方法称之为写时复制（或COW ）。这种思想相当简单：父进程和子进程共享页面而不是复制页面。然而，只要页面被共享，它们就不能被修改。无论父进程和子进程何时试图写一个共享的页面，就产生一个错误，这时内核就把这个页复制到一个新的页面中并标记为可写。原来的页面仍然是写保护的：当其它进程试图写入时，内核检查写进程是否是这个页面的唯一属主；如果是，它把这个页面标记为对这个进程是可写的。

Page 结构的count 域用于跟踪共享相应页面的进程数目。只要进程释放一个页面或者在它上面执行写时复制，它的count 域就递减；只有当count 变为NULL 时，这个页面才被释放。

现在我们讲述Linux 怎样实现写时复制（COW ）。当handle_pte_fault( ) 确定“缺页”错误是由请求写一个页面所引起的时（这个页面存在于内存中且是写保护的），它执行以下语句：

if (pte_present(pte)) {

entry = pte_mkyoung(entry);

set_pte( pte, entry);

flush_tlb_page( vma, address);

if (write_access) {

if (!pte_write(entry))

return do_wp_page(tsk, vma, address, pte);

entry = pte_mkdirty(entry);

set_pte( pte, entry);

flush_tlb_page( vma, address);

}

return 1;

}

首先，调用pte_mkyoung( ) 和 set_pte( ) 函数来设置引起错误的页所对应页表项的访问位。这个设置使页“年轻” 并减少它被交换到磁盘上的机会。如果错误由违背写保护而引起的，handle_pte_fault( ) 返回由do_wp_page( ) 函数产生的值；否则，则已检测到某一错误情况（例如，用户态地址空间中的页，其User/Supervisor 标志为0 ），且函数返回1 。

do_wp_page( ) 函数首先把page_table 参数所引用的页表表项装入局部变量pte ，然后再获得一个新页面：

pte = *page_table;

new_page = __get_free_page( GFP_USER);

由于页面的分配可能阻塞进程，因此，一旦获得页面，这个函数就在页表表项上执行下面的一致性检查：

· 当进程等待一个空闲的页面时，这个页是否已经被交换出去（pte 和 *page_table 的值不相同）

· 这个页是否已不在物理内存中（页表表项中页的 Present 标志为0 ）

· 页现在是否可写（页项中页的 Read/Write 标志为1 ）

如果这些情况中的任意一个发生，do_wp_page( ) 释放以前所获得的页面，并返回1 。

现在，函数更新次级缺页的数目，并把引起错误的页的页描述符指针保存到page_map 局部变量中。

tsk ->min_flt++;

page_map = mem_map + MAP_NR( old_page);

接下来，函数必须确定是否必须真的把这个页复制一份。如果仅有一个进程使用这个页，就无须应用写时复制技术，而且进程应该能够自由地写这个页。因此，这个页面被标记为可写，这样当试图写入的时候就不会再次引起“缺页”错误，以前分配的新的页面也被释放，函数结束并返回1 。这种检查是通过读取page 结构的count 域而进行的：

if (page_map->count == 1) {

set_pte( page_table, pte_mkdirty(pte_mkwrite(pte)));

flush_tlb_page( vma, address);

if (new_page)

free_page( new_page);

return 1;

}

相反，如果这个页面由两个或多个进程所共享，函数把旧页面(old_page) 的内容复制到新分配的页面(new_page) 中：

if (old_page == ZERO_PAGE)

memset( (void *) new_page, 0, PAGE_SIZE);

else

memcpy( (void *) new_page, (void *) old_page, PAGE_SIZE);