《Linux内核编程》第十三章:Linux对进程内存的二级页式管理

本文基于mstar801平台Linux2.6.35.11。

举例:

  当我们通过系统调用fork创建子进程时,将完全复制父进程的页表、同时将该页表置为写保护。

  之后,当父进程或子进程向地址空间写数据时,就会产生缺页异常、分配新的页、同时将两个页都置为可写。

  目前Linux版本支持4级分页虚拟地址映射,可满足64位CPU的寻址要求。不过,ARM9的MMU只支持两级页表地址转换,而且两级能满足32位CPU的存储管理需求,因此、ARM体系只使用linux四级中的两级分页。

  第一级:

  全局页目录表(PGD),系统运行时这个页表的首地址存放于ARM协处理器CP15的寄存器C2中;在进程调度切换时,操作系统不仅要切换SP和PC、也要切换这个C2,即每个进程都有自己的独立虚拟地址空间、也就有独立的全局页目录表PGD。

  第二、三、四级:

  程序中分别缩写为:

  PUD——页上级目录

  PMD——页中间目录

  PTE——页表(最末级)

  ARM存储体系支持的页的大小有几种——1M,64KB,4KB,1KB,支持的二级页表有两种:粗粒度和细粒度。在Linux中,ARM采用了粗粒度页表4K页的模式:其中一级索引地址有效位为11bit;二级索引地址有效位为9bit、页内偏移量为12bit。这就是一个32位虚拟地址的组成。

  4KB的页大小决定了虚拟地址的低12bit留做偏移地址用(因为2^12 = 4096 = 4KB),也决定了二级页描述符的低12位用作用户标志,4KB的页大小还决定了虚拟地址空间最多可以映射出(4GB/4KB = 1024 * 1024)个页。

  ARM体系下物理内存和虚拟内存按照4KB的大小进行分页,页索引表分为两级,其中全局一级页表PGD一个,表中含有2048个条目(一级索引地址有效位为11bit)、每个条目对应一个二级页表物理首地址;每个二级页表(PMD或PTE)中含有512个条目(二级索引有效位9bit)、每个条目对应一页物理首地址。可以理解为:2048 * 512 = 1024 * 1024个4KB,即4GB。

  即一个虚拟的32位地址可以表示如下:

  11bit + 9bit + 12bit分别表示:该进程PGD中的哪个PMD/PTE;某个PMD/PTE中的哪个页;以及某个页中的具体地址。

  下面看具体定义:

kernel2.6.35.11/arch/arm/include/asm/pgtable.h

#define PTRS_PER_PTE		512
#define PTRS_PER_PMD		1
#define PTRS_PER_PGD		2048
......
#define PMD_SHIFT		21
#define PGDIR_SHIFT		21

  简而言之,ARM在Linux下二级分页为:

  虚拟地址——>PGD转换——>PTE转换——>物理地址

一、看看Linux用户进程的页表分配

以下基于mstar801平台Linux2.6.35.11。

1.jb/bionic/libc/bionic/fork.c

#include <unistd.h>
#include "pthread_internal.h"
#include "bionic_pthread.h"
#include "cpuacct.h"
extern int  __fork(void);
int  fork(void)
{
  ......
  int  ret;
  ret = __fork();
  ......
}

2.jb/bionic/libc/arch-arm/syscalls/__fork.S

ENTRY(__fork)
    .save   {r4, r7}
    stmfd   sp!, {r4, r7}
    ldr     r7, =__NR_fork
    swi     #0
    ldmfd   sp!, {r4, r7}
    movs    r0, r0
    bxpl    lr
    b       __set_syscall_errno
END(__fork)

============================================

3.系统调用表

kernel2.6.35.11/arch/arm/include/asm/unistd.h

#define __NR_fork                       (__NR_SYSCALL_BASE+  2)

4.实现

kernel2.6.35.11/arch/arm/kernel/entry-common.S

sys_fork_wrapper:
                add     r0, sp, #S_OFF
                b       sys_fork
ENDPROC(sys_fork_wrapper)

kernel2.6.35.11/arch/arm/kernel/sys_arm.c

asmlinkage int sys_fork(struct pt_regs *regs)
{
#ifdef CONFIG_MMU
        return do_fork(SIGCHLD, regs->ARM_sp, regs, 0, NULL, NULL);
#else
        /* can not support in nommu mode */
        return(-EINVAL);
#endif
}

5.do_fork函数

kernel2.6.35.11/kernel/fork.c

long do_fork(unsigned long clone_flags,
	      unsigned long stack_start,
	      struct pt_regs *regs,
	      unsigned long stack_size,
	      int __user *parent_tidptr,
	      int __user *child_tidptr)
{
  ......
  p = copy_process(clone_flags, stack_start, regs, stack_size,
			 child_tidptr, NULL, trace);
  ......
}
......
static struct task_struct *copy_process(unsigned long clone_flags,
					unsigned long stack_start,
					struct pt_regs *regs,
					unsigned long stack_size,
					int __user *child_tidptr,
					struct pid *pid,
					int trace)
{
  ......
  if ((retval = copy_mm(clone_flags, p)))
  ......
}
......
static int copy_mm(unsigned long clone_flags, struct task_struct * tsk)
{
  struct mm_struct * mm, *oldmm;
  ......
  mm = dup_mm(tsk);
  ......
}
......
struct mm_struct *dup_mm(struct task_struct *tsk)
{
  struct mm_struct *mm, *oldmm = current->mm;
  ......
  if (!mm_init(mm, tsk))
  ......
}
......
static struct mm_struct * mm_init(struct mm_struct * mm, struct task_struct *p)
{
  ......
  if (likely(!mm_alloc_pgd(mm))) {
  ......
}
......
static inline int mm_alloc_pgd(struct mm_struct * mm)
{
	mm->pgd = pgd_alloc(mm);
	if (unlikely(!mm->pgd))
		return -ENOMEM;
	return 0;
}

6.看看pgd分配函数,清楚Linux进程为什么共享内核地址空间:

kernel2.6.35.11/arch/arm/mm/pgd.c

pgd_t *pgd_alloc(struct mm_struct *mm)
{
  ......
  new_pgd = (pgd_t *)__get_free_pages(GFP_KERNEL, 2);  //新分配一级页表
  ......
  memset(new_pgd, 0, USER_PTRS_PER_PGD * sizeof(pgd_t));  //0~3GB页表初始化为0
  ......
  init_pgd = pgd_offset_k(0);
  memcpy(new_pgd + USER_PTRS_PER_PGD, init_pgd + USER_PTRS_PER_PGD,
		       (PTRS_PER_PGD - USER_PTRS_PER_PGD) * sizeof(pgd_t));  //3~4GB页表来源与kernel初始化时的页表,即共享内核页表
  ......
  new_pud = pud_alloc(mm, new_pgd, 0);
  ......
  new_pmd = pmd_alloc(mm, new_pud, 0);
  ......
  new_pte = pte_alloc_map(mm, NULL, new_pmd, 0);
  ......
  return new_pgd;
  ......
}

kernel2.6.35.11/arch/arm/include/asm/pgtable.h

/* to find an entry in a page-table-directory */
#define pgd_index(addr)		((addr) >> PGDIR_SHIFT)

#define pgd_offset(mm, addr)	((mm)->pgd + pgd_index(addr))

/* to find an entry in a kernel page-table-directory */
#define pgd_offset_k(addr)	pgd_offset(&init_mm, addr)

二、看看Linux内核页表的建立

其中,init_mm是linux内核启动时分配的内核页表:

kernel2.6.35.11/init/main.c

asmlinkage void __init start_kernel(void)
{
  ......
  setup_arch(&command_line);
  ......
}

kernel5.6.35.11/arch/arm/kernel/setup.c

void __init setup_arch(char **cmdline_p)
{
  ......
  init_mm.start_code = (unsigned long) _text;
  init_mm.end_code   = (unsigned long) _etext;
  init_mm.end_data   = (unsigned long) _edata;
  init_mm.brk	   = (unsigned long) _end;
  ......
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值