本文基于mstar801平台Linux2.6.35.11。
举例:
当我们通过系统调用fork创建子进程时,将完全复制父进程的页表、同时将该页表置为写保护。
之后,当父进程或子进程向地址空间写数据时,就会产生缺页异常、分配新的页、同时将两个页都置为可写。
目前Linux版本支持4级分页虚拟地址映射,可满足64位CPU的寻址要求。不过,ARM9的MMU只支持两级页表地址转换,而且两级能满足32位CPU的存储管理需求,因此、ARM体系只使用linux四级中的两级分页。
第一级:
全局页目录表(PGD),系统运行时这个页表的首地址存放于ARM协处理器CP15的寄存器C2中;在进程调度切换时,操作系统不仅要切换SP和PC、也要切换这个C2,即每个进程都有自己的独立虚拟地址空间、也就有独立的全局页目录表PGD。
第二、三、四级:
程序中分别缩写为:
PUD——页上级目录
PMD——页中间目录
PTE——页表(最末级)
ARM存储体系支持的页的大小有几种——1M,64KB,4KB,1KB,支持的二级页表有两种:粗粒度和细粒度。在Linux中,ARM采用了粗粒度页表4K页的模式:其中一级索引地址有效位为11bit;二级索引地址有效位为9bit、页内偏移量为12bit。这就是一个32位虚拟地址的组成。
4KB的页大小决定了虚拟地址的低12bit留做偏移地址用(因为2^12 = 4096 = 4KB),也决定了二级页描述符的低12位用作用户标志,4KB的页大小还决定了虚拟地址空间最多可以映射出(4GB/4KB = 1024 * 1024)个页。
ARM体系下物理内存和虚拟内存按照4KB的大小进行分页,页索引表分为两级,其中全局一级页表PGD一个,表中含有2048个条目(一级索引地址有效位为11bit)、每个条目对应一个二级页表物理首地址;每个二级页表(PMD或PTE)中含有512个条目(二级索引有效位9bit)、每个条目对应一页物理首地址。可以理解为:2048 * 512 = 1024 * 1024个4KB,即4GB。
即一个虚拟的32位地址可以表示如下:
11bit + 9bit + 12bit分别表示:该进程PGD中的哪个PMD/PTE;某个PMD/PTE中的哪个页;以及某个页中的具体地址。
下面看具体定义:
kernel2.6.35.11/arch/arm/include/asm/pgtable.h
#define PTRS_PER_PTE 512
#define PTRS_PER_PMD 1
#define PTRS_PER_PGD 2048
......
#define PMD_SHIFT 21
#define PGDIR_SHIFT 21
简而言之,ARM在Linux下二级分页为:
虚拟地址——>PGD转换——>PTE转换——>物理地址
一、看看Linux用户进程的页表分配
以下基于mstar801平台Linux2.6.35.11。
1.jb/bionic/libc/bionic/fork.c
#include <unistd.h>
#include "pthread_internal.h"
#include "bionic_pthread.h"
#include "cpuacct.h"
extern int __fork(void);
int fork(void)
{
......
int ret;
ret = __fork();
......
}
2.jb/bionic/libc/arch-arm/syscalls/__fork.S
ENTRY(__fork)
.save {r4, r7}
stmfd sp!, {r4, r7}
ldr r7, =__NR_fork
swi #0
ldmfd sp!, {r4, r7}
movs r0, r0
bxpl lr
b __set_syscall_errno
END(__fork)
============================================
3.系统调用表
kernel2.6.35.11/arch/arm/include/asm/unistd.h
#define __NR_fork (__NR_SYSCALL_BASE+ 2)
4.实现
kernel2.6.35.11/arch/arm/kernel/entry-common.S
sys_fork_wrapper:
add r0, sp, #S_OFF
b sys_fork
ENDPROC(sys_fork_wrapper)
kernel2.6.35.11/arch/arm/kernel/sys_arm.c
asmlinkage int sys_fork(struct pt_regs *regs)
{
#ifdef CONFIG_MMU
return do_fork(SIGCHLD, regs->ARM_sp, regs, 0, NULL, NULL);
#else
/* can not support in nommu mode */
return(-EINVAL);
#endif
}
5.do_fork函数
kernel2.6.35.11/kernel/fork.c
long do_fork(unsigned long clone_flags,
unsigned long stack_start,
struct pt_regs *regs,
unsigned long stack_size,
int __user *parent_tidptr,
int __user *child_tidptr)
{
......
p = copy_process(clone_flags, stack_start, regs, stack_size,
child_tidptr, NULL, trace);
......
}
......
static struct task_struct *copy_process(unsigned long clone_flags,
unsigned long stack_start,
struct pt_regs *regs,
unsigned long stack_size,
int __user *child_tidptr,
struct pid *pid,
int trace)
{
......
if ((retval = copy_mm(clone_flags, p)))
......
}
......
static int copy_mm(unsigned long clone_flags, struct task_struct * tsk)
{
struct mm_struct * mm, *oldmm;
......
mm = dup_mm(tsk);
......
}
......
struct mm_struct *dup_mm(struct task_struct *tsk)
{
struct mm_struct *mm, *oldmm = current->mm;
......
if (!mm_init(mm, tsk))
......
}
......
static struct mm_struct * mm_init(struct mm_struct * mm, struct task_struct *p)
{
......
if (likely(!mm_alloc_pgd(mm))) {
......
}
......
static inline int mm_alloc_pgd(struct mm_struct * mm)
{
mm->pgd = pgd_alloc(mm);
if (unlikely(!mm->pgd))
return -ENOMEM;
return 0;
}
6.看看pgd分配函数,清楚Linux进程为什么共享内核地址空间:
kernel2.6.35.11/arch/arm/mm/pgd.c
pgd_t *pgd_alloc(struct mm_struct *mm)
{
......
new_pgd = (pgd_t *)__get_free_pages(GFP_KERNEL, 2); //新分配一级页表
......
memset(new_pgd, 0, USER_PTRS_PER_PGD * sizeof(pgd_t)); //0~3GB页表初始化为0
......
init_pgd = pgd_offset_k(0);
memcpy(new_pgd + USER_PTRS_PER_PGD, init_pgd + USER_PTRS_PER_PGD,
(PTRS_PER_PGD - USER_PTRS_PER_PGD) * sizeof(pgd_t)); //3~4GB页表来源与kernel初始化时的页表,即共享内核页表
......
new_pud = pud_alloc(mm, new_pgd, 0);
......
new_pmd = pmd_alloc(mm, new_pud, 0);
......
new_pte = pte_alloc_map(mm, NULL, new_pmd, 0);
......
return new_pgd;
......
}
kernel2.6.35.11/arch/arm/include/asm/pgtable.h
/* to find an entry in a page-table-directory */
#define pgd_index(addr) ((addr) >> PGDIR_SHIFT)
#define pgd_offset(mm, addr) ((mm)->pgd + pgd_index(addr))
/* to find an entry in a kernel page-table-directory */
#define pgd_offset_k(addr) pgd_offset(&init_mm, addr)
二、看看Linux内核页表的建立
其中,init_mm是linux内核启动时分配的内核页表:
kernel2.6.35.11/init/main.c
asmlinkage void __init start_kernel(void)
{
......
setup_arch(&command_line);
......
}
kernel5.6.35.11/arch/arm/kernel/setup.c
void __init setup_arch(char **cmdline_p)
{
......
init_mm.start_code = (unsigned long) _text;
init_mm.end_code = (unsigned long) _etext;
init_mm.end_data = (unsigned long) _edata;
init_mm.brk = (unsigned long) _end;
......
}