Linux内存管理之高端内存映射

最新推荐文章于 2024-07-22 17:22:57 发布

sdulibh

最新推荐文章于 2024-07-22 17:22:57 发布

阅读量972

点赞数

分类专栏： linux编程基础文章标签：内存管理

linux编程基础专栏收录该内容

171 篇文章 7 订阅

订阅专栏

一：引子

我们在前面分析过，在linux内存管理中，内核使用3G—>4G的地址空间，总共1G的大小。而且有一部份用来做非连续空间的物理映射（vmalloc）.除掉这部份空间之外，只留下896M大小供内核映射到物理地址。通常，我们把物理地址超过896M的区域称为高端内存。内核怎样去管理高端内存呢？今天就来分析这个问题。

内核有三种方式管理高端内存。第一种是非连续映射。这我们在前面的vmalloc中已经分析过了，在vmalloc中请求页面的时候，请求的是高端内存，然后映射到VMALLOC_START与VMALLOC_END之间。这一过程不再赘述。第二种方式是永久内存映射。最后一种方式叫临时内核映射。

接下来，详细的分析一下第二种和第三种方式。对于第一种方式，我们在之前已经分析过了。

借鉴网上的一个图，来说明一下这三种方式的大概映射过程。

二：永久内存映射

永久内存映射在内核的接口为：kmap()/kunmap().在详细分析代码之前，有必须弄懂几个全局变量的含义：

PKMAP_BASE：永久映射空间的起始地址。永久映射空间为4M。所以它最多能映射4M/4K=1024个页面。

pkmap_page_table：永久映射空间对应的页目录。我们来看一下它的初始化：

pkmap_page_table = pte_offset_kernel(pmd_offset(pgd_offset_k

(PKMAP_BASE), PKMAP_BASE), PKMAP_BASE);

实际上它就是PKMAP_BASE所在的PTE

LAST_PKMAP：永久映射空间所能映射的页面数。在没有开启PAE的情况下被定义为1024

highmem_start_page：高端内存的起始页面

pkmap_count[PKMAP]:每一项用来对应映射区域的引用计数。关于引用计数，有以下几种情况：

为0时：说明映射区域可用。为1时：映射区域不可用，因为自从它最后一次使用以来。TLB还没有将它刷新

为N时，有N-1个对象正在使用这个页面

last_pkmap_nr：在建立永久映射的时候，最后使用的序号

代码如下：

void *kmap(struct page *page)

{

//可能引起睡眠。在永久映射区没有空闲地址的时候

might_sleep();

//如果不是高端页面。那它在直接映射空间已经映射好了，直接计算即可

if (page < highmem_start_page)

return page_address(page);

//如果是高端页面。即在永久映射区为其分配地址

return kmap_high(page);

}

转到kmap_high():

void fastcall *kmap_high(struct page *page)

{

unsigned long vaddr;

spin_lock(&kmap_lock);

//取页面地址

vaddr = (unsigned long)page_address(page);

//如果页面还没有映射到线性地址，为它建立好映射

if (!vaddr)

vaddr = map_new_virtual(page);

//有一个引用了，计数加1

pkmap_count[PKMAP_NR(vaddr)]++;

//如果计数小于2，这种情况是无效的。

if (pkmap_count[PKMAP_NR(vaddr)] < 2)

BUG();

spin_unlock(&kmap_lock);

return (void*) vaddr;

}

map_new_virtual（）用于将一个page映射到永久映射区域。它的实现如下：

static inline unsigned long map_new_virtual(struct page *page)

{

unsigned long vaddr;

int count;

start:

count = LAST_PKMAP;

for (;;) {

//从last_pkmap_nr开始搜索。大于LAST_PKMAP时，又将它从0开始

//其中LAST_PKMAP_MASK被定义为：(LAST_PKMAP-1)

last_pkmap_nr = (last_pkmap_nr + 1) & LAST_PKMAP_MASK;

//如果last_pkmap_nr等于0，也就是从头开始了

if (!last_pkmap_nr) {

//扫描所有计数为1的项，将它置为零。如果还有映射到页面。断开它的映射关系

flush_all_zero_pkmaps();

count = LAST_PKMAP;

}

//如果计数为0，可用，就用它了，跳出循环

if (!pkmap_count[last_pkmap_nr])

break; /* Found a usable entry */

if (--count)

continue;

//遍历了整个区都无可用区间，睡眠

{

DECLARE_WAITQUEUE(wait, current);

__set_current_state(TASK_UNINTERRUPTIBLE);

add_wait_queue(&pkmap_map_wait, &wait);

spin_unlock(&kmap_lock);

schedule();

remove_wait_queue(&pkmap_map_wait, &wait);

spin_lock(&kmap_lock);

/* Somebody else might have mapped it while we slept */

//可能在睡眠的时候，其它进程已经映射好了,

if (page_address(page))

return (unsigned long)page_address(page);

//重新开始

goto start;

}

// #define PKMAP_ADDR(nr) (PKMAP_BASE + ((nr) << PAGE_SHIFT))

//将序号转化为线性地址

vaddr = PKMAP_ADDR(last_pkmap_nr);

//将线性地址映射到page

set_pte(&(pkmap_page_table[last_pkmap_nr]), mk_pte(page, kmap_prot));

//将其引用计数置1

pkmap_count[last_pkmap_nr] = 1;

//更新page的线性地址

set_page_address(page, (void *)vaddr);

return vaddr;

}

Kunmap()的实现如下：

void kunmap(struct page *page)

{

//不能在中断中

if (in_interrupt())

BUG();

//如果不是高端页面，直接返回

if (page < highmem_start_page)

return;

//清除掉映射关系

kunmap_high(page);

}

转入kunmap_high():

void fastcall kunmap_high(struct page *page)

{

unsigned long vaddr;

unsigned long nr;

int need_wakeup;

spin_lock(&kmap_lock);

//取得页面的虚拟地址

vaddr = (unsigned long)page_address(page);

if (!vaddr)

BUG();

//将地址转换为序号

// #define PKMAP_NR(virt) ((virt-PKMAP_BASE) >> PAGE_SHIFT)

nr = PKMAP_NR(vaddr);

need_wakeup = 0;

//计算引用计数

switch (--pkmap_count[nr]) {

case 0:

BUG();

case 1:

//如果只有一个引用了，说明这页面是空闲的。看看是否有进程在等待

//因为TLB刷新之后，会将其减1

need_wakeup = waitqueue_active(&pkmap_map_wait);

}

spin_unlock(&kmap_lock);

//唤醒等待的进程

if (need_wakeup)

wake_up(&pkmap_map_wait);

}

三：临时内存映射

临时内存映射在内核中的接口为：kmap_atomic()/kunmap_atomic()。它映射的地址是从FIXADDR_START到FIXADDR_TOP的区域。其中，每个cpu都在里面占用了一段空间。

在内核中，enum fixed_addresses表示各种临时映射所占的序号。结构如下：

enum fixed_addresses {

FIX_HOLE,

FIX_VSYSCALL,

#ifdef CONFIG_X86_LOCAL_APIC

FIX_APIC_BASE, /* local (CPU) APIC) -- required for SMP or not */

#else

FIX_VSTACK_HOLE_1,

#endif

#ifdef CONFIG_X86_IO_APIC

FIX_IO_APIC_BASE_0,

FIX_IO_APIC_BASE_END = FIX_IO_APIC_BASE_0 + MAX_IO_APICS-1,

#endif

#ifdef CONFIG_X86_VISWS_APIC

FIX_CO_CPU, /* Cobalt timer */

FIX_CO_APIC, /* Cobalt APIC Redirection Table */

FIX_LI_PCIA, /* Lithium PCI Bridge A */

FIX_LI_PCIB, /* Lithium PCI Bridge B */

#endif

FIX_IDT,

FIX_GDT_1,

FIX_GDT_0,

FIX_TSS_3,

FIX_TSS_2,

FIX_TSS_1,

FIX_TSS_0,

FIX_ENTRY_TRAMPOLINE_1,

FIX_ENTRY_TRAMPOLINE_0,

#ifdef CONFIG_X86_CYCLONE_TIMER

FIX_CYCLONE_TIMER, /*cyclone timer register*/

FIX_VSTACK_HOLE_2,

#endif

FIX_KMAP_BEGIN, /* reserved pte's for temporary kernel mappings */

FIX_KMAP_END = FIX_KMAP_BEGIN+(KM_TYPE_NR*NR_CPUS)-1,

#ifdef CONFIG_ACPI_BOOT

FIX_ACPI_BEGIN,

FIX_ACPI_END = FIX_ACPI_BEGIN + FIX_ACPI_PAGES - 1,

#endif

#ifdef CONFIG_PCI_MMCONFIG

FIX_PCIE_MCFG,

#endif

__end_of_permanent_fixed_addresses,

/* temporary boot-time mappings, used before ioremap() is functional */

#define NR_FIX_BTMAPS 16

FIX_BTMAP_END = __end_of_permanent_fixed_addresses,

FIX_BTMAP_BEGIN = FIX_BTMAP_END + NR_FIX_BTMAPS - 1,

FIX_WP_TEST,

__end_of_fixed_addresses

}

每一段序号都有自己的用途，例如APIC用，IDT用。FIX_KMAP_BEGIN与FIX_KMAP_END是分配给模块或者做做临时用途使用的。内核这样分配是为了保证同一个区不能有两上映射关系。我们在后面可以看到，如果一个区已经映射到了一个物理页面。如果再在这个区上建立映射关系，就会把它以前的映射覆盖掉。所以，内核应该根据具体的用途选择特定的序号，以免产生不可预料的错误。同时使用完临时映射之后应该立即释放当前的映射，这也是个良好的习惯.

FIX_KMAP_END的大小被定义成：FIX_KMAP_BEGIN+(KM_TYPE_NR*NR_CPUS)-1。也就是FIX_KMAP_BEGIN到FIX_KMAP_END的大小是KM_TYPE_NR*NR_CPUS.

KM_TYPE_NR的定义如下：

enum km_type {

* IMPORTANT: don't move these 3 entries, be wary when adding entries,

* the 4G/4G virtual stack must be THREAD_SIZE aligned on each cpu.

KM_BOUNCE_READ,

KM_VSTACK_BASE,

KM_VSTACK_TOP = KM_VSTACK_BASE + STACK_PAGE_COUNT-1,

KM_LDT_PAGE15,

KM_LDT_PAGE0 = KM_LDT_PAGE15 + 16-1,

KM_USER_COPY,

KM_VSTACK_HOLE,

KM_SKB_SUNRPC_DATA,

KM_SKB_DATA_SOFTIRQ,

KM_USER0,

KM_USER1,

KM_BIO_SRC_IRQ,

KM_BIO_DST_IRQ,

KM_PTE0,

KM_PTE1,

KM_IRQ0,

KM_IRQ1,

KM_SOFTIRQ0,

KM_SOFTIRQ1,

KM_CRASHDUMP,

KM_UNUSED,

KM_TYPE_NR

}

在smp系统中，每个CPU都有这样的一段映射区域

kmap_pte：FIX_KMAP_BEGIN项所对应的页表项.它的初始化如下：

#define kmap_get_fixmap_pte(vaddr) \

pte_offset_kernel(pmd_offset(pgd_offset_k(vaddr), (vaddr)), (vaddr))

void __init kmap_init(void)

{

kmap_pte = kmap_get_fixmap_pte(__fix_to_virt(FIX_KMAP_BEGIN));

}

#define __fix_to_virt(x) (FIXADDR_TOP - ((x) << PAGE_SHIFT))

了解上述关系之后，可以看具体的代码了：

void *kmap_atomic(struct page *page, enum km_type type)

{

enum fixed_addresses idx;

unsigned long vaddr;

//如果页面不是高端内存

inc_preempt_count();

if (page < highmem_start_page)

return page_address(page);

//在smp中所对应的序号

idx = type + KM_TYPE_NR*smp_processor_id();

//在映射断中求取序号所在的虚拟地址

vaddr = __fix_to_virt(FIX_KMAP_BEGIN + idx);

#ifdef CONFIG_DEBUG_HIGHMEM

if (!pte_none(*(kmap_pte-idx)))

BUG();

#endif

//根据页面属性建立不同的页面项.并根据FIX_KMAP_BEGIN的页表项，求出序号所在的页表项

if (PageReserved(page))

set_pte(kmap_pte-idx, mk_pte(page, kmap_prot_nocache));

else

set_pte(kmap_pte-idx, mk_pte(page, kmap_prot));

//在TLB中刷新这个地址

__flush_tlb_one(vaddr);

return (void*) vaddr;

}

我们在这个过程看中，并没有去判断一个区域有没有被映射。但这样也有一个好处，就是不会造成睡眠，因为它总有一个区域可供其映射。与永久内核映射相比，速度显得稍微要快一点。

临时内核映射的断开接口为：kunmap_atomic（）

void kunmap_atomic(void *kvaddr, enum km_type type)

{

//调试用，忽略

#ifdef CONFIG_DEBUG_HIGHMEM

unsigned long vaddr = (unsigned long) kvaddr & PAGE_MASK;

enum fixed_addresses idx = type + KM_TYPE_NR*smp_processor_id();

if (vaddr < FIXADDR_START) { // FIXME

dec_preempt_count();

preempt_check_resched();

return;

}

if (vaddr != __fix_to_virt(FIX_KMAP_BEGIN+idx))

BUG();

* force other mappings to Oops if they'll try to access

* this pte without first remap it

pte_clear(kmap_pte-idx);

__flush_tlb_one(vaddr);

#endif

dec_preempt_count();

preempt_check_resched();

}

我们在此看到，它并末对页面做特殊处理。

四总结：

其实，不管是那样的方式，原理都是一样的，都是在固定映射区外选定一个地址，然后再修改PTE项，使其指向相应的page。特别值得我们注意的是，因为kmap()会引起睡眠，所以它不能用于中断处理。但每一种映射方式都有自己的优点和缺点，这需要我们在写代码的时候仔细考虑了。

linux内存管理之非连续物理地址分配(vmalloc) 2008-02-15 16:15:17

分类： LINUX

------------------------------------------

本文系本站原创,欢迎转载!

转载请注明出处:http://ericxiao.cublog.cn/

------------------------------------------

前面我们已经分析了linux如何利用伙伴系统,slab分配器分配内存,用这些方法得到的内存在物理地址上都是连续的,然而,有些时候,每次请求内存时,系统都分配物理地址连续的内存块是不合适的,可以利用小块内存“连接”成大块可使用的内存.这在操作系统设计中也被称为 “内存拼接”,显然,内存拼接在需要较大内存,而内存访问相比之下不是很频繁的情况下是比较有效的.

在linux内核中用来管理内存拼接的接口是vmalloc/vfree.用vmalloc分配得到的内存在线性地址是平滑的,但是物理地址上是非连续的.

一:准备知识:

Linux用vm_struct结构来表示vmalloc使用的线性地址.vmalloc所使用的线性地址区间为: VMALLOC_START VMALLOC_END.借用<>中的一副插图,如下示:

从上图中我们可以看到每一个vmalloc_area用4KB隔开,这样做是为了很容易就能捕捉到越界访问,因为中间是一个 “空洞”.

二:相关的数据结构

下面来分析一下vmalloc area的数据结构:

struct vm_struct {

void *addr; //虚拟地址

unsigned long size; //vm的大小

unsigned long flags; //vm的标志

struct page **pages; //vm所映射的page

unsigned int nr_pages; //page个数

unsigned long phys_addr; //对应的起始物理地址

struct vm_struct *next; //下一个vm.用来形成链表

}

全局变量vmlist用来管理vm构成的链表

全局变量vmlist用于访问vmlist所使用的信号量

对于vm_struct有两个常用的操作: get_vm_area/remove_vm_area

get_vm_area:用来分配一个合适大小的vm结构,分配成功之后,将其链入到vmlist中,代码在 mm/vmalloc.c中.如下示:

//size为vm的大小

struct vm_struct *get_vm_area(unsigned long size, unsigned long flags)

{

//在VMALLOC_START与VMALLOC_END找到一段合适的空间

return __get_vm_area(size, flags, VMALLOC_START, VMALLOC_END);

}

//参数说明:

//start:起始地址 end:结束地址 size 空间大小

struct vm_struct *__get_vm_area(unsigned long size, unsigned long flags,

unsigned long start, unsigned long end)

{

struct vm_struct **p, *tmp, *area;

unsigned long align = 1;

unsigned long addr;

//如果指定了VM_IOREMAP.则调整对齐因子

if (flags & VM_IOREMAP) {

int bit = fls(size);

if (bit > IOREMAP_MAX_ORDER)

bit = IOREMAP_MAX_ORDER;

else if (bit < PAGE_SHIFT)

bit = PAGE_SHIFT;

align = 1ul << bit;

}

//将起始地址按照对齐因子对齐

addr = ALIGN(start, align);

//分配一个vm_struct结构空间

area = kmalloc(sizeof(*area), GFP_KERNEL);

if (unlikely(!area))

return NULL;

//PAGE_SIZE:在i32中为4KB,即上面所说的间隔空洞

size += PAGE_SIZE;

if (unlikely(!size)) {

kfree (area);

return NULL;

}

write_lock(&vmlist_lock);

//遍历vmlist:找到合适大小的末使用空间

for (p = &vmlist; (tmp = *p) != NULL ;p = &tmp->next) {

//若起始地址落在某一个vm区间,则调整起始地址为vm区间的末尾

if ((unsigned long)tmp->addr < addr) {

if((unsigned long)tmp->addr + tmp->size >= addr)

addr = ALIGN(tmp->size +

(unsigned long)tmp->addr, align);

continue;

}

//size+addr < addr ?除非size == 0

if ((size + addr) < addr)

goto out;

//中间的空隙可以容纳下size大小的vm.说明已经找到了这样的一个vm

if (size + addr <= (unsigned long)tmp->addr)

goto found;

//调整起始地址为vm的结束地址

addr = ALIGN(tmp->size + (unsigned long)tmp->addr, align);

//如果超出了范围

if (addr > end - size)

goto out;

}

found:

//找到了合适大小的空间,将area->addr赋值为addr,然后链入vmlist中

area->next = *p;

*p = area;

area->flags = flags;

area->addr = (void *)addr;

area->size = size;

area->pages = NULL;

area->nr_pages = 0;

area->phys_addr = 0;

write_unlock(&vmlist_lock);

return area;

out:

//没有找到合适大小的空间,出错返回

write_unlock(&vmlist_lock);

kfree(area);

if (printk_ratelimit())

printk(KERN_WARNING "allocation failed: out of vmalloc space - use vmalloc= to increase size.\n");

return NULL;

}

这段代码不是很复杂,在此不详细分析了.

remove_vm_area用来将相应的vm从vmlist中断开,使其表示的空间可以被利用

//addr:对应vm的超始地址

struct vm_struct *remove_vm_area(void *addr)

{

struct vm_struct **p, *tmp;

write_lock(&vmlist_lock);

//遍历vmlist.找到超始地址为addr的vm

for (p = &vmlist ; (tmp = *p) != NULL ;p = &tmp->next) {

if (tmp->addr == addr)

goto found;

}

write_unlock(&vmlist_lock);

return NULL;

found:

//断开tmp所对应的映射关系

unmap_vm_area(tmp);

//找到了这个vm,将其从vmlist上断开

*p = tmp->next;

write_unlock(&vmlist_lock);

return tmp;

}

unmap_vm_area用来断开vm所在线性地址所对应的映射关系.它的代码如下:

void unmap_vm_area(struct vm_struct *area)

{

//vm所对应的起始线性地址

unsigned long address = (unsigned long) area->addr;

//vm所对应的结束线性地址

unsigned long end = (address + area->size);

pgd_t *dir;

//起始地址所在的内核页目录项

dir = pgd_offset_k(address);

flush_cache_vunmap(address, end);

do {

//断开地址所对应的pmd映射

unmap_area_pmd(dir, address, end - address);

//运行到这里的时候,已经断开了一个页目录所表示的线性地址,而每个页目录表示的线性地址//大小为PGDIR_SIZE

address = (address + PGDIR_SIZE) & PGDIR_MASK;

dir++;

} while (address && (address < end));

//当到达末尾时结束循环

flush_tlb_kernel_range((unsigned long) area->addr, end);

}

//断开线性地址区间所在的pmd的映射

static void unmap_area_pmd(pgd_t *dir, unsigned long address,

unsigned long size)

{

unsigned long end;

pmd_t *pmd;

if (pgd_none(*dir))

return;

if (pgd_bad(*dir)) {

pgd_ERROR(*dir);

pgd_clear(dir);

return;

}

pmd = pmd_offset(dir, address);

address &= ~PGDIR_MASK;

end = address + size;

if (end > PGDIR_SIZE)

end = PGDIR_SIZE;

do {

//断开线性地址所在的pte的映射关系

unmap_area_pte(pmd, address, end - address);

address = (address + PMD_SIZE) & PMD_MASK;

pmd++;

} while (address < end);

}

static void unmap_area_pte(pmd_t *pmd, unsigned long address,

unsigned long size)

{

unsigned long end;

pte_t *pte;

if (pmd_none(*pmd))

return;

if (pmd_bad(*pmd)) {

pmd_ERROR(*pmd);

pmd_clear(pmd);

return;

}

pte = pte_offset_kernel(pmd, address);

address &= ~PMD_MASK;

end = address + size;

if (end > PMD_SIZE)

end = PMD_SIZE;

do {

pte_t page;

//清除pte的对应映射关系

page = ptep_get_and_clear(pte);

address += PAGE_SIZE;

pte++;

if (pte_none(page))

continue;

if (pte_present(page))

continue;

printk(KERN_CRIT "Whee.. Swapped out page in kernel page table\n");

} while (address < end);

}

经过这几个过程之后,实际上,它只是找到线性地址所对应的pte,然后断开pte的映射.值得注意的是:为了效率起见,这里只是断开了pte的映射,即只是将pte置为none,表示pte末映射内存.并末断开pmd和pgd的映射

linux内存管理之非连续物理地址分配(vmalloc)(续) 2008-02-15 16:17:27

分类： LINUX

三:vmalloc的实现:

void *vmalloc(unsigned long size)

{

return __vmalloc(size, GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL);

}

实际上调用__vmalloc:

void *__vmalloc(unsigned long size, int gfp_mask, pgprot_t prot)

{

struct vm_struct *area;

struct page **pages;

unsigned int nr_pages, array_size, i;

//使请求的大小与页框对齐

size = PAGE_ALIGN(size);

//有效性检查

if (!size || (size >> PAGE_SHIFT) > num_physpages)

return NULL;

//取得一个有效的VM,这个函数我们在前面已经详细的分析过了

area = get_vm_area(size, VM_ALLOC);

if (!area)

return NULL;

//所要映射的页面总数

nr_pages = size >> PAGE_SHIFT;

//页面描述符所占的空间

array_size = (nr_pages * sizeof(struct page *));

area->nr_pages = nr_pages;

area->pages = pages = kmalloc(array_size, (gfp_mask & ~__GFP_HIGHMEM));

//如果空间分配失败

if (!area->pages) {

remove_vm_area(area->addr);

kfree(area);

return NULL;

}

memset(area->pages, 0, array_size);

//为每一个页面分配空间

for (i = 0; i < area->nr_pages; i++) {

area->pages[i] = alloc_page(gfp_mask);

if (unlikely(!area->pages[i])) {

/* Successfully allocated i pages, free them in __vunmap() */

area->nr_pages = i;

goto fail;

}

//为所分配的页面建立映射关系

if (map_vm_area(area, prot, &pages))

goto fail;

return area->addr;

fail:

vfree(area->addr);

return NULL;

}

map_vm_area为所分配的内存建立映射关系,它的程序流程与unmap_vm_area差不多,都是从pgd找到pte,如果同样的映射关系不存在,则新建之.(如:pgd对应的pmd不存在,则新建pmd项,使pgd指向建好的pmd.同理,如果pmd所映射的pte项不存在,则新建pte,然后建立映射),然后将pte映射到相应的页表.代码如下:

int map_vm_area(struct vm_struct *area, pgprot_t prot, struct page ***pages)

{

unsigned long address = (unsigned long) area->addr;

unsigned long end = address + (area->size-PAGE_SIZE);

pgd_t *dir;

int err = 0;

//vm 起始地址所在的页目录

dir = pgd_offset_k(address);

spin_lock(&init_mm.page_table_lock);

do {

pmd_t *pmd = pmd_alloc(&init_mm, dir, address);

if (!pmd) {

err = -ENOMEM;

break;

}

//轮到pmd了 ^_^

if (map_area_pmd(pmd, address, end - address, prot, pages)) {

err = -ENOMEM;

break;

}

address = (address + PGDIR_SIZE) & PGDIR_MASK;

dir++;

} while (address && (address < end));

spin_unlock(&init_mm.page_table_lock);

flush_cache_vmap((unsigned long) area->addr, end);

return err;

}

static int map_area_pmd(pmd_t *pmd, unsigned long address,

unsigned long size, pgprot_t prot,

struct page ***pages)

{

unsigned long base, end;

base = address & PGDIR_MASK;

address &= ~PGDIR_MASK;

end = address + size;

if (end > PGDIR_SIZE)

end = PGDIR_SIZE;

do {

pte_t * pte = pte_alloc_kernel(&init_mm, pmd, base + address);

if (!pte)

return -ENOMEM;

//轮到pte了 ^_^

if (map_area_pte(pte, address, end - address, prot, pages))

return -ENOMEM;

address = (address + PMD_SIZE) & PMD_MASK;

pmd++;

} while (address < end);

return 0;

}

//为页表页建立映射关系

static int map_area_pte(pte_t *pte, unsigned long address,

unsigned long size, pgprot_t prot,

struct page ***pages)

{

unsigned long end;

address &= ~PMD_MASK;

end = address + size;

if (end > PMD_SIZE)

end = PMD_SIZE;

do {

struct page *page = **pages;

WARN_ON(!pte_none(*pte));

if (!page)

return -ENOMEM;

//具体的映射在这里了 ^_^

set_pte(pte, mk_pte(page, prot));

address += PAGE_SIZE;

pte++;

(*pages)++;

} while (address < end);

return 0;

}

只要理解了断开映射的过程,这段代码是很好理解的.

总而言之:linux在建立映射的时候,从pgd 到pte相应的建立映射关系,最后将pte映射到分配得到的物理内存．而在断开映射的时候，linux内核从pgd找到pte,然后将pte置为none,表示pte末建立映射关系.

四:vfree的实现:

代码如下:

void vfree(void *addr)

{

BUG_ON(in_interrupt());

__vunmap(addr, 1);

}

跟踪至__vunmap:

void __vunmap(void *addr, int deallocate_pages)

{

struct vm_struct *area;

//参数有效性检查

if (!addr)

return;

//判断addr是否是按页框对齐的

if ((PAGE_SIZE-1) & (unsigned long)addr) {

printk(KERN_ERR "Trying to vfree() bad address (%p)\n", addr);

WARN_ON(1);

return;

}

//remove_vm_area:这个函数我们在之前已经分析过了 ^_^

area = remove_vm_area(addr);

if (unlikely(!area)) {

//没有找到起始地址为addr的vm.则无效,退出

printk(KERN_ERR "Trying to vfree() nonexistent vm area (%p)\n",

addr);

WARN_ON(1);

return;

}

if (deallocate_pages) {

int i;

for (i = 0; i < area->nr_pages; i++) {

if (unlikely(!area->pages[i]))

BUG();

//释放请求获得的页面

__free_page(area->pages[i]);

}

//释放分配的page 描述符

kfree(area->pages);

}

//释放内核的vm 描述符

kfree(area);

return;

}

五:总结

经过上面的分析，我们可以看到，vmalloc分配内存的过程是十分低效的，不仅要从伙伴系统中取内存而且要建立映射关系，显然，用vmalloc分配较小的内存是不合算的。此外。有个问题值得思考一下：为什么用__get_free_page不需要建立映射关系，而vmalloc就需要呢？

其实，不管使用何种方式。线性地址到物理地址的转换最终都要经过硬件的页式管理去完成。所不同的是__get_free_page返回的线性地址是属于（PAGE_OFFSET,HIGH_MEMORY）之间的，这段线性地址在内核初始化的时候就完成了映射。而vmalloc使用的线性地址是属于（VMALLOC_START VMALLOC_END）之间的，也就是说属于一个临时映射区，所以必须为其建立映射关系。