http://blog.csdn.net/mafuli007/article/details/7237857
页高速缓存是linux内核实现的一种主要磁盘缓存,它主要用来减少对磁盘的IO操作,具体地讲,是通过把磁盘中的数据缓存到物理内存中,把对磁盘的访问变为对物理内存的访问。为什么要这么做呢?
一,速度,访问磁盘的速度要远低于访问内存的速度
二临时局部原理,短时期内集中访问同一片数据的原理。
有关这两个概念,相信熟悉操作系统的我们不会太陌生。页高速缓存是由RAM中的物理页组成的,缓存中的每一页都对应着磁盘中的多个块。每当内核开始执行一个页IO操作时,就先到高速缓存中找。这样就可以大大减少磁盘操作。
一个物理页可能由多个不连续的物理磁盘块组成。也正是由于页面中映射的磁盘块不一定连续,所以在页高速缓存中检测特定数据是否已被缓存就变得不那么容易了。另外linux页高速缓存对被缓存页的范围定义的非常宽。缓存的目标是任何基于页的对象,这包含各种类型的文件和各种类型的内存映射。为了满足普遍性要求,linux使用定义在linux/fs.h中的结构体address_space结构体描述页高速缓存中的页面,如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
|
struct
address_space {
struct
inode *host;
/* owning inode */
struct
radix_tree_root page_tree;
/* radix tree of all pages */
spinlock_t tree_lock;
/* page_tree lock */
unsigned
int
i_mmap_writable;
/* VM_SHARED ma count */
struct
prio_tree_root i_mmap;
/* list of all mappings */
struct
list_head i_mmap_nonlinear;
/* VM_NONLINEAR ma list */
spinlock_t i_mmap_lock;
/* i_mmap lock */
atomic_t truncate_count;
/* truncate re count */
unsigned
long
nrpages;
/* total number of pages */
pgoff_t writeback_index;
/* writeback start offset */
struct
address_space_operations *a_ops;
/* operations table */
unsigned
long
flags;
/* gfp_mask and error flags */
struct
backing_dev_info *backing_dev_info;
/* read-ahead information */
spinlock_t private_lock;
/* private lock */
struct
list_head private_list;
/* private list */
struct
address_space *assoc_mapping;
/* associated buffers */
};
|
其中的i_mmap字段是一个优先搜索树,它的搜索范围包含了在address_sapce中私有的和共享的页面。nrpages反应了address_space空间的大小。address_space结构往往会和某些内核对象关联。通常情况下,会与一个索引节点(inode)关联,这时host域就会指向该索引节点。如果关联对象不是一个索引节点的话,比如address_space和swapper关联时,这是host域会被置为NULL。a_ops域指向地址空间对象中的操作函数表,这与VFS对象及其操作函数表关系类似,操作函数表定义在linux/fs.h中,由address_space_operations表示,如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
struct
address_space_operations {
int
(*writepage)(
struct
page *,
struct
writeback_control *);
int
(*readpage) (
struct
file *,
struct
page *);
int
(*sync_page) (
struct
page *);
int
(*writepages) (
struct
address_space *,
struct
writeback_control *);
int
(*set_page_dirty) (
struct
page *);
int
(*readpages) (
struct
file *,
struct
address_space *,
struct
list_head *, unsigned);
int
(*prepare_write) (
struct
file *,
struct
page *, unsigned, unsigned);
int
(*commit_write) (
struct
file *,
struct
page *, unsigned, unsigned);
sector_t (*bmap)(
struct
address_space *, sector_t);
int
(*invalidatepage) (
struct
page *, unsigned
long
);
int
(*releasepage) (
struct
page *,
int
);
int
(*direct_IO) (
int
,
struct
kiocb *,
const
struct
iovec *,loff_t, unsigned
long
);
};
|
这里面最重要的两个就是readpage()与writepage()了。对于readpage()方法而言,首先,一个address_space对象和一个偏移量会被传给该方法,这两个参数用来在页高速缓存中搜素需要的数据:
1
|
page = find_get_page(mapping, index);
|
mapping是指定的地址空间,index是文件中的指定位置。如果要搜索的页并没在高速缓存中,那么内核将分配一个新页面,然后将其加入到页高速缓存中,如下:
1
2
3
4
5
6
7
|
int
error;
cached_page = page_cache_alloc_cold(mapping);
if
(!cached_page)
/* error allocating memory */
error = add_to_page_cache_lru(cached_page, mapping, index, GFP_KERNEL);
if
(error)
/* error adding page to page cache */
|
最后,需要的数据从磁盘被读入,再被加入页高速缓存,然后返回给用户:error = mapping->a_ops->readpage(file,page);
写操作和读操作有少许不同。对于文件映射来说,当页被修改了,VM仅仅需要调用:setPageDirty(page);内核晚些时候通过writepage()方法把页写出。对特定文件的写操作会比较复杂----它的代码在文件mm/filemap.c中,通常写操作路径基本上要包含一下各步:
1
2
3
4
|
page = __grab_cache_page(mapping, index, &cached_page, &lru_pvec);
status = a_ops->prepare_write(file, page, offset, offset+bytes);
page_fault = filemap_copy_from_user(page, offset, buf, bytes);
status = a_ops->commit_write(file, page, offset, offset+bytes);
|
首先,在页高速缓存中搜索需要的页,如果需要的页不在高速缓存中,那么内核在高速缓存中新分配一空闲项;下一步,prepare_write()方法被调用,创建一个写请求;接着数据被从用户空间拷贝到内核缓冲;最后通过commit_write()函数将数据写入磁盘。
因为在任何页IO操作前内核都要检查页是否已经在页高速缓存中了,所以这种检查必须迅速,高效。否则得不偿失了。前边已经说过,也高速缓存通过两个参数address_space对象和一个偏移量进行搜索。每个address_space对象都有唯一的基树(radix tree),它保证在page_tree结构体中。基树是一个二叉树,只要指定了文件偏移量,就可以在基树中迅速检索到希望的数据,页高速缓存的搜索函数find_get_
page()要调用函数radix_tree_lookup(),该函数会在指定基树中搜索指定页面。基树核心代码的通用形式可以在文件lib/radix-tree.c中找到,另外想要使用基树,需要包含头文件linux/radix_tree.h.
在内存中累积起来的脏页必须被写回到磁盘,在一下两种情况下,脏页会被写会到磁盘:
1.在空闲内存低于一个特定的阈值时,内核必须将脏页写回磁盘,以便释放内存。 3. 当用户进程调用sync()和fsync()函系统调用时,内核会按要求执行回写动作。 |
现在你只需知道,2.6内核中,使用pdflush后台回写例程来完成这个工作,(注:flusher线程,具体可以查看linux Kernel development, fuli ma)那么具体是怎么实现的呢:
首先,pdflush线程在系统中的空闲内存低于一个特定的阈值时,将脏页刷新回磁盘。该后台回写例程的目的在于在可用物理内存过低时,释放脏页以重新获得内存。上面提到的特定的内存阈值可以通过dirty_background_ratio系统调用设置。一旦空闲内存比这个指小时,内核便会调用函数wakeup_bdflush() 唤醒一个pdflush线程,随后pdflush线程进一步调用函数background_writeout()开始将脏页写会到磁盘,函数background_writeout()需要一个长整型参数,该参数指定试图写回的页面数目。函数background_writeout会连续地写会数据,直到满足一下两个条件:
1.已经有指定的最小数目的页被写回到磁盘。 2.空闲内存页已经回升,超过了阈值dirty_background_ration. |
pdflush线程(实现在mm/pdflush.c中,回写机制的实现代码在文件mm/page-writeback.c和fs/fs-writeback.c中)周期地被唤醒并且把超过特定期限的脏页写回磁盘。系统管理员可以在/proc/sys/vm中设置回写相关的参数,也可以通过sysctl系统调用来设置它们。下表给出了可以设置的量: