linux 读文件返回-1,Linux文件读写(1)

Linux文件读写(1)--页面缓冲(Page Cache)的管理

R.wen

一、本文分析文件的读写过程。当用户进程发出一个read()系统调用时,它首先通过VFS从disk cache中去查找相应的文件块有没有已经被缓存起来,如果有,则不需要再次从设备中去读,直接从CACHE中去拷贝给用户缓冲区就可以了,否则它就要先分配一个缓冲页面,并且将其加入到对应的inode节点的address_space中,再调用address_space的readpage()函数,通过submit_bio()向设备发送一个请求,将所需的文件块从设备中读取出来存放在先前分配的缓冲页面中,最后再从该页面中将所需数据拷贝到用户缓冲区。

16abec2ee9b2f6bfeff55962c4e152ce.png

图1

二、页面缓冲(Page Cache)的管理

页面缓冲的核心数据结构是struct address_space:

struct backing_dev_info;

struct address_space {

struct inode*host;/* owner: inode, block_device */

struct radix_tree_rootpage_tree;/* radix tree of all pages */

rwlock_ttree_lock;/* and rwlock protecting it */

unsigned inti_mmap_writable;/* count VM_SHARED mappings */

struct prio_tree_rooti_mmap;/* tree of private and shared mappings */

struct list_headi_mmap_nonlinear;/*list VM_NONLINEAR mappings */

spinlock_ti_mmap_lock;/* protect tree, count, list */

unsigned inttruncate_count;/* Cover race condition with truncate */

unsigned longnrpages;/* number of total pages */

pgoff_twriteback_index;/* writeback starts here */

const struct address_space_operations *a_ops;/* methods */

unsigned longflags;/* error bits/gfp mask */

struct backing_dev_info *backing_dev_info; /* device readahead, etc */

spinlock_tprivate_lock;/* for use by the address_space */

struct list_headprivate_list;/* ditto */

struct address_space*assoc_mapping;/* ditto */

} __attribute__((aligned(sizeof(long))));

如下图2,缓冲页面的是通过一个基数树(Radix Tree)来管理的,这是一个简单但非常高效的树结构。

7d02fd03b7ea1b8efd04015d62c62c5d.png

图2

由图2可以看到,当RADIX_TREE_MAP_SHIFT为6(即每个节点有2^6=64个slot)且树高是1时,它可以寻址大小为64个页面(256kb)的文件,同样,当树高为2时,它可以寻址64*64个页面(16M)大小的文件,如此下去,在32位的系统中,树高为6级,(最高级只有2位:32-6*5),所以它可以寻址2^32-1个页面大小的文件,约为16TB大小,所以目前来说已经足够了。

基数树的遍历也是很简单,且类似于虚拟线性地址的转换过程。只要给定树根及文件偏移,就可以找到相应的缓存页面。再如图2右,如果在文件中的偏移为131个页面,这个偏移值的高6位就是第一级偏移,而低6位就是在第二级的偏移,依此类推。如对于偏移值131(10000011),高6位值是131>>6 = 2,所以它在第一级的偏移是2,而在第2级的领衔就是低6位,值为3,即偏移为3,所以得到的结果如图2右方所示。

#define RADIX_TREE_MAP_SHIFT(CONFIG_BASE_SMALL ? 4 : 6)

#define RADIX_TREE_MAP_SIZE(1UL << RADIX_TREE_MAP_SHIFT)

#define RADIX_TREE_MAX_TAGS 2

#define RADIX_TREE_TAG_LONGS\//其值为64

((RADIX_TREE_MAP_SIZE + BITS_PER_LONG - 1) / BITS_PER_LONG)

struct radix_tree_node {

unsigned intheight;/* Height from the bottom */

unsigned intcount;

struct rcu_headrcu_head;

void*slots[RADIX_TREE_MAP_SIZE];

unsigned longtags[RADIX_TREE_MAX_TAGS][RADIX_TREE_TAG_LONGS];

};

struct radix_tree_path {

struct radix_tree_node *node;

int offset;

};

struct radix_tree_node {

unsigned intheight;/* Height from the bottom */

unsigned intcount;

struct rcu_headrcu_head;

void*slots[RADIX_TREE_MAP_SIZE];

unsigned longtags[RADIX_TREE_MAX_TAGS][RADIX_TREE_TAG_LONGS];

};

以上是相关的几个数据结构,第一个为树根结点结构,第二个用于路径查找,第三个就是树的节点结构。

注意节点结构中的tags域,这个一个典型的用空间换时间的应用。它是一个二维数组,用于记录该节点下面的子节点有没有相应的标志。目前RADIX_TREE_MAX_TAGS为2,表示只记录两个标志,其中tags[0]为PAGE_CACHE_DIRTY,tags[1]为PAGE_CACHE_WRITEBACK。它表示,如果当前节点的tags[0]值为1,那么它的子树节点就存在PAGE_CACHE_DIRTY节点,否则这个子树分枝就不存在着这样的节点,就不必再查找这个子树了。比如在查找PG_dirty的页面时,就不需要遍历整个树,而可以跳过那些tags[0]为0值的子树,这样就提高了查找效率。

posted on 2008-08-22 15:14 puppy 阅读(1374) 评论(0)  编辑 收藏 引用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值