索引的一种组织形式

 

之前考虑可以把所有的term都放在内存里,因为即使像GOV2 http://ir.dcs.gla.ac.uk/test_collections/gov2-summary.htm这样的语料库,所有的term和也只有4.9*10^7个,是可以考虑把其放入内存中的,但考虑到很多商业公司考虑的多元索引技术(比如把Information Retrieve作为一个词单独索引),这样就会大大加大索引的数量,这样内存可能就未必放的下,有实验表明如果按将要介绍的方法组织索引,对性能的损耗和把全部索引放入内存比较微乎其微却极大的节约了内存,再结合到我们可怜的硬件条件:-( 这个索引组织还是很有意义的。

 

组织方法如上图。在右侧的on-disk index data说明右侧的数据都是保存在硬盘上的,图中画出3块,每一块都严格分配64K大小(不足用‘#’补齐),每一块的内容是List(term, posting list),为了严格控制每一块保持64K大小,有的term可能会被分在两个块里(如hurried在第二块和第三块中),有的term可能独占好几个块(如hurt)。左侧的数据保存在内存中,是一个(term ,posting)的数组,每一个元素term表示它所指向块的第一个term,每个元素的posting表示它指向第一个term的posting位置。这样访问任意一个term只需要在memory中算出它可能在的block,然后把硬盘上这个block(64k) load到内存中查找即可。

 

这种方法其实是对Lucene中term索引和跳表(skip list)的一种巧妙融合,相对于Lucene能减少一次对硬盘的一次随机读。

 

 

 

 

参考http://book.douban.com/subject/4881120/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值