倒排索引

1.什么是倒排索引

 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。


2.实例

下面利用一个例子来说明倒排索引:

比如说有两个文档,doc1doc2他们的内容分别如下:

Doc1: VerRan is good boy

Doc2: Are you VerRan?

如果按照正常的索引建立如下所示:

文档名  关键字   次数

Doc1   VerRan   1

Doc1  is          1

Doc2  VerRan      1

Doc2  Are          1

……

这里索引的建立是以文档为标准的,这样当文档很多的时候数据量将非常的大,检索效率会明显下降的。

倒排索引是以单词为标准来进行索引的建立的。

还以上面的doc1doc2为例:

关键字   出现的文档  次数

VerRan   doc1 doc2   1 1

Is         doc1       1

Are         doc2       1

…….

3.总结

通过比较可以发现,一般的索引结构建立的是一种“文档到单词”的映射关系,而倒排索引建立的则是一种“单词到文档”的映射关系。因为在日常的检索中,通常都是按照关键字进行搜索的,所以,倒排索引可以更好地适合这种检索机制的需要。这也是倒排索引如今被大规模使用的原因


4.参考资料:

http://baike.baidu.com/view/676861.htm?ih=255

http://book.csdn.net/bookfiles/28/10028810.shtml

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值