1.什么是倒排索引
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。
2.实例
下面利用一个例子来说明倒排索引:
比如说有两个文档,doc1和doc2他们的内容分别如下:
Doc1: VerRan is good boy。
Doc2: Are you VerRan?
如果按照正常的索引建立如下所示:
文档名 关键字 次数
Doc1 VerRan 1
Doc1 is 1
Doc2 VerRan 1
Doc2 Are 1
……
这里索引的建立是以文档为标准的,这样当文档很多的时候数据量将非常的大,检索效率会明显下降的。
倒排索引是以单词为标准来进行索引的建立的。
还以上面的doc1和doc2为例:
关键字 出现的文档 次数
VerRan doc1 doc2 1 1
Is doc1 1
Are doc2 1
…….
3.总结
通过比较可以发现,一般的索引结构建立的是一种“文档到单词”的映射关系,而倒排索引建立的则是一种“单词到文档”的映射关系。因为在日常的检索中,通常都是按照关键字进行搜索的,所以,倒排索引可以更好地适合这种检索机制的需要。这也是倒排索引如今被大规模使用的原因
4.参考资料:
http://baike.baidu.com/view/676861.htm?ih=255
http://book.csdn.net/bookfiles/28/10028810.shtml