倒排索引是一种以关键字和文档编号结合,并以关键字作为主键的索引结构。倒排索引分为两个部分。
(1)第1个部分:由不同索引词(index term)组成的索引表,称为"词典"(lexicon)。其中保存了各种中文词汇,以及这些词汇的一些统计信息(例如出现频率nDocs),这些统计信息用于各种排名算法(Ranking Algorithm) [Salton 1989;Witten 1994]
(2)第2个部分:由每个索引词出现过的文档集合,以及命中位置等信息构成,也称为"记录表"(posting file)或"记录列表"(posting list)。如图4-6所示。
图4-6 倒排索引 |
左边的表结构(词典)记录索引词Id号、匹配该索引词的文档数量,并匹配文档在记录文件内的偏移量,通过这个偏移量就可以读取记录文件对应区域的信息。例如在图4-6中,通过读取T1的偏移量x,读取在记录文件中T1命中的相关文档Doc1、Doc2和Doc3的相关信息。
右边的表结构(记录表)记录文档编号(DocId)、索引词在该文档的命中个数(NHits),以及命中域的列表(HitList)。例如在图4-6中,记录文件显示了T2关键词在Doc1中出现了3次。
图4-6所示的倒排索引示例中,以索引词T2为例,T2在两个文档中出现。通过偏移量在记录文件中找到了存放与T2有关的信息,即T2匹配的Doc1和Doc2两个文档,并且在Doc1中出现了3次,位置分别为3、5和7(图中3、2和2表示为差分序列后的实际值,即3、5-3和7-5)。
注意到这种按照索引词组织文档的方式,在索引词WordId一边,其Id号不会重复;而在DocId一边,由于每个文档都可能包含多个索引词,DocId的重复非常普遍,因此对DocId就需要进行大规模的压缩。
压缩编码也采用Variable Byte Coding编码方法进行压缩,首先对DocId排序,接下来将DocId的递增序列为差分序列,最后用Variable Byte Coding编码方法进行压缩编码。例如这样的DocId序列(22,5,9,1),通过排序得到(1,5,9,22),变差分序列得到(1,4,4,13),压缩编码后得到(2,8,8,26),对于小于128的数进行压缩编码,相当于乘2(详细参见本章第三节中的相关内容)。
最后,在倒排索引中,按照何种顺序存放DocId更加有利于检索呢?在图4-6中,T1这个词有Doc1、Doc2、Doc3与之相匹配,也就是在这些文档中都出现了T1,那么在倒排索引的记录表中,哪个文档编号先存放,哪个文档编号后存放呢?这种存放顺序的策略大致有如下3种。
(1)按照DocId升序存放。
(2)按照索引词在文档中出现次数降序存放。
(3)记录表分块存放,块内按DocId升序存放,块间按PageRank值降序存放。
对于方案1来说,它有助于在多关键词查询中,得到相同的DocId(在第六章中介绍查询系统时,会提到因为DocId有序而为查询带来的好处)。并且能够对DocId进行压缩编码,同时降低磁盘I/O的开销。
对于方案2来说,按照索引词Id在文档中出现的次数降序排序,因为索引词出现次数多的文档与查询关键词的相关性越好(这里,索引词和关键词是同一个词,在索引系统中称为"索引词",在查询系统中称为"关键词"或"查询词"),这是很自然的,检索就是检索哪些与查询词相关性高的文档。文献[S. Brin 1998]阐述了一种折中的设计方案,即不同的索引词命中区分对待,对于索引词在标题或者锚文本(Anchor)命中的文档,以及命中信息存放在一个记录表中,不妨称为"表A",表内数据按DocId排序;命中其他位置的文档及其命中信息存放在另一个记录表中,称为"表B",同样表内数据也是按照DocId排序。这样对于每个索引词的查询,优先在表A中查询。只有当结果数不够时,再到表B中查询。这样既照顾到了压缩存储的需要,也照顾到了相关性,通常标题中的词大多在正文中会多次出现。当然这种折中的方法有时也不够合理,它过分倚重于锚文本的关键词,常常被针对这种算法作弊的网页设计者利用。
对于方案3来说,一方面照顾到了方案1的索引压缩功能(文档按序存储);另一方面照顾了重要的文档在检索过程中优先被检索的需要,而且防止了方案2中由网页设计者作弊可能带来的麻烦。有些网页设计者在网页中正文,锚文本中堆砌大量经常被查询的重要关键词,因此方案2在设计上不可避免的缺陷容易被利用。当然PageRank算法也会被作弊者利用,然而PageRank的作弊较为困难,所以方案3是较为理想的解决方案。
最后,总结一下正排索引和倒排索引的关系。本质上说,存在这样两个空间,一个称为"索引词空间",一个称为"文档空间"。正排索引可以理解成一个定义在文档空间到索引词组空间的一个映射,任意一个文档对应唯一的一组索引词;而倒排索引可以理解成一个定义在索引词空间到文档组空间的一个映射。任意一个索引词对应唯一的一组该索引词其命中的文档。因此从文档到正排索引,进而从正排索引到倒排索引就是理顺这种关系的过程。使得给出一个索引词,就能通过倒排索引能够找到其命中的文档,以及位置信息。