1. 作用:事先建立好倒排索引表,可以加速单词查找。
2. 内容:包含单词出现的文档号、文档中的出现次数和文档中的位置(后面两个不一定有)。
3. 查询:单个词语,直接找到倒排表中的那一项。
句子查询,用这些单词在倒排表中的文档类求与运算。
4. 排序:某些特定算法。
5. 例子:三篇文章的标题分别为:
T0=”it is what it is” T1=”what is it” T2=”it is a banana”
我们能得到下面的反向索引文件:
a{2} banana{2} is{0,1,2} it{0,1,2} what{0,1}
如果查询”what is it” 则对应的集合是{0,1}{0,1,2}{0,1,2}={0,1}。
当然记录的位置的话,还会有连续性约束。