倒排索引的核心组成:(包含两个部分)
-
单词词典(Term Dictionary):记录所有文档的单词,记录单词到倒排列表的关联关系
-
单词词典一般比较大,可以通过B+树或哈希拉链法实现,以满足高性能的插入与查询
-

- 倒排列表(Posting List):记录了单词对应的文档集合,由倒排索引组成。倒排索引项中包含:
- 文档ID
- 词频TF - 该单词在文档中出现的次数,用于相关性评分
- 位置(Position)- 单词在文档中分词的位置,用于语句、短语搜索(phrase query)
- 偏移(Offset)- 记录单词的开始结束位置,实现高亮显示

3349

被折叠的 条评论
为什么被折叠?



