倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。(百度百科)
给定如下几个文档,文档内容分别如下:
Doc1:今天出去玩 |
Doc2:今天天气不错 |
Doc3:心情不错 |
给定一个句子:今天的日程
分词后得到:今天 的 日程
依次遍历:“今天”出现在Doc1和Doc2文档中,其他的没有出现。因此关键词“今天”返回的倒排索引表为[Doc1,Doc2],这里选择的是并集,可根据情况选择返回的是交集还是并集或者是其他的处理。
如果用在搜索引擎中,用户输入关键字“今天”,那么返回的搜索结果便是[Doc1,Doc2]。