源自:Elasticsearch技术解析与实战
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件。
倒排索引中的索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。
搜索引擎 的关键步骤就是建立倒排索引,倒排索引一般表示 为一个关键词,然后是它的频度(出现的次数),位置(出现在哪一篇文章或网页中,及有关的日期,作者等信息),好比一本书的目录,标签一般。
下面用例子介绍倒排索引文件结构及相应的生成算法。
文章1的内容为:Tom lives Guangzhou,I live in Guangzhou too.
文章2的内容为:He once lived in Shanghai.
取得关键词
建立倒排索引
实现