Elasticsearch倒排索引的原理介绍

令狐前生

已于 2022-07-29 12:35:12 修改

阅读量909

点赞数

分类专栏： java 文章标签： elasticsearch 搜索引擎大数据

于 2022-07-24 21:31:05 首次发布

本文链接：https://blog.csdn.net/u010132847/article/details/125964560

版权

23 篇文章 1 订阅

订阅专栏

一、先认识下关系型数据库的全文搜索

搜索的核心诉求就是全文搜索，全文搜索简单来说就是要在大量文档中找到匹配指定条件出现的位置。在关系型数据库中，数据检索只能通过关键字like实现，左右或中间模糊查询。

举例：

select * from company where name like “%斗罗大陆%”;

select * from company where name like “%斗罗大陆”;

select * from company where name like “斗罗大陆%”;

这种方式的实现存在的问题：

搜索的核心目标实际上就是保证搜索的效果和性能，为了高效的实现全文索引，Elasticsearch通过倒排索引来解决。

正排索引：指的是以文档对象的唯一id作为索引，以文档内容作为记录的结构。

倒排索引：指的是以文档内容的单词作为索引，将包含改词的文档iD作为记录的结构。

看三句话生成的倒排索引过程：

Term index：词项索引

Term dictionary: 词项字段

Post listing: 倒排列表

加入依次插入：hello, hello word, hello china, welcome。结果会如下，如果单词前缀相同会匹配前面已建立的节点(深绿色是单词结尾)，

演示地址：https://www.cs.usfca.edu/~galles/visualization/Trie.html。

假设现有几条数据，如下：

正排索引结构如下：

生成倒排索引：

搜索过程：

关注

专栏目录