Elasticsearch倒排索引（一）简介

Kuo-Teng

已于 2022-09-19 01:10:34 修改

阅读量1k

点赞数

分类专栏： ES 文章标签： elasticsearch 搜索引擎大数据

于 2022-09-19 00:58:23 首次发布

本文链接：https://blog.csdn.net/itigoitie/article/details/126925417

版权

7 篇文章 3 订阅

订阅专栏

1. ES与倒排索引

在这里插入图片描述

毫无疑问，ES最擅长的是充当搜索引擎，在这类场景中较典型的应用领域是垂直搜索，如电商搜索、地图搜索、新闻搜索等各类站内搜索。
创建索引时，业务系统模块把数据存储到数据库中，第三方数据同步模块负责将数据库中的数据按照业务需求同步到ES中。
搜索时，前端应用先向搜索模块发起搜索请求，然后搜索模块组织搜索DSL向ES发起请求，ES响应搜索模块的请求开始搜索，并将搜索到的数据进行封装，传送给搜索模块，进而传递到前端进行展现。
关系数据库的索引大多是B-Tree结构，而ES使用倒排索引。倒排索引中的所有词语存储在词典中，每个词语又指向包含它的文档信息列表。在某些情况下，两种不同的数据索引方法决定了这两种产品在性能和速度上的差异。例如，在包含数亿数据的关系型数据表上执行最简单的计count查询时，关系型数据库可能需要几秒的响应时间。如果数据表的设计不合理，甚至可能拖垮整个数据库，影响其他数据服务；而ES可以在毫秒级别返回，该查询对整个集群的影响微乎其微。除此之外，ES建立在Lucene基础之上，与生俱来就能完成分词匹配，并且支持多种打分排序算法，还支持用户自定义排序脚本。

假设需要对下面两个工地的信息进行倒排索引的创建：

文档ID为001，工地名称为“北京海淀花园小区”；
文档ID为002，工地名称为“北京朝阳星空小区”。
首先，ES将文档交给分析器进行处理，处理的过程包括字符过滤、分词和分词过滤，最终的处理结果是文档内容被表示为一系列关键词信息（关键词本身以及它在文档中出现的位置信息和词性信息）的集合。如下图所示。
其次，ES根据分析结果建立文档-词语矩阵，用以表示词语和文档的包含关系，如图所示。
文档-词语矩阵建立完成之后，接着需要建立基于词语的倒排索引。ES会遍历文档词语矩阵中的每一个词语，然后将包含该词语的文档信息与该词语建立一种映射关系。映射关系中的词语集合叫作Term Dictionary。映射中的文档集合信息不仅包含文档ID，还包含词语在文档中的位置和词频信息，包含这些文档信息的结构叫作Posting List。对于一个规模很大的文档集合来说，可能包含几十万甚至上百万的词语集合，能否快速定位某个词语，直接影响搜索时的响应速度。因此需要一种高效的数据结构对映射关系中的词语集合进行索引，这种结构叫作Term Index。上述3种结构结合在一起就构成了ES的倒排索引结构，逻辑关系如图所示。
本例中的倒排索引结构如图所示。