ES的查询过程、倒排索引

最新推荐文章于 2024-07-08 06:53:03 发布

放羊的大飞

最新推荐文章于 2024-07-08 06:53:03 发布

阅读量1.8k

点赞数

分类专栏：分布式搜索引擎

本文链接：https://blog.csdn.net/qq_39082976/article/details/106293444

版权

分布式搜索引擎专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、query phase 查询阶段：
       1.客户端发送请求，接受到的节点变成coordinate node协调节点；
       2.协调节点将搜索请求广播给：该索引中每个节点的副本分片or主分片；
       3.每个分片将自己的搜索结果(一些doc id)返回给协调节点，由协调节点做数据的合并、排序、分页等操作，产出最终的查询结果；
2、fetch phase 取回阶段：
       4.协调节点根据查询阶段得到的结果集(doc id)，向含有改文档的分片发送get请求拉取实际的doc数据，返回给客户端。

二、Lucene介绍

分片shard是一个Lucene实例

三、ES的索引原理

1、传统关系型数据的索引结构：B树、B+树(Mysql)

2、倒排索引：k是分词后的关键字，v是doc文档编号
正排索引：k是doc文档编号，v是文档内容

3、索引逻辑：把term index加载到内存然后定位关键字在term dictionary中的大概位置，再找到具体term，再根据倒排索引posting list快速定位文档。 (一切设计都是为了提高搜索的性能)
Posting List：term关联的int数组，存储了所有符合某个term的文档id
term dictionary：term的字典(所有term的集合)，方便检索term
term index：结构是trie树(字典树)，通过term index快速定位term dictionary的某个offset，再往后顺序查找

4、为什么ES/Lucene的检索比mysql快：
mysql只有term dictionary这层，以B+tree存储在磁盘上，检索时需要若干次的随机访问磁盘操作；
Lucene在term dictionary的基础上添加了term index来加速检索，term index以树的形式缓存在内存中。从term index定位到term dictionary的区域，再去磁盘上找term，减少磁盘的随机访问次数。

5、聚合查询里带有过滤条件或检索条件：先由倒排索引完成搜索，确定文档范围，再由正排索引提取field，做聚合计算。

6、type=keyword类型字段不会分词，直接根据字符串内容建立倒排索引；
type=text类型在存入ES时，会先分词，去掉停顿词(无意义的词，比如"的"/"啊"，没必要建立索引)，再根据分词后的关键字(term)建立倒排索引。

四、ELK

ELK日志系统：数据分布式存储、日志解析、可视化查询
elasticsearch：分布式存储、全文检索
logstash：日志收集系统
kibana：数据可视化

放羊的大飞

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ES的查询过程、倒排索引

一、ES的搜索过程： 1、query phase 查询阶段： 1.客户端发送请求，接受到的节点变成coordinate node协调节点； 2.协调节点将搜索请求广播给：该索引中每个节点的副本分片or主分片； 3.每个分片将自己的搜索结果(一些doc id)返回给协调节点，由协调节点做数据的合并、排序、分页等操作，产出最终的查询结果； 2、fetch phase 取回阶段： 4.协调节点根据查询阶段得到的结果集(doc id)，向含有...
复制链接

扫一扫