ES的查询过程、倒排索引

                 ES数据的新增、修改、删除的底层原理

一、ES的搜索过程

  1、query phase 查询阶段:
        1.客户端发送请求,接受到的节点变成coordinate node协调节点;
        2.协调节点将搜索请求广播给:该索引中每个节点的副本分片or主分片;
        3.每个分片将自己的搜索结果(一些doc id)返回给协调节点,由协调节点做数据的合并、排序、分页等操作,产出最终的查询结果;
  2、fetch phase 取回阶段:
        4.协调节点根据查询阶段得到的结果集(doc id),向含有改文档的分片发送get请求拉取实际的doc数据,返回给客户端。

二、Lucene介绍

         分片shard是一个Lucene实例

三、ES的索引原理

  1、传统关系型数据的索引结构:B树、B+树(Mysql)  

  2、倒排索引:k是分词后的关键字,v是doc文档编号
        正排索引:k是doc文档编号,v是文档内容

  3、索引逻辑:把term index加载到内存然后定位关键字在term dictionary中的大概位置,再找到具体term,再根据倒排索引posting list快速定位文档。  (一切设计都是为了提高搜索的性能)
            Posting List:term关联的int数组,存储了所有符合某个term的文档id
            term dictionary:term的字典(所有term的集合),方便检索term
            term index:结构是trie树(字典树),通过term index快速定位term dictionary的某个offset,再往后顺序查找

  4、为什么ES/Lucene的检索比mysql快:
       mysql只有term dictionary这层,以B+tree存储在磁盘上,检索时需要若干次的随机访问磁盘操作;
       Lucene在term dictionary的基础上添加了term index来加速检索,term index以树的形式缓存在内存中。从term index定位到term dictionary的区域,再去磁盘上找term,减少磁盘的随机访问次数

  5、聚合查询里带有过滤条件或检索条件:先由倒排索引完成搜索,确定文档范围,再由正排索引提取field,做聚合计算。

  6、type=keyword类型字段不会分词,直接根据字符串内容建立倒排索引;
        type=text类型在存入ES时,会先分词,去掉停顿词(无意义的词,比如"的"/"啊",没必要建立索引),再根据分词后的关键字(term)建立倒排索引。

 

四、ELK

    ELK日志系统:数据分布式存储、日志解析、可视化查询
           elasticsearch:分布式存储、全文检索
           logstash:日志收集系统
           kibana:数据可视化

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值