【elasticsearch】面试题

最新推荐文章于 2024-05-29 12:47:27 发布

m0_71545814

最新推荐文章于 2024-05-29 12:47:27 发布

阅读量1.5k

点赞数 2

分类专栏： es 文章标签： elasticsearch 搜索引擎大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_71545814/article/details/126197279

版权

es 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、为什么要使用 Elasticsearch? （或回答什么是ES？）

在我们常用的业务场景中我们往往采用模糊查询进行数据的搜索，而模糊查询如果用全表扫描，在百万数据量的情况下，查询效率是非常低下。而使用Elasticsearch ，做一个全文索引，可以提高查询速度。
ES是一个基于Lucene库的搜索引擎，它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。使用一种称为倒排索引的结构，倒排索引会在存储数据时将关键词和数据进行关联，保存到倒排表中，然后查询时，将查询内容进行分词后在倒排表中进行查询，最后匹配数据，可以提高查询速度。

ES还有以下方面优势：
1. 横向可扩展性：只需要增加一台服务器，做一点儿配置，启动一下ES进程就可以并入集群；
2. 分片机制提供更好的分布性：同一个索引分成多个分片（sharding），分而治之的方式来提升处理效率；
3. 高可用：提供复制（replica）机制，一个分片可以设置多个复制，使得某台服务器宕机的情况下，集群仍旧可以照常运行，并会把由于服务器宕机丢失的复制恢复到其它可用节点上；

2、elasticsearch 的倒排索引是什么？

倒排索引是通过分词策略，形成词和文章的关系映射表，这种词典+映射表的方式就是倒排索引，有点类似于我们以前使用的新华字典。倒排索引可极大的提高查询效率。

在这里插入图片描述

学术的解答方式：

倒排索引，相反于一篇文章包含了哪些词，它从词出发，记载了这个词在哪些文档中出现过，由两部分组成——词典和倒排表。

加分项：倒排索引的底层实现是基于：FST（Finite State Transducer）数据结构。

lucene 从 4+版本后开始大量使用的数据结构是 FST。FST 有两个优点：

（1）空间占用小。通过对词典中单词前缀和后缀的重复利用，压缩了存储空间；

（2）查询速度快。O(len(str))的查询时间复杂度。

3、倒排索引的搜索过程是什么样的？

搜索的时候先去查询词典，看看所要查询的单词在不在词典当中，如果不在的话搜索结束，如果在的话，还要看看单词在倒排列表中的指针是什么，通过倒排列表去获取它这个单词对应文档ID的列表，然后拿着文档ID去对应我们的数据

倒排索引，是先找到用户要搜索的词条，根据词条得到保护词条的文档的id，然后根据id获取文档。是根据词条找文档的过程

4、详细描述一下 Elasticsearch 搜索的过程

面试官：想了解 ES 搜索的底层原理，不再只关注业务层面了。

解答：

搜索拆解为“query then fetch” 两个阶段。

query 阶段的目的：定位到位置，但不取。

步骤拆解如下：

（1）假设一个索引数据有 5 主+1 副本共 10 分片，一次请求会命中（主或者副本分片中）的一个。

（2）每个分片在本地进行查询，结果返回到本地有序的优先队列中。

（3）第 2）步骤的结果发送到协调节点，协调节点产生一个全局的排序列表。

fetch 阶段的目的：取数据。

路由节点获取所有文档，返回给客户端。

5.详细描述一下 Elasticsearch 索引文档的数据写入过程

单文档写入

在这里插入图片描述

第一步：客户写集群某节点写入数据，发送请求。（如果没有指定路由/协调节点，请求的节点扮演路由节点的角色。）

第二步：节点 1 接受到请求后，使用文档_id 来确定文档属于分片 0。请求会被转到另外的节点，假定节点 3。因此分片 0 的主分片分配到节点 3 上。

第三步：节点 3 在主分片上执行写操作，如果成功，则将请求并行转发到节点 1和节点 2 的副本分片上，等待结果返回。所有的副本分片都报告成功，节点 3 将向协调节点（节点 1）报告成功，节点 1 向请求客户端报告写入成功。

如果面试官再问：第二步中的文档获取分片的过程？

回答：借助路由算法获取，路由算法就是根据路由和文档 id 计算目标的分片 id 的过程。

1shard = hash(_routing) % (num_of_primary_shards)

【2022版】ElasticSearch面试题整理（含答案解析）_码农翻身把歌唱的博客-CSDN博客_elasticsearch面试题

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【elasticsearch】面试题

22222222222222222222
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。