ElasticSearch面试题 30道

最新推荐文章于 2023-06-26 11:23:44 发布

DENGXIANG1996

最新推荐文章于 2023-06-26 11:23:44 发布

阅读量653

点赞数

文章标签： elasticsearch java 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DENGXIANG1996/article/details/130485768

版权

上篇

1 、 elasticsearch 了解多少，说说你们公司 es 的集群架

构，索引数据大小，分片有多少，以及一些调优手段。

面试官：想了解应聘者之前公司接触的 ES 使用场景、规模，有没有做过比较大规模的索引设计、规

划、调优。

解答：如实结合自己的实践场景回答即可。

比如： ES 集群架构 13 个节点，索引根据通道不同共 20+ 索引，根据日期，每日递增 20+ ，索引： 10

分片，每日递增 1 亿 + 数据，每个通道每天索引大小控制： 150GB 之内。

仅索引层面调优手段：

1.1 、设计阶段调优

（

1 ）根据业务增量需求，采取基于日期模板创建索引，通过 roll over API 滚动索引；

（

2 ）使用别名进行索引管理；

（

3 ）每天凌晨定时对索引做 force_merge 操作，以释放空间；

（

4 ）采取冷热分离机制，热数据存储到 SSD ，提高检索效率；冷数据定期进行 shrink 操作，以缩减存

储；

（

5 ）采取 curator 进行索引的生命周期管理；

（

6 ）仅针对需要分词的字段，合理的设置分词器；

（

7 ） Mapping 阶段充分结合各个字段的属性，是否需要检索、是否需要存储等。 ……..

1.2 、写入调优 （

1 ）写入前副本数设置为 0 ；

（

2 ）写入前关闭 refresh_interval 设置为 -1 ，禁用刷新机制；

（

3 ）写入过程中：采取 bulk 批量写入；

（

4 ）写入后恢复副本数和刷新间隔；

（

5 ）尽量使用自动生成的 id 。

1.3 、查询调优

（

1 ）禁用 wildcard ；

（

2 ）禁用批量 terms （成百上千的场景）；

（

3 ）充分利用倒排索引机制，能 keyword 类型尽量 keyword ；

（

4 ）数据量大时候，可以先基于时间敲定索引再检索；

（

5 ）设置合理的路由机制。

1.4 、其他调优

部署调优，业务调优等。

上面的提及一部分，面试者就基本对你之前的实践或者运维经验有所评估了。

2 、 elasticsearch 的倒排索引是什么

面试官：想了解你对基础概念的认知。

解答：通俗解释一下就可以。

传统的我们的检索是通过文章，逐个遍历找到对应关键词的位置。

而倒排索引，是通过分词策略，形成了词和文章的映射关系表，这种词典 + 映射表即为倒排索引。有了

倒排索引，就能实现 o （

1 ）时间复杂度的效率检索文章了，极大的提高了检索效率。

学术的解答方式：

倒排索引，相反于一篇文章包含了哪些词，它从词出发，记载了这个词在哪些文档中出现过，由两部分

组成 —— 词典和倒排表。

加分项：倒排索引的底层实现是基于： FST （ Finite State Transducer ）数据结构。 lucene 从 4+ 版本后开始大量使用的数据结构是 FST 。 FST 有两个优点：

（

1 ）空间占用小。通过对词典中单词前缀和后缀的重复利用，压缩了存储空间；

（

2 ）查询速度快。 O(len(str)) 的查询时间复杂度。

3 、 elasticsearch 索引数据多了怎么办，如何调优，部署

面试官：想了解大数据量的运维能力。

解答：索引数据的规划，应在前期做好规划，正所谓 “ 设计先行，编码在后 ” ，这样才能有效的避免突如

其来的数据激增导致集群处理能力不足引发的线上客户检索或者其他业务受到影响。

如何调优，正如问题 1 所说，这里细化一下：

3.1 动态索引层面

基于模板 + 时间 +rollover api 滚动创建索引，举例：设计阶段定义： blog 索引的模板格式为：

blog_index_ 时间戳的形式，每天递增数据。这样做的好处：不至于数据量激增导致单个索引数据量非

常大，接近于上线 2 的 32 次幂 -1 ，索引存储达到了 TB+ 甚至更大。

一旦单个索引很大，存储等各种风险也随之而来，所以要提前考虑 + 及早避免。

3.2 存储层面

冷热数据分离存储，热数据（比如最近 3 天或者一周的数据），其余为冷数据。

对于冷数据不会再写入新数据，可以考虑定期 force_merge 加 shrink 压缩操作，节省存储空间和检索

效率。

3.3 部署层面

一旦之前没有规划，这里就属于应急策略。

结合 ES 自身的支持动态扩展的特点，动态新增机器的方式可以缓解集群压力，注意：如果之前主节点

等规划合理，不需要重启集群也能完成动态新增的。

4 、 elasticsearch 是如何实现 master 选举的

面试官：想了解 ES 集群的底层原理，不再只关注业务层面了。

解答：

前置前提：

（

1 ）只有候选主节点（ master ： true ）的节点才能成为主节点。

（

2 ）最小主节点数（ min_master_nodes ）的目的是防止脑裂。

核对了一下代码，核心入口为 fifindMaster ，选择主节点成功返回对应 Master ，否则返回 null 。选举流

程大致描述如下：

第一步：确认候选主节点数达标， elasticsearch.yml 设置的值

discovery.zen.minimum_master_nodes ；

第二步：比较：先判定是否具备 master 资格，具备候选主节点资格的优先返回；

若两节点都为候选主节点，则 id 小的值会主节点。注意这里的 id 为 string 类型。

题外话：获取节点 id 的方法。

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch面试题 30道

倒排索引，相反于一篇文章包含了哪些词，它从词出发，记载了这个词在哪些文档中出现过，由两部分。的核心思想是空间换时间，利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。）对于中文的字典树，每个节点的子节点用一个哈希表存储，这样就不用浪费太大的空间，而且查。与各子节点进行比较，直到没有子节点，你就可以创建新的子节点并将新单词保存在那。自身的支持动态扩展的特点，动态新增机器的方式可以缓解集群压力，注意：如果之前主节点。是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。
复制链接

扫一扫

DENGXIANG1996 CSDN认证博客专家 CSDN认证企业博客

码龄4年

23: 原创

112万+: 周排名

84万+: 总排名

1万+: 访问

: 等级

240: 积分

5: 粉丝

0: 获赞

1: 评论

37: 收藏

私信

关注

热门文章

最新评论

BIO,NIO,AIO,Netty面试题 35道
CSDN-Ada助手: 恭喜你写出了这篇关于BIO,NIO,AIO,Netty的面试题的博客！你的文章对于正在准备面试的人来说一定非常有用。接下来，我建议你可以尝试写一些实践性的文章，例如如何使用Netty构建一个简单的聊天室，或者如何使用BIO实现一个Web服务器等等。期待你的下一篇文章！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。