大数据最全ElasticSearch面试题整理(持续更新)_elsearch面试题(1),2024年最新整理了3家面试问题:美团+字节+腾讯

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

3. ElasticSearch的搜索流程

  1. 客户端向集群发送请求,集群随机选择一个 NodeX 处理这次请求。
  2. Nodex 先计算文档在哪个主分片上,比如是主分片 A,它有三个副本 A1,A2,A3。那么请求
    会轮询三个副本中的一个完成请求。
  3. 如果无法确认分片,比如检索的不是一个文档,就遍历所有分片。客户端发送请求到coordinate node,协调节点将搜索请求广播到所有的primary shard或replica,每个分片在本地执行搜索并构建一个匹配文档的大小为from + size的优先队列。接着每个分片返回各自优先队列中所有docld和打分值给协调节点,由协调节点进行数据的合并、排序、分页等操作,产出最终结果。协调节点根据Query阶段产生的结果,去各个节点上查询docld实际的document内容,最后由协调节点返回结果给客户端。

4. ElasticSearch如何实现master选举

Master节点负责管理集群状态信息,包括处理创建、删除索引等请求,决定分片被分配到哪个节点,维护和更新集群状态。值得注意的是,只有Master节点才能修改集群的状态信息,并负责同步给其他节点。

5. Elasticsearch更新和删除文档的过程

6. Elasticsearch创建索引文档的过程

7. 了解文本相似度 TF-IDF吗

TF = Term Frequency 词频,一个词在这个文档中出现的频率。值越大,说明这文档越匹配,
正向指标。
IDF = Inverse Document Frequency 反向文档频率,简单点说就是一个词在所有文档中都出
现,那么这个词不重要。

TF-IDF = TF / IDF

8. 了解ElasticSearch 深翻页的问题及解决吗?

深翻页:比如我们检索一次,轮询所有分片,汇集结果,根据 TF-IDF 等算法打分,排序后将前 10
条数据返回。用户感觉不错,说我看看下一页。ES 依然是轮询所有分片,汇集结果,根据 TF-IDF
等算法打分,排序后将前 11-20 条数据返回。
对用户来说,翻页应该很快啊,但是实际上,第一次检索多复杂,下一次检索就多复杂。
解决的话,可以把用户的检索结果,存入 Redis 中 10 分钟。这样分页就很快,超过 10 分钟,用户
不翻页,也就不会翻页了,数据就可以清除了。

9. 熟悉ElasticSearch 性能优化

  1. 批量提交
    背景是大量的写操作,每次提交都是一次网络开销。网络永久是优化要考虑的重点。
  2. 优化硬盘
    索引文件需要落地硬盘,段的思想又带来了更多的小文件,磁盘 IO 是 ES 的性能瓶颈。一个固态硬
    盘比普通硬盘好太多。
  3. 减少副本数量
    副本可以保证集群的可用性,但是严重影响了 写索引的效率。写索引时不只完成写入索引,还要完成索引到副本的同步。ES 不是存储引擎,不要考虑数据丢失,性能更重要。 如果是批量导入,建议就关闭副本。

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 9
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Elasticsearch面试题涉及到的主题非常广泛,包括索引、倒排索引、数据调优、部署架构、master选举、文档索引和搜索过程、集群连接、更新和删除文档过程、大数据量聚合、读写一致性、个性化搜索方案等等。对于这样一个广泛的问题范围,我将从几个主要方面给出一些简要的回答。 1. Elasticsearch的倒排索引是什么?倒排索引是一种数据结构,用于快速定位和检索文档中的词项。它将每个词项与包含该词项的文档进行关联,以便在搜索过程中能够快速找到相关文档。 2. Elasticsearch的数据调优和部署。数据调优包括分片和副本的设置、硬件资源的优化和性能调优等。部署时需要考虑Linux的设置优化方法,例如调整文件描述符限制、内核参数调整和网络设置等。 3. Elasticsearch是如何实现master选举的?Elasticsearch使用zookeeper或者内置的选举机制来实现master选举。每个节点都有一个优先级,具有更高优先级的节点将被选为master节点。 4. Elasticsearch的文档索引过程。文档索引过程包括分析文档、创建倒排索引、存储文档和更新内部数据结构等步骤。 5. Elasticsearch的搜索过程。搜索过程首先是根据查询条件进行分词和分析,然后根据倒排索引进行匹配和评分,最后返回匹配的文档结果。 6. Elasticsearch集群连接时,如何选择特定的节点执行请求?可以使用负载均衡器或者通过配置客户端连接参数来选择特定节点执行请求。 7. Elasticsearch更新和删除文档过程。更新文档时,Elasticsearch首先标记原始文档为删除状态,并在索引中添加新的更新文档。删除文档时,Elasticsearch会将文档从索引中标记为删除状态。 请注意,这只是对部分面试题的简要回答。对于每个问题,都有更详细和深入的讨论和解释。如果您对某个特定的问题有更具体的需求,请提供更具体的问题描述。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ElasticSearch面试题 30道1](https://download.csdn.net/download/weixin_35785909/86307252)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【ElasticSearch面试】10道不得不会的ElasticSearch面试题](https://blog.csdn.net/qq_40374604/article/details/123761794)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值