【es面试题】第一篇

1.为什么不用关系型数据库做搜索

(1)要对表的每一行进行内容比对,效率很差。再加上实际开发中肯定不是单表查询,查询字段来源多个表,这种情况下效率就更差了。

(2)不能将搜索词拆开。比如搜索“农夫泉”,就搜索不出”农夫山泉“

类比一下 mysql 和 elasticsearch

mysqlelasticsearch
数据库 database索引 index
表 table类型 type(注意:7.X版本 去掉了type)
数据行 row文档 document
数据列 column字段 field

2.什么是全文检索

先建立倒排索引,再对索引进行搜索的过程叫做全文检索。

举例:有以下数据

id
1小米手机
2魅族手机
3苹果手机

将以上数据拆成关键字就是“小米”“魅族”“苹果”“手机”四个关键字。然后组织倒排索引的数据结构。

倒排索引:将数据集合拆分成关键词,关键字做key,数据id集合做value,形成映射关系。

关键词ids
小米1
魅族2
苹果3
手机1、2、3

这样搜索的时候,根据搜索条件直接搜索倒排索引。可能第一次扫描就拿到了你要的结果,效率非常高。

3.lucene?

可以看作是一个 jar 包,里面封装好了各种建立倒排索引,包含各种算法的搜索代码。我们进行 java 开发的时候,引入 lucene 依赖,基于它的 api 进行开发就行了。用了 lucene,我们就可以基于已有的数据建立倒排索引。

4.什么是elasticsearch

elasticsearch 是基于 lucene 开发的,采用 restful api标准的全文搜索工具。封装了多节点治理、数据备份,性能优化,以及提供了一些更加高级的功能。

接下来说一下 elasticsearch 的相关概念:

1.Node(节点)

安装了 Elasticsearch 服务的运行实例。在测试环境中可以在一台服务器上运行多个 es 实例,在生产环境中建议每台服务器单独运行一个 es 实例。

2.Cluster(集群)

一个集群就是由一个或多个 node 组织在一起,共同工作和分享整个数据,具有负载均衡功能的集群。elasticsearch 会自动的把集群名相同的节点组成一个集群,节点之间的通讯以及节点之间的数据分配和均衡,elasticsearch 都会自动进行管理。

3.Index(索引)

索引就是一个拥有几分相似特征的文档的集合。

4.Document(文档)

文档是一个可被索引的基础数据单元。

5.Type(类型)

一个索引中,你可以定义一种或多种类型。

6.Field(列)

Field是Elasticsearch的最小单位,相当于数据的某一列。

7.Shards(分片)

Elasticsearch会将一个索引分成若干个小的索引,每个小的索引就是一个 shard。

8.Replicas(副本)

每一个副本都是分片的的完整拷贝,es的每一个分片都可以有零个或者多个副本。提高查询速度的同时也提高了系统的容错性。

总结下来就是:elasticsearch 可以让我们快速地开发传说中的三高架构系统:高性能,高可用,搞扩展。并且开箱即用。

5.分析一下Elasticsearch写数据的底层原理

在这里插入图片描述

概念

了解它的写入原理之前我们先来了解一些概念

1.内存buffer

JVM内存缓冲区简单来说就是byte数组

2.os cache

简单来说就是操作系统直接分配的一个内存空间,又称为磁盘缓存、文件系统缓存、操作系统缓存。

3.segment file

存储倒排索引的文件,每个segment本质上就是一个倒排索引

4.translog日志文件

记录数据操作的日志文件

5.commit point

记录所有segment file的提交点,记录哪些 segment file 属于哪些分片

写入流程

1.数据写入内存 buffer 缓冲同时写入 translog 日志,这里解释一下为啥要同时写入 translog 日志,因为一旦 elasticsearch 宕机,在内存 buffer 中的数据就会丢失,有了 translog 日志就能找回 elasticsearch 宕机时丢失的数据。这里需要注意一下:在 buffer 里的数据是搜索不到的。

2.translog 其实有两种写入策略一种是上面说的在写入 buffer 的同时写入磁盘中的 translog,即同步刷盘,这种方式不会丢数据,但磁盘IO高,有性能损耗。

3.另一种是写入 buffer 的同时直接写入 os cache,然后 os cache 异步刷入磁盘,这种方式性能好,但如果服务出现异常,可能丢失一点数据(最多5秒的数据丢失)

4.每隔 1 秒钟,es 将 buffer 中的数据写入一个新的 segment file(可以理解为存放数据的容器),
这个 segment file 中就存储最近 1 秒内 buffer 中写入的数据。并立刻进入 os cache,此时 buffer 的数据也会被清空

5.随着以上步骤不断发生,新的数据不断进入 buffer 和 translog,不断将 buffer 数据写入一个又一个新的segment file中去,每次 refresh 完 buffer 清空, translog 保留。

随着这个过程推进,translog 会变得越来越大,当 translog 达到一定大小的时候,就会触发 commit 操作。

commit 操作发生的第一步,就是将 buffer 中现有数据 refresh 到 os cache 中去,清空 buffer。

然后将一个 commit point 写入磁盘文件,里面标识着这个 commit point 对应的所有 segment file。

接着将 os cache 数据 fsync 强刷到磁盘上去,
最后将现有的 translog 清空,然后再次重新启用这个 translog,此时 commit 操作完成。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Elasticsearch面试题涉及到的主题非常广泛,包括索引、倒排索引、数据调优、部署架构、master选举、文档索引和搜索过程、集群连接、更新和删除文档过程、大数据量聚合、读写一致性、个性化搜索方案等等。对于这样一个广泛的问题范围,我将从几个主要方面给出一些简要的回答。 1. Elasticsearch的倒排索引是什么?倒排索引是一种数据结构,用于快速定位和检索文档中的词项。它将每个词项与包含该词项的文档进行关联,以便在搜索过程中能够快速找到相关文档。 2. Elasticsearch的数据调优和部署。数据调优包括分片和副本的设置、硬件资源的优化和性能调优等。部署时需要考虑Linux的设置优化方法,例如调整文件描述符限制、内核参数调整和网络设置等。 3. Elasticsearch是如何实现master选举的?Elasticsearch使用zookeeper或者内置的选举机制来实现master选举。每个节点都有一个优先级,具有更高优先级的节点将被选为master节点。 4. Elasticsearch的文档索引过程。文档索引过程包括分析文档、创建倒排索引、存储文档和更新内部数据结构等步骤。 5. Elasticsearch的搜索过程。搜索过程首先是根据查询条件进行分词和分析,然后根据倒排索引进行匹配和评分,最后返回匹配的文档结果。 6. Elasticsearch集群连接时,如何选择特定的节点执行请求?可以使用负载均衡器或者通过配置客户端连接参数来选择特定节点执行请求。 7. Elasticsearch的更新和删除文档过程。更新文档时,Elasticsearch首先标记原始文档为删除状态,并在索引中添加新的更新文档。删除文档时,Elasticsearch会将文档从索引中标记为删除状态。 请注意,这只是对部分面试题的简要回答。对于每个问题,都有更详细和深入的讨论和解释。如果您对某个特定的问题有更具体的需求,请提供更具体的问题描述。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ElasticSearch面试题 30道1](https://download.csdn.net/download/weixin_35785909/86307252)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [【ElasticSearch面试】10道不得不会的ElasticSearch面试题](https://blog.csdn.net/qq_40374604/article/details/123761794)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会飞的架狗师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值