Elasticsearch面试总结

tomato.l

已于 2022-12-04 01:10:43 修改

阅读量532

点赞数

分类专栏：学习总结文章标签：面试 elasticsearch java

于 2022-11-28 18:51:09 首次发布

本文链接：https://blog.csdn.net/qq_44738445/article/details/128083913

版权

学习总结专栏收录该内容

3 篇文章 0 订阅

订阅专栏

面试题

1.为什么要使用elasticsearch？

系统中的数据，随着业务的发展，时间的推移，将会非常多，而业务中往往采用模糊查询进行数据的搜索，而模糊查询会导致查询引擎放弃索引，导致系统查询数据时都是全表扫描，在百万级别的数据库中，查询效率是非常低的，而我们使用ES做一个全文索引，将经常查询的系统功能某些字段，比如：电商系统的商品名，价格，id这些字段放入索引库中，提高查询速度。

2.es的master选举流程？

1 ES的选举主要是zenDiscovery模块负责的，主要包含Ping(节点之间通过这个RPC来发现彼此)和Unicast(单播模块包含一个主机列表以控制哪些节点需要ping通)这两部分。
2 对所有可以成为 master的节点根据nodeId字典排序，每次选举每个节点都把自己所知道节点排一次序，然后选出第一个节点，暂且认为它是master节点。
3 如果对某个节点的投票数达到一定值（可以成为master节点数n/2+1），并且该节点也选举自己，那这个节点就是master。否则重新选举一直到满足上述条件。
4 master节点的职责主要包括集群，节点和索引的管理，不负责文档级别的管理；data节点可以关闭http功能。

3 es集群脑裂问题？

“脑裂”问题可能的成因：
网络问题：集群间的网络延迟导致一些节点访问不到master, 认为master挂掉了从而选举出新的master，并对master上的分片和副本标红，分配新的主分片。

节点负载：主节点的角色即为master又为data, 访问量较大时可能会导致ES停止响应造成大面积延迟，此时其他节点得不到主节点的响应认为主节点挂掉了，会重新选取主节点。

内存回收： data节点上的ES进程占用的内存较大，引发JVM的大规模内存回收，造成ES进程失去响应。

脑裂问题解决方案：
减少误判：discovery.zen.ping_timeout节点状态的响应时间，默认为3s, 可以适当调大，如果master在该响应时间的范围内没有做出响应应答，判断该节点已经挂掉了。调大参数（如6s discovery.zen.ping_timeout: 6），可适当减少误判。

选举触发：discovery.zen.minimum_master_nodes:1
该参数是用于控制选举行为发生的最小集群主节点数量。当备选主节点的个数大于等于该参数的值，且备选主节点中有该参数个节点认为主节点挂了，进行选举。官方建议为（n/2）+1 , n为主节点个数（即有资格成为主节点的节点个数）

角色分离：即master节点与data节点分离，限制角色
主节点配置为：node.master:true node.data: false
从节点配置：node.master: false node.data: true

4 es索引文档的流程？

协调节点默认使用文档ID参与计算（也支持通过routing），以便路由提供合适的分片。（shard = hash(document_id)%(num_of_primary_shards)）
1 . 当分片所在的节点接收到来自协调节点的请求后，会将请求写入到memory, 然后定时（每隔1s）写入到cache中。这个过程叫refresh。
2 . 在某些情况下，存在memory和cache的数据可能会丢失，ES是通过translog的机制来保证数据的可靠性的。其实现机制就是接收到请求后，同时也会写入到translog中，当cache中的数据写入到磁盘中时，才会清除掉，这个过程叫做flush。
3 . 在flush过程中，内存中的缓冲将清除，内容被写入一个新段，段的fsync将创建一个新的提交节点，并将内容刷新到磁盘，旧的translog将被删除并开始一个新的translog。
4 . flush触发的时机是定时触发（默认30分钟）或者translog变得太大（默认为512M）。

Lucene的segement:
1 . luncene索引是由多个段组成的，段本身是一个功能齐全的倒排索引。
2. 段是不可变的，允许Lucene将新的文档增量的添加到索引中。
3. 对于每一个索引请求而言，索引中的所有段都会被搜索，并且每个段都会消耗cpu 的时钟周，文件句柄和内存。（这就意味着段越多，性能越差）
4. 为了解决这个问题， es会合并小段到一个较大的段，提交新的合并段到磁盘。并删除那些小段。

5 ES更新和删除文档的流程？

更新和删除都是写操作，但是ES中的文档是不可变的，因此不能被删除或者改动以展示其变更。

磁盘上的每个段都有一个相应的.del文件。当删除请求发送后，文档并没有真的被删除，而是在.del文件中被标记为删除。该文件依然能匹配查询，但是会在结果中被过滤掉。当段合并时，在.del文件中被标记删除的文档将不会写入新段。

在新的文档被创建时，ES会为该文档指定一个版本号，当执行更新时，旧版本的文档在.del文件中被标记为删除，新版本的文档索引到一个新段。旧版本的文档依然能匹配查询，但是会在结果中被过滤掉。

6 ElasticSearch搜索的流程？

搜索被执行成一个两阶段过程，我们称之为 Query Then Fetch；

在初始查询阶段时，查询会广播到索引中每一个分片拷贝（主分片或者副本分片）。每个分片在本地执行搜索并构建一个匹配文档的大小为form+ size的优先队列。 ps: 在搜索的时候是会查询cached , 但是有部分数据还在memory, 所以搜索是近实时的。
每个分片返回各自优先队列中所有文档的ID和排序值给协调节点，它合并这些值到自己的优先队列中来产生一个全局排序后的结果列表。
接下来就是取回阶段，协调节点辨别出哪些文档需要被取回并向相关的分片提交多个GET请求。每个分片加载并丰富文档，如果有需要的话，接着返回文档给协调节点。一旦所有的文档都被取回了，协调节点返回结果给客户端。
Query Then Fetch 的搜索类型在文档相关性打分的时候是本分片的数据，这样在文档数量较少的时候可能不够准确， DFS Query Then Fetch 增加了一个预查询的处理，询问Term 和Document , 这个评分更准确，但是性能会变差。

7 在并发情况下， Elasticsearch如果保证读写一致？

可以通过版本号使用乐观锁并发控制，以确保新版本不会被旧版本覆盖，由应用层来处理具体的冲突；

另外对于写操作，一致性级别支持quorum/one/all, 默认为quorum, 即只有当大多数分片可用时才允许写操作。但即使大多数可用，也可能存在因为网络等原因导致写入副本失败，这样该副本被认为故障，分片将会在一个不同的节点上重建。

对于读操作，可设置replication 为sync，**这使得操作在主分片和副本分片都完成后才返回；**如果这种设置replication为async时，也可以通过搜索请求参数_preference为primary来查询主分片，确保文档是最新版本。

8 是否了解字典树？

常用字典数据结构

这里是引用
字典树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是；利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。
Tire的核心思想是空间换时间，利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
它有三个基本性质：

根节点不包含字符，除根节点外每一个节点都只包含一个字符。
从根节点到某一节点，路径上经过的字符连接起来，为该节点对应的字符串。
每个节点的所有子节点包含的字符都不相同。
对于中文的字典树，每个节点的子节点用一个哈希表存储，这样就不用浪费太大的空间，而且查询速度上可以保留

9 elasticsearch中的集群、节点、索引、文档、类型是什么？

集群：是一个或者多个节点（服务器）的集合，它们共同保存您的整个数据，并提供跨所有节点的联合索引和搜索功能。集群由一名称标识，默认情况下为“elasticsearch”。此名称很重要，因为如果节点设置为按名称加入集群，则该节点只能是集群的一部分。

节点：是属于集群一部分的单个服务器。它存储数据并参与集群索引和搜索功能。

索引：就像关系数据库中的“数据库”。它有一个定义多种类型的映射。索引是逻辑名称空间，映射到一个或多个主分片，并且可以有零个或多个副本分片。MySQL=>数据库 Elasticsearch=>索引。

文档：类似于关系数据库中的一行。不同之处在于索引中的每个文档可以具有不同的结构（字段），但是对于通用字段应该具有相同的数据类型。
MySQL => Databases => Tables =>Columns/Rows
Elasticsearch =>Indices => Types => 具有属性的文档

类型：是索引的逻辑类别/分区，其语义完全取决于用户。

10 Elasticsearch中的倒排索引是什么？

倒排索引是引擎的核心。
搜索引擎的主要目标是在查找发生搜索条件的文档时提供快速搜索。ES中的倒排索引其实就是lucene的倒排索引，区别于传统的正向索引，倒排索引会再存储数据时将关键词和数据进行关联，保存到倒排表中，然后在查询时，将查询内容进行分词后在倒排表中进行查询，最后匹配数据即可。

tomato.l

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch面试总结

系统中的数据，随着业务的发展，时间的推移，将会非常多，而业务中往往采用模糊查询进行数据的搜索，而模糊查询会导致查询引擎放弃索引，导致系统查询数据时都是全表扫描，在百万级别的数据库中，查询效率是非常低的，而我们使用ES做一个全文索引，将经常查询的系统功能某些字段，比如：电商系统的商品名，价格，id这些字段放入索引库中，提高查询速度。
复制链接

扫一扫