ElasticSearch 进阶知识点（面试重点）

寅贝勒

已于 2022-06-23 12:08:49 修改

阅读量4.1k

点赞数 1

分类专栏： Java核心知识 elasticsearch 文章标签： elasticsearch 面试 big data

于 2022-06-03 22:56:57 首次发布

本文链接：https://blog.csdn.net/qq_40107474/article/details/115838944

版权

Java核心知识同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

elasticsearch

2 篇文章 0 订阅

订阅专栏

本文介绍了Elasticsearch的核心概念，包括索引、类型、文档、字段、映射、分片、副本和分配，详细阐述了分片和副本在分布式集群中的作用，以及如何通过水平扩容和故障转移来提高可用性和性能。同时，讨论了Elasticsearch的集群架构，展示了从单节点到多节点的演进，强调了在应对故障和性能扩展方面的策略。

摘要由CSDN通过智能技术生成

Hey，我是寅贝勒，后端开发一枚😜,欢迎来我的个人网站 www.ly-zone.cloud 一起学习交流~

一、核心概念

1.1.1 索引（Index）

一个索引就是一个拥有几分相似特征的文档的集合。

Elasticsearch 索引的精髓：一切设计都是为了提高搜索的性能。

1.1.2 类型（Type）

一个类型是你的索引的一个逻辑上的分类/分区
在这里插入图片描述

1.1.3 文档（Document）

一个文档是一个可被索引的基础信息单元，也就是一条数据，在一个 index/type 里面，可以存储任意多的文档.文档以 JSON（Javascript Object Notation）格式来表示，JSON 是一个到处存在的互联网数据交互格式。

1.1.4 字段（Field）

相当于是数据表的字段，对文档数据根据不同属性进行的分类标识。

1.1.5 映射（Mapping）

mapping 是处理数据的方式和规则方面做一些限制，如：某个字段的数据类型、默认值、分析器、是否被索引等等。这些都是映射里面可以设置的，其它就是处理 ES 里面数据的一些使用规则设置也叫做映射，按着最优规则处理数据对性能提高很大，因此才需要建立映射，并且需要思考如何建立映射才能对性能更好。

在这里插入图片描述

1.1.6 分片（Shards）

一个索引可以存储超出单个节点硬件限制的大量数据。比如，一个具有 10 亿文档数据的索引占据 1TB 的磁盘空间，而任一节点都可能没有这样大的磁盘空间。或者单个节点处理搜索请求，响应太慢。为了解决这个问题， Elasticsearch 提供了将索引划分成多份的能力，每一份就称之为分片。当你创建一个索引的时候，你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集群中的任何节点上。

分片很重要，主要有两方面的原因：

允许你水平分割 / 扩展你的内容容量。
允许你在分片之上进行分布式的、并行的操作，进而提高性能/吞吐量。

至于一个分片怎样分布，它的文档怎样聚合和搜索请求，是完全由 Elasticsearch 管理的，对于作为用户的你来说，这些都是透明的，无需过分关心。

被混淆的概念是，一个 Lucene 索引我们在 Elasticsearch 称作分片。一个Elasticsearch 索引是分片的集合。当 Elasticsearch 在索引中搜索的时候，他发送查询到每一个属于索引的分片(Lucene 索引)，然后合并每个分片的结果到一个全局的结果集。

1.1.7 副本（Replicas）

在一个网络 / 云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的， Elasticsearch 允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片(副本)。

复制分片之所以重要，有两个主要原因：

在分片/节点失败的情况下，副本提供了高可用性。因为这个原因，注意到复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。
扩展你的搜索量/吞吐量，因为搜索可以在所有的副本上并行运行。

1.1.8 分配（Allocation）

将分片分配给某个节点的过程，包括分配主分片或者副本。如果是副本，还包含从主分片复制数据的过程。这个过程是由 master 节点完成的。

二、系统架构

在这里插入图片描述

2.1 集群架构

在这里插入图片描述

一个运行中的 Elasticsearch 实例称为一个节点，而集群是由一个或者多个拥有相同cluster.name 配置的节点组成，它们共同承担数据和负载的压力。当有节点加入集群中或者从集群中移除节点时，集群将会重新平均分布所有的数据。
当一个节点被选举成为主节点时，它将负责管理集群范围内的所有变更，例如增加、删除索引，或者增加、删除节点等。而主节点并不需要涉及到文档级别的变更和搜索等操作，所以当集群只拥有一个主节点的情况下，即使流量的增加它也不会成为瓶颈。任何节点都可以成为主节点。

三、分布式集群

3.1.1 单节点集群

在包含一个空节点的集群内创建名为 users 的索引，分配 3个主分片和一份副本（每个主分片拥有一个副本分片）
在这里插入图片描述
集群现在是拥有一个索引的单节点集群。所有 3 个主分片都被分配在 node-1

在这里插入图片描述

当前我们的集群是正常运行的，但是在硬件故障时有丢失数据的风险。

3.1.2 故障转移

当集群中只有一个节点在运行时，意味着会有一个单点故障问题——没有冗余。幸运的是，我们只需再启动一个节点即可防止数据丢失。当你在同一台机器上启动了第二个节点时，只要它和第一个节点有同样的 cluster.name 配置，它就会自动发现集群并加入到其中。但是在不同机器上启动节点的时候，为了加入到同一集群，你需要配置一个可连接到的单播主机列表。之所以配置为使用单播发现，以防止节点无意中加入集群。只有在同一台机器上运行的节点才会自动组成集群。

如果启动了第二个节点，我们的集群将会拥有两个节点的集群 : 所有主分片和副本分片都已被分配
在这里插入图片描述

在这里插入图片描述

3.1.3 水平扩容（*）

怎样为我们的正在增长中的应用程序按需扩容呢？当启动了第三个节点，我们的集群将会拥有三个节点的集群 : 为了分散负载而对分片进行重新分配

在这里插入图片描述

但是如果我们想要扩容超过 6 个节点怎么办呢？ 这里的扩容不是真正的扩容，只是增加了吞吐量

主分片的数目在索引创建时就已经确定了下来。实际上，这个数目定义了这个索引能够存储的最大数据量。（实际大小取决于你的数据、硬件和使用场景。）但是，读操作——搜索和返回数据——可以同时被主分片或副本分片所处理，所以当你拥有越多的副本分片时，也将拥有越高的吞吐量。

在运行中的集群上是可以动态调整副本分片数目的，我们可以按需伸缩集群。让我们把副本数从默认的 1 增加到 2

在这里插入图片描述

users 索引现在拥有 9 个分片： 3 个主分片和 6 个副本分片。这意味着我们可以将集群扩容到 9 个节点，每个节点上一个分片。相比原来 3 个节点时，集群搜索性能可以提升 3 倍。
在这里插入图片描述

当然，如果只是在相同节点数目的集群上增加更多的副本分片并不能提高性能，因为每个分片从节点上获得的资源会变少。你需要增加更多的硬件资源来提升吞吐量。但是更多的副本分片数提高了数据冗余量：按照上面的节点配置，我们可以在失去2个节点的情况下不丢失任何数据。

3.1.4 应对故障

关闭第一个节点，这时集群的状态为:关闭了一个节点后的集群。
在这里插入图片描述
我们关闭的节点是一个主节点。而集群必须拥有一个主节点来保证正常工作，所以发生的第一件事情就是选举一个新的主节点： Node 2 。在我们关闭 Node 1 的同时也失去了主分片 1 和 2 ，并且在缺失主分片的时候索引也不能正常工作。如果此时来检查集群的状况，我们看到的状态将会为 red ：不是所有主分片都在正常工作。幸运的是，在其它节点上存在着这两个主分片的完整副本，所以新的主节点立即将这些分片在 Node 2 和 Node 3 上对应的副本分片提升为主分片，此时集群的状态将会为yellow。这个提升主分片的过程是瞬间发生的，如同按下一个开关一般。

在这里插入图片描述
如果我们重新启动 Node 1 ，集群可以将缺失的副本分片再次进行分配，那么集群的状态也将恢复成之前的状态。如果 Node 1 依然拥有着之前的分片，它将尝试去重用它们，同时仅从主分片复制发生了修改的数据文件。和之前的集群相比，只是 Master 节点切换了。
在这里插入图片描述