Elasticsearch高级（Shards、高可用集群搭建）

最新推荐文章于 2024-07-15 14:01:48 发布

王小白_Ada

最新推荐文章于 2024-07-15 14:01:48 发布

阅读量1.6k

点赞数

分类专栏： ElasticSearch 6.x 文章标签： es elasticsearch集群 Shards 分片

本文链接：https://blog.csdn.net/qq_38252039/article/details/102422254

版权

ElasticSearch 6.x 专栏收录该内容

3 篇文章 3 订阅

订阅专栏

一、ES核心概念

1. ES基本概念名词：

Cluster

代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。

Shards

代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。

replicas

代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。

Recovery

代表数据恢复或叫数据重新分布，es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配，挂掉的节点重新启动时也会进行数据恢复。

2. ES集群核心原理分析:

es数据存储方式：

每个索引会被分成多个分片shards进行存储，默认创建索引是分配5个分片进行存储。
每个分片都会分布式部署在多个不同的节点上进行部署，该分片成为primary shards。
注意：索引的主分片primary shards定义好后，后面不能做修改。
为了实现高可用数据的高可用，主分片可以有对应的备分片replics shards，replic shards分片承载了负责容错、以及请求的负载均衡。
注意: 每一个主分片为了实现高可用，都会有自己对应的备分片，主分片对应的备分片不能存放同一台服务器上。主分片primary shards可以和其他replics shards存放在同一个node节点上。

注：ES集群中，主节点做增删，主节点和其他节点都可以做查询，当master节点宕机后，自动选举leader。

3. ES为什么要做集群？

在单台ES服务器节点上，随着业务量的发展索引文件慢慢增多，会影响到效率和内存存储问题等。
我们可以采用ES集群，将单个索引的分片到多个不同分布式物理机器上存储，从而可以实现高可用、容错性等。
ES集群中索引可能由多个分片构成，并且每个分片可以拥有多个副本。通过将一个单独的索引分为多个分片，我们可以处理不能在一个单一的服务器上面运行的大型索引，简单的说就是索引的大小过大，导致效率问题。不能运行的原因可能是内存也可能是存储。由于每个分片可以有多个副本，通过将副本分配到多个服务器，可以提高查询的负载能力。

4. 简单介绍ES分片技术Shards

ES为了高可用，主分片默认5个，每个主分片默认有1个对应的副分片。
注：主分片定义好就不能修改了。

为什么ES主分片对应的备分片不在同一台节点存放？
因为主分片和备分片存在在同一节点，若该节点宕机后，备分片数据也没有没，这时从其他节点访问的数据就不完整。

注：单台服务器是没有备分片的，因为没有意义。

索引的主分片定义好后为什么不能做修改？

其实这跟 documnet routing（数据路由）有关，当客户端发起创建document的时候，es需要确定这个document放在该index哪个shard上。这个过程就是数据路由。
路由算法：shard = hash(routing) % number_of_primary_shards
如果number_of_primary_shards在查询的时候取余发生的变化，无法获取到该数据

ES水平拓展节点增加副分片
算法：副分片 = node² 即：副分片数量等于ES节点的平方
每个ES节点中都存在一个完整数据（如两个ES节点，一个完整数据的组合可能是 P1+P2 、P1+P2、R1+R2）

主节点宕机后，通过选举产生新的Leader，当宕机的服务恢复后会重新进行分片计算。

查看索引分片数量（_settings接口）：
查询myindex索引的分片信息： http://192.168.2.100/myindex/_settings
在这里插入图片描述

二、ES高可用集群环境搭建

ES集群很简单，只需要保证每个节点cluster.name一致和其他简单配置即可实现集群。

1. 服务器环境

虚拟三台服务器做集群,下面是我虚拟的3台服务器：

服务器名称	IP地址
node-0	192.168.2.100
node-1	192.168.2.101
node-2	192.168.2.102

2. 服务集群配置
进入Elasticsearch的config目录执行 vim elasticsearch.yml，配置如下：

cluster.name: myes    # 保证三台服务器节点集群名称相同
node.name: node-0  # 每个节点名称不一样 其他两台为node-1 ,node-2
network.host: 192.168.2.180  # 实际服务器ip地址
# 多个服务集群ip
discovery.zen.ping.unicast.hosts: ["192.168.2.100", "192.168.2.101","192.168.2.102"]
discovery.zen.minimum_master_nodes: 1

关闭防火墙 systemctl stop firewalld.service
默认底层开启9300 集群

3. 验证集群效果
浏览器访问/_cat/nodes接口：http://192.168.2.101:9200/_cat/nodes
在这里插入图片描述
有*号的表示为master节点

集群环境启动报错：

报错：failed to send join request to master 或 with the same id but is a different node instance
原因：是因为克隆虚拟机时，elsticsearch时，将elsticsearch文件夹下的data文件夹一并克隆了，
data文件会导致数据不同步。而在前面测试时，data文件夹下已经产生了data数据，于是报上面的错误。
解决方法：直接删除每台ES服务器的data目录下的文件

4. 测试各节点数据同步
192.168.2.101节点添加id为20的数据：
在这里插入图片描述
192.168.2.102进行访问刚刚添加的id为20的数据，我们发现能够正确访问到数据: