Elasticsearch高级(Shards、高可用集群搭建)

一、ES核心概念
1. ES基本概念名词:
Cluster

代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。

Shards

代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。

replicas

代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。

Recovery

代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。

2. ES集群核心原理分析:

es数据存储方式:

  1. 每个索引会被分成多个分片shards进行存储,默认创建索引是分配5个分片进行存储。
    每个分片都会分布式部署在多个不同的节点上进行部署,该分片成为primary shards。
    注意:索引的主分片primary shards定义好后,后面不能做修改。

  2. 为了实现高可用数据的高可用,主分片可以有对应的备分片replics shards,replic shards分片承载了负责容错、以及请求的负载均衡。
    注意: 每一个主分片为了实现高可用,都会有自己对应的备分片,主分片对应的备分片不能存放同一台服务器上。主分片primary shards可以和其他replics shards存放在同一个node节点上。

注:ES集群中,主节点做增删,主节点和其他节点都可以做查询,当master节点宕机后,自动选举leader。

3. ES为什么要做集群?
  1. 在单台ES服务器节点上,随着业务量的发展索引文件慢慢增多,会影响到效率和内存存储问题等。

  2. 我们可以采用ES集群,将单个索引的分片到多个不同分布式物理机器上存储,从而可以实现高可用、容错性等。

  3. ES集群中索引可能由多个分片构成,并且每个分片可以拥有多个副本。通过将一个单独的索引分为多个分片,我们可以处理不能在一个单一的服务器上面运行的大型索引,简单的说就是索引的大小过大,导致效率问题。不能运行的原因可能是内存也可能是存储。由于每个分片可以有多个副本,通过将副本分配到多个服务器,可以提高查询的负载能力。

4. 简单介绍ES分片技术Shards

ES为了高可用,主分片默认5个,每个主分片默认有1个对应的副分片。
注:主分片定义好就不能修改了。

为什么ES主分片对应的备分片不在同一台节点存放?
因为主分片和备分片存在在同一节点,若该节点宕机后,备分片数据也没有没,这时从其他节点访问的数据就不完整。

注:单台服务器是没有备分片的,因为没有意义。

索引的主分片定义好后为什么不能做修改?

  1. 其实这跟 documnet routing(数据路由)有关,当客户端发起创建document的时候,es需要确定这个document放在该index哪个shard上。这个过程就是数据路由。
    路由算法:shard = hash(routing) % number_of_primary_shards

  2. 如果number_of_primary_shards在查询的时候取余发生的变化,无法获取到该数据


ES水平拓展节点增加副分片
算法:副分片 = node² 即:副分片数量等于ES节点的平方
每个ES节点中都存在一个完整数据(如两个ES节点,一个完整数据的组合可能是 P1+P2 、P1+P2、R1+R2)

主节点宕机后,通过选举产生新的Leader,当宕机的服务恢复后会重新进行分片计算。

查看索引分片数量(_settings接口):
查询myindex索引的分片信息: http://192.168.2.100/myindex/_settings
在这里插入图片描述


二、ES高可用集群环境搭建

ES集群很简单,只需要保证每个节点cluster.name一致和其他简单配置即可实现集群。

1. 服务器环境

虚拟三台服务器做集群,下面是我虚拟的3台服务器:

服务器名称	IP地址
node-0	192.168.2.100
node-1	192.168.2.101
node-2	192.168.2.102

2. 服务集群配置
进入Elasticsearch的config目录执行 vim elasticsearch.yml,配置如下:

cluster.name: myes    # 保证三台服务器节点集群名称相同
node.name: node-0  # 每个节点名称不一样 其他两台为node-1 ,node-2
network.host: 192.168.2.180  # 实际服务器ip地址
# 多个服务集群ip
discovery.zen.ping.unicast.hosts: ["192.168.2.100", "192.168.2.101","192.168.2.102"]
discovery.zen.minimum_master_nodes: 1

关闭防火墙 systemctl stop firewalld.service
默认底层开启9300 集群

3. 验证集群效果
浏览器访问/_cat/nodes接口:http://192.168.2.101:9200/_cat/nodes
在这里插入图片描述
有*号的表示为master节点

集群环境启动报错:

  • 报错:failed to send join request to master 或 with the same id but is a different node instance
  • 原因:是因为克隆虚拟机时,elsticsearch时,将elsticsearch文件夹下的data文件夹一并克隆了,
    data文件会导致数据不同步。而在前面测试时,data文件夹下已经产生了data数据,于是报上面的错误。
  • 解决方法:直接删除每台ES服务器的data目录下的文件

4. 测试各节点数据同步
192.168.2.101节点添加id为20的数据:
在这里插入图片描述
192.168.2.102进行访问刚刚添加的id为20的数据,我们发现能够正确访问到数据:
在这里插入图片描述


到这里就大功告成了,其实ES要学习的还有很多,这里仅仅是入门,学习下主要ES的一些设计思想及简单使用,要在项目中用好还需要多加实战。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值