相关概念
集群(cluster)
是什么
一个集群就是由一个或多个节点组织在一起,它们共同持有你整个的数据,并一起提供索引和搜索功能。一个集群 由一个唯一的名字标识,这个名字默认就是elasticsearch
。这个名字是重要的,因为一个节点只能通过指定某个集群的名字,来加入这个集群。在产品环境中显式地设定这个名字是一个好习惯,但是使用默认值来进行测试/开发也是不错的。
能干嘛
1.单节点压力问题 并发压力 物理资源上限压力
2.数据冗余备份能力
节点(node)
是什么
一个节点是你集群中的一个服务器,作为集群的一部分,它存储你的数据,参与集群的索引和搜索功能。和集群类似,一个节点也是由一个名字来标识的,默认情况下,这个名字是一个随机的漫威漫画角色的名字,这个名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的,因为在这个管理过程中,你会去确定网络中的哪些服务器对应于Elasticsearch集群中的哪些节点。
能干嘛
一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下,每个节点都会被安排加入到一个叫 做“elasticsearch”的集群中,这意味着,如果你在你的网络中启动了若干个节点,并假定它们能够相互发现彼此,它们将会自动地形成并加入到一个叫做“elasticsearch”的集群中。
在一个集群里,只要你想,可以拥有任意多个节点。而且,如果当前你的网络中没有运行任何Elasticsearch节点, 这时启动一个节点,会默认创建并加入一个叫做“elasticsearch”的集群。
分片和复制(shards & replicas)
分片是什么
一个索引可以存储超出单个结点硬件限制的大量数据。比如,一个具有10亿文档的索引占据1TB的磁盘空间,而任一节点都没有这样大的磁盘空间;或者单个节点处理搜索请求,响应太慢。为了解决这个问题,Elasticsearch提供了将索引划分成多份的能力,这些份就叫做分片。当你创建一个索引的时候,你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”,这个“索引”可以被放置 到集群中的任何节点上。
分片之所以重要,主要有两方面的原因:
允许你水平分割/扩展你的内容容量允许你在分片(潜在地,位于多个节点上)之上进行分布式的、并行的操作,进而提高性能/吞吐量 至于一个分片怎样分布,它的文档怎样聚合回搜索请求,是完全由Elasticsearch管理的,对于作为用户的你来说,这些都是透明的。
复制是什么
在一个网络/云的环境里,失败随时都可能发生,在某个分片/节点不知怎么的就处于离线状态,或者由于任何原因 消失了。这种情况下,有一个故障转移机制是非常有用并且是强烈推荐的。为此目的,Elasticsearch允许你创建分片的一份或多份拷贝,这些拷贝叫做复制分片,或者直接叫复制。 复制之所以重要,主要有两方面的原因:
在分片/节点失败的情况下,提供了高可用性。因为这个原因,注意到复制分片从不与原/主要 (original/primary)分片置于同一节点上是非常重要的。 扩展你的搜索量/吞吐量,因为搜索可以在所有的复制上并行运行
总之,每个索引可以被分成多个分片。一个索引也可以被复制0次(意思是没有复制)或多次。一旦复制了,每个索引就有了主分片(作为复制源的原来的分片)和复制分片(主分片的拷贝)之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后,你可以在任何时候动态地改变复制数量,但是不能改变分片的数量。
默认情况下,Elasticsearch 7 之前ES中的每个索引被分片5个主分片和1个复制
,这意味着,如果你的集群中至少有两个节点,你的索引将会有5个主分片和另外5个复制分片(1个完全拷贝),这样的话每个索引总共就有10个分片。一个 索引的多个分片可以存放在集群中的一台主机上,也可以存放在多台主机上,这取决于你的集群机器数量。主分片和复制分片的具体位置是由ES内在的策略所决定的。
集群架构图
环境搭建
1、将原有ES安装包复制三份
cp -r elasticsearch-6.8.0/ es_node1/
cp -r elasticsearch-6.8.0/ es_node2/
cp -r elasticsearch-6.8.0/ es_node3/
2. 删除复制目录中data目录
由于复制目录之前使用过因此需要在创建集群时将原来数据删除
注意: 如果你是重新安装的ES,这个步骤可以省略
但是如果你之前安装过IK分词器,建议你直接复制,这样就可以省略重新去安装IK分词器
rm -rf es_node1/data
rm -rf es_node2/data
rm -rf es_node3/data
3、调整JVM内存
由于ES启动时比较消耗内存,需要进行调整,你有两种方式可以选择:
- 第一种:调大虚拟机分配的内存
- 第二种:调整ES所占用内存
这里选择第二种
编辑没有文件夹中config目录中jvm.options文件跳转启动内存
vim es_node1/config/jvm.options
vim es_node2/config/jvm.options
vim es_node3/config/jvm.options
分别调整为:[根据个人虚拟机情况调整,我这里虚拟机分配了1G,我有三台ES,所以选择分配300m]
-Xms300m -Xmx300m
4、集群配置
分别修改三个文件夹中config目录中elasticsearch.yml文件
vim es_node1/config/elasticsearch.yml
vim es_node2/config/elasticsearch.yml
vim es_node3/config/elasticsearch.yml
分别修改如下配置:
cluster.name: es #集群名称(集群名称必须一致)
node.name: node1 #节点名称(节点名称不能一致)
network.host: 0.0.0.0 #监听地址(必须开启远程权限,并关闭防火墙)
http.port: 9201 #监听端口(在一台机器时服务端口不能一致)
discovery.zen.ping.unicast.hosts: ["192.168.77.138:9302", "192.168.77.138:9303"] #另外两个节点的ip
gateway.recover_after_nodes: 3 #集群可做master的最小节点数
transport.tcp.port: 9301 #集群TCP端口(在一台机器搭建必须修改)
cluster.name: es #集群名称(集群名称必须一致)
node.name: node1 #节点名称(节点名称不能一致)
network.host: 0.0.0.0 #监听地址(必须开启远程权限,并关闭防火墙)
http.port: 9202 #监听端口(在一台机器时服务端口不能一致)
discovery.zen.ping.unicast.hosts: ["192.168.77.138:9301", "192.168.77.138:9303"] #另外两个节点的ip
gateway.recover_after_nodes: 3 #集群可做master的最小节点数
transport.tcp.port: 9302 #集群TCP端口(在一台机器搭建必须修改)
cluster.name: es #集群名称(集群名称必须一致)
node.name: node1 #节点名称(节点名称不能一致)
network.host: 0.0.0.0 #监听地址(必须开启远程权限,并关闭防火墙)
http.port: 9203 #监听端口(在一台机器时服务端口不能一致)
discovery.zen.ping.unicast.hosts: ["192.168.77.138:9301", "192.168.77.138:9302"] #另外两个节点的ip
gateway.recover_after_nodes: 3 #集群可做master的最小节点数
transport.tcp.port: 9303 #集群TCP端口(在一台机器搭建必须修改)
注意:
- 监听端口是指web页面访问的端口,TCP端口是集群服务器之间通信用的端口
- transport.tcp.port需要在末尾自己添加
5、启动ElasticSearch
切换到非root身份,启动多个es
./es_node1/bin/elasticsearch
./es_node2/bin/elasticsearch
./es_node3/bin/elasticsearch
如果启动时,出现以下情况:
Exception in thread "main" java.nio.file.AccessDeniedException:
.....
解决办法:集群启动BUG解决方案
6、查看节点状态
浏览器分别访问:
http://192.168.77.138:9201/
http://192.168.77.138:9202/
http://192.168.77.138:9203/
如果出现以下数据:
代表集群创建成功!
7、 查看集群健康
如果你想要看集群的整体情况,你可以访问:
http://192.168.77.138:9201/_cat/health?v
解释以下为什么这里的主分片是7,而总分片是14,因为我使用了kibana连接了ElasticSearch,默认会创建两个索引,且索引分片为1,分片副本也为1;同时我自己创建了一个索引:索引分片为5,分片副本为1。所以最终主分片为:5+1+1,全部分片[主分片+副本分片]:5*2+2+2=14,如果你没有用kibana连接ES,也没有自己创建索引,则这里的分片数量为0
8、kiabana 连接 ES集群
如果你之前连接过一台ES集群[为什么说一台也是集群呢?因为ES启动方式就是集群启动,只是集群数量为一台],其实需要修改的地方都差不多
进入kibana配置文件:
vim kibana-6.8.0-linux-x86_64/configkibana.yml
修改连接ES的地址为集群中的任意一台:
server.host: "192.168.77.138"
elasticsearch.hosts: ["http://192.168.77.138:9201"]
9、SpringBoot 连接ES集群
如果你之前有用SpringBoot连接ES,这里的配置差不多,只是需要将连接地址改为所有的节点地址(防止其中某一台断掉不可用)
package com.elaticsearch.config;
import org.elasticsearch.client.RestHighLevelClient;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.data.elasticsearch.client.ClientConfiguration;
import org.springframework.data.elasticsearch.client.RestClients;
import org.springframework.data.elasticsearch.config.AbstractElasticsearchConfiguration;
/**
* @Author: xj0927
* @Description: RestHighLevelClient 客户端配置
* @Date Created in 2020-12-30 14:05
* @Modified By:
*/
@Configuration
public class RestClientConfig extends AbstractElasticsearchConfiguration {
@Override
@Bean
public RestHighLevelClient elasticsearchClient() {
final ClientConfiguration clientConfiguration = ClientConfiguration.builder()
.connectedTo("192.168.77.138:9201","192.168.77.138:9202","192.168.77.138:9203") //===>与kibana客户端类型都是restful分格,都是连接9200端口[这里填写你开放的web端口]
.build();
return RestClients.create(clientConfiguration).rest();
}
}
Head 集群可视化
通过访问http://192.168.77.138:9201/_cat/health?v我们并不知道每台服务器的具体健康状态如何,这时便可使用我们的head插件,注意该插件并不是官方提供的,是国外的一位大神针对ES集群健康状态开发的
1、安装 nodejs
head 插件需要使用node环境,所以需要先安装node
(1)下载安装包
下载地址:
https://nodejs.org/download/release/v10.15.3/node-v10.15.3-linux-arm64.tar.xz
(2)解压
注意该解压包是以.xz结尾的,需要先解压成.tar结尾的
xz -d node-v10.15.3-linux-arm64.tar.xz
tar -xvf node-v10.15.3-linux-x64.tar
解压完成后,进入bin目录,
./node --version
但此时只能在当前目录下执行,还需要配置环境变量
(3)配置环境变量
# 改名
mv node-v10.15.3-linux-x64 nodejs
# 放入/usr/下
mv nodejs /usr/nodejs
修改配置文件
vim /etc/profile
在末尾添加:
export NODE_HOME=/usr/nodejs
export PATH=$PATH:$JAVA_HOME/bin:$NODE_HOME/bin
使配置文件生效:
source /etc/profile
(4)测试
在任意目录下,查看
node -v
代表 node 安装成功!
2、安装Head
(1)下载安装包
官网地址:
https://codeload.github.com/mobz/elasticsearch-head/zip/master
(2)解压
unzip elasticsearch-head-master.zip
(3)更换阿里源
默认使用的仓库,下载速度比较慢,这里更换国内阿里源,可以提高下载速度
进入elasticsearch-head的目录,
npm config set registry https://registry.npm.taobao.org
(4)下载安装
npm install
(5)启动插件
npm run start
(6)测试
访问:这里localhost要换成你的ip地址
http://192.168.77.138:9100/
在Head中输入ES集群中任意一台节点的访问地址,便可以可视化集群的状态,但这里还不行,前面我们提到Head不是官方提供的,Head和ElasticSearch在不用的域,所以还需要解决跨域访问的问题
(7)解决跨域问题
编写每台ES服务器的elastsearch.yml配置文件开启head插件的访问,在末尾分别添加如下内容:
http.cors.enabled: true
http.cors.allow-origin: "*"
然后重启每台ES服务,便可以访问到集群了
(8)访问Head插件
启动访问head插件 默认端口9100
http://192.168.77.138:9100/
3、集群状态变化演示
这里我们创建主分片为5,副本为1的ems索引(如果不指定,ElasticSearch 7 之前的版本默认为5和1,我们这里用的6.8.0)
可以看到主分片和副本分片分布在不同的节点,同时保证主副分片不在同一节点(保证节点发生故障时可用),
现在我们停掉node1节点:
可以看到集群仍然可用,虽然有些副本失效了,但是还是保证了5个主分片可用(即保证了数据的完整性)
现在我们停掉node2节点:
集群仍然可用,只是集群数量现在只有一台,主分片依然完整。
现在我们重启node2节点:
发现集群慢慢同步了数据,去分担node1节点的压力,此时完整的主副分片都分布在者=这两个节点中,所以健康状态为:green
现在我们重启node1节点:
我们发现分片又重新分布在了不同的节点,健康状态为:green