elasticsearch集群安装

李泽信

已于 2022-03-03 22:03:50 修改

阅读量737

点赞数 1

分类专栏：运维文章标签：搜索引擎 elasticsearch 分布式

于 2022-02-20 14:54:25 首次发布

本文链接：https://blog.csdn.net/qq_43704782/article/details/123030965

版权

运维专栏收录该内容

14 篇文章 3 订阅

订阅专栏

elasticsearch集群安装

elasticsearch简介

elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。Elasticsearch用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。官方客户Java、.NET（C#）、PHP、Python、Apache Groovy、Ruby和许多其他语言中都是可用的。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr，也是基于Lucene。

一、为什么要搭建集群？

（1）高可用性

Elasticsearch 作为一个搜索引擎，我们对它的基本要求就是存储海量数据并且可以在非常短的时间内查询到我们想要的信息。所以第一步我们需要保证的就是 Elasticsearch 的高可用性，什么是高可用性呢？它通常是指，通过设计减少系统不能提供服务的时间。假设系统一直能够提供服务，我们说系统的可用性是 100%。如果系统在某个时刻宕掉了，比如某个网站在某个时间挂掉了，那么就可以它临时是不可用的。所以，为了保证 Elasticsearch 的高可用性，我们就应该尽量减少 Elasticsearch 的不可用时间。
那么怎样提高 Elasticsearch 的高可用性呢？这时集群的作用就体现出来了。假如 Elasticsearch 只放在一台服务器上，即单机运行，假如这台主机突然断网了或者被攻击了，那么整个 Elasticsearch 的服务就不可用了。但如果改成 Elasticsearch 集群的话，有一台主机宕机了，还有其他的主机可以支撑，这样就仍然可以保证服务是可用的。
那可能有的小伙伴就会说了，那假如一台主机宕机了，那么不就无法访问这台主机的数据了吗？那假如我要访问的数据正好存在这台主机上，那不就获取不到了吗？难道其他的主机里面也存了一份一模一样的数据？那这岂不是很浪费吗？

为了解答这个问题，这里就引出了 Elasticsearch 的信息存储机制了。首先解答上面的问题，一台主机宕机了，这台主机里面存的数据依然是可以被访问到的，因为在其他的主机上也有备份，但备份的时候也不是整台主机备份，是分片备份的，那这里就又引出了一个概念——分片。

分片，英文叫做 Shard，顾名思义，分片就是对数据切分成了多个部分。我们知道 Elasticsearch 中一个索引（Index）相当于是一个数据库，如存某网站的用户信息，我们就建一个名为 user 的索引。但索引存储的时候并不是整个存一起的，它是被分片存储的，Elasticsearch 默认会把一个索引分成五个分片，当然这个数字是可以自定义的。分片是数据的容器，数据保存在分片内，分片又被分配到集群内的各个节点里。当你的集群规模扩大或者缩小时， Elasticsearch 会自动的在各节点中迁移分片，使得数据仍然均匀分布在集群里，所以相当于一份数据被分成了多份并保存在不同的主机上。

那这还是没解决问题啊，如果一台主机挂掉了，那么这个分片里面的数据不就无法访问了？别的主机都是存储的其他的分片。其实是可以访问的，因为其他主机存储了这个分片的备份，叫做副本，这里就引出了另外一个概念——副本。

副本，英文叫做 Replica，同样顾名思义，副本就是对原分片的复制，和原分片的内容是一样的，Elasticsearch 默认会生成一份副本，所以相当于是五个原分片和五个分片副本，相当于一份数据存了两份，并分了十个分片，当然副本的数量也是可以自定义的。这时我们只需要将某个分片的副本存在另外一台主机上，这样当某台主机宕机了，我们依然还可以从另外一台主机的副本中找到对应的数据。所以从外部来看，数据结果是没有任何区别的。

一般来说，Elasticsearch 会尽量把一个索引的不同分片存储在不同的主机上，分片的副本也尽可能存在不同的主机上，这样可以提高容错率，从而提高高可用性。

但这时假如你只有一台主机，那不就没办法了吗？分片和副本其实是没意义的，一台主机挂掉了，就全挂掉了。

（2）健康状态

针对一个索引，Elasticsearch 中其实有专门的衡量索引健康状况的标志，分为三个等级：

green ，绿色。这代表所有的主分片和副本分片都已分配。你的集群是 100% 可用的。
yellow，黄色。所有的主分片已经分片了，但至少还有一个副本是缺失的。不会有数据丢失，所以搜索结果依然是完整的。不过，你的高可用性在某种程度上被弱化。如果更多的分片消失，你就会丢数据了。所以可把 yellow 想象成一个需要及时调查的警告。
red，红色。至少一个主分片以及它的全部副本都在缺失中。这意味着你在缺少数据：搜索只能返回部分数据，而分配到这个分片上的写入请求会返回一个异常。

如果你只有一台主机的话，其实索引的健康状况也是 yellow，因为一台主机，集群没有其他的主机可以防止副本，所以说，这就是一个不健康的状态，因此集群也是十分有必要的。

（3）存储空间

另外，既然是群集，那么存储空间肯定也是联合起来的，假如一台主机的存储空间是固定的，那么集群它相对于单个主机也有更多的存储空间，可存储的数据量也更大。所以综上所述，我们需要一个集群！

二、详细了解 Elasticsearch 集群

接下来我们再来了解下集群的结构是怎样的。
首先我们应该清楚多台主机构成了一个集群，每台主机称作一个节点（Node）。
如图就是一个三节点的集群：
在这里插入图片描述

在图中，每个 Node 都有三个分片，其中 P 开头的代表 Primary 分片，即主分片，R 开头的代表 Replica 分片，即副本分片。所以图中主分片 1、2，副本分片 0 储存在 1 号节点，副本分片 0、1、2 储存在 2 号节点，主分片 0 和副本分片 1、2 储存在 3 号节点，一共是 3 个主分片和 6 个副本分片。同时我们还注意到 1 号节点还有个 MASTER 的标识，这代表它是一个主节点，它相比其他的节点更加特殊，它有权限控制整个集群，比如资源的分配、节点的修改等等。

这里就引出了一个概念就是节点的类型，我们可以将节点分为这么四个类型：

主节点：即 Master 节点。主节点的主要职责是和集群操作相关的内容，如创建或删除索引，跟踪哪些节点是群集的一部分，并决定哪些分片分配给相关的节点。稳定的主节点对集群的健康是非常重要的。默认情况下任何一个集群中的节点都有可能被选为主节点。索引数据和搜索查询等操作会占用大量的cpu，内存，io资源，为了确保一个集群的稳定，分离主节点和数据节点是一个比较好的选择。虽然主节点也可以协调节点，路由搜索和从客户端新增数据到数据节点，但最好不要使用这些专用的主节点。一个重要的原则是，尽可能做尽量少的工作。

数据节点：即 Data 节点。数据节点主要是存储索引数据的节点，主要对文档进行增删改查操作，聚合操作等。数据节点对 CPU、内存、IO 要求较高，在优化的时候需要监控数据节点的状态，当资源不够的时候，需要在集群中添加新的节点。

负载均衡节点：也称作 Client 节点，也称作客户端节点。当一个节点既不配置为主节点，也不配置为数据节点时，该节点只能处理路由请求，处理搜索，分发索引操作等，从本质上来说该客户节点表现为智能负载平衡器。独立的客户端节点在一个比较大的集群中是非常有用的，他协调主节点和数据节点，客户端节点加入集群可以得到集群的状态，根据集群的状态可以直接路由请求。

预处理节：点也称作 Ingest 节点，在索引数据之前可以先对数据做预处理操作，所有节点其实默认都是支持 Ingest 操作的，也可以专门将某个节点配置为 Ingest 节点。

以上就是节点几种类型，一个节点其实可以对应不同的类型，如一个节点可以同时成为主节点和数据节点和预处理节点，但如果一个节点既不是主节点也不是数据节点，那么它就是负载均衡节点。具体的类型可以通过具体的配置文件来设置。

三、搭建 Elasticsearch 集群

准备环境

系统环境	节点名称	IP地址	安装包
centos7.8	es1	192.168.100.101	elasticsearch-7.6.0-linux-x86_64.tar.gz
centos7.8	es2	192.168.100.102	elasticsearch-7.6.0-linux-x86_64.tar.gz
centos7.8	es3	192.168.100.103	elasticsearch-7.6.0-linux-x86_64.tar.gz

ES集群中索引可能由多个分片构成，并且每个分片可以拥有多个副本。通过将一个单独的索引分为多个分片，我们可以处理不能在一个单一的服务器上面运行的大型索引，简单的说就是索引的大小过大，导致效率问题。不能运行的原因可能是内存也可能是存储。由于每个分片可以有多个副本，通过将副本分配到多个服务器，可以提高查询的负载能力。

(1)安装JDK

Elasticsearch是基于Java开发是一个Java程序，运行在jvm中，所以第一步要安装JDK。

[root@es1 ~]#yum install -y java-1.8.0-openjdk-devel  # 安装1.8或1.8以上版本

(2)创建es用户，三台一样；

[root@es1 ~]#groupadd es
[root@es1 ~]#useradd es -g es
[root@es1 ~]#passwd es (密码123123)

(3)创建安装目录，且修改响应参数

[root@es1 ~]#mkdir /data

修改系统参数，因为文件描述符内核高效管理一被打开的文件所创建的索引，用于指向被打开的文件,所有执行I/O操作的系统调用都通过文件描述符太少，至少要【65535】个，所以修改；

[root@es1 ~]#vim /etc/security/limits.conf 	#追加
root soft nofile 65535
root hard nofile 65535
* soft nofile 65536
* hard nofile 65536
保存退出，重新连接验证；
[root@es1 ~]#ulimit -S -n	#查看软件资源限制
[root@es1 ~]#ulimit -H -n	#查看硬件资源限制

修改max_map_count 文件，该文件包含限制一个进程可以拥有的VMA的数量。虚拟内存区域是一个连续的虚拟地址空间区域；

[root@es1 ~]#vim /etc/sysctl.conf	#追加
vm.max_map_count=655360
[root@es1 ~]#sysctl -p #重新加载使生效

(6)解压elasticsearch,且修改配置

[root@es1 ~]#tar xf  elasticsearch-7.6.0-linux-x86_64.tar.gz -C /data
[root@es1 ~]#mv /data/elasticsearch-7.6.0/ /data/elasticsearch	#改名称，方便好记；
[root@es1 ~]#chown -R es.es /data/elasticsearch/	#赋权限，最好用赋权用户启动；

修改配置文件，修改如下内容

[root@es1 ~]# vi /data/elasticsearch/config/elasticsearch.yml
 cluster.name: my-es
 node.name: es1
 path.data: /data/elasticsearch/data
 path.logs: /data/elasticsearch/logs
 network.host: 192.168.100.101
 http.port: 9200
 discovery.seed_hosts: ["192.168.100.101", "192.168.100.102", "192.168.100.103"]	#可以用IP，可以用域名，需要在/etc/hosts文件中提前加好；
 cluster.initial_master_nodes: ["192.168.100.101", "192.168.100.102", "192.168.100.103"]	#可以用IP，可以用域名，需要在/etc/hosts文件中提前加好；
末尾追加
 http.cors.enabled: true		// 是否开启跨域访问，默认是false；
 http.cors.allow-origin: "*"    // 可以访问的域名，* 代表任意都可以访问；

修改jvm.options，原因可能出现如下错误信息
在这里插入图片描述

[root@es1 ~]# vi /data/elasticsearch/config/jvm.options
-Xms1g 修改为 ===> -Xms2g
-Xmx1g 修改为 ===> -Xmx2g
设置为物理内存一半最佳，可根据服务器内存去选择调；

创建数据存储目录

[root@es1 ~]#mkdir -p /data/elasticsearch/data
赋予权限
[root@es1 ~]#chown -R es.es /data/elasticsearch/data

(7)切换es用户启动且验证

[root@es1 ~]#su - es
[root@es1 ~]#cd /data/elasticsearch/bin
[root@es1 ~]#./elasticsearch -d 后台运行

查看单节点状态

[root@es1 ~]# curl http://192.168.100.101:9200
{
"name" : "es1",
"cluster_name" : "my-es",
"cluster_uuid" : "t5WZUYtnR-CPBhweUsAilg",
"version" : {
"number" : "7.6.0",
"build_flavor" : "default",
"build_type" : "tar",
"build_hash" : "7f634e9f44834fbc12724506cc1da681b0c3b1e3",
"build_date" : "2020-02-06T00:09:00.449973Z",
"build_snapshot" : false,
"lucene_version" : "8.4.0",
"minimum_wire_compatibility_version" : "6.8.0",
"minimum_index_compatibility_version" : "6.0.0-beta1"
},
"tagline" : "You Know, for Search"
}

查看集群状态

[root@es1 ~]# curl http://192.168.100.101:9200/_cat/nodes?v
ip              heap.percent ram.percent cpu load_1m load_5m load_15m node.role master name
192.168.100.101           22          96   0    0.00    0.02     0.05 dilm      *      es1
192.168.100.103           26          96   0    0.00    0.01     0.05 dilm      -      es3
192.168.100.102           47          97   0    0.00    0.02     0.05 dilm      -      es2

[root@es1 ~]# curl http://192.168.100.101:9200/_cluster/health?pretty
{
"cluster_name" : "my-es",
"status" : "green",
"timed_out" : false,
"number_of_nodes" : 3,
"number_of_data_nodes" : 3,
"active_primary_shards" : 0,
"active_shards" : 0,
"relocating_shards" : 0,
"initializing_shards" : 0,
"unassigned_shards" : 0,
"delayed_unassigned_shards" : 0,
"number_of_pending_tasks" : 0,
"number_of_in_flight_fetch" : 0,
"task_max_waiting_in_queue_millis" : 0,
"active_shards_percent_as_number" : 100.0
}

以上简单的elasticsearch集群就搭建好了！