elasticsearch配置及相关优化

最新推荐文章于 2024-07-26 14:40:07 发布

vicky_arg

最新推荐文章于 2024-07-26 14:40:07 发布

阅读量681

点赞数 1

本文链接：https://blog.csdn.net/PYJcsdn/article/details/105216376

版权

集群安装

前言：

Lucene是一个java信息检索程序库，elasticsearch是基于json，分布式，基于lunce的web服务。每一个分片就是一个分离的lucene实例，提供一个分布式的基于json的restapi来方便使用lucene功能

node.master:

node.data:

默认都是true，但是建议显示配置，

主节点：普通服务器即可

作用：索引创建或者删除

跟踪哪些节点是集群的一部分

决定哪些分片分配给相关节点

稳定主节点对集群健康非常重要，每个猪节点应该知道形成集群的最小数量主资格节点的数量， discovery.zen.minimum_master_nodes

脑裂：某些节点失效，部分节点网络连接会断开，并形成一个与原集群一样的名字集群，凉饿新形成的集群会同时缩影和修改集群中的数据，就会粗线数据冲突。

产生脑裂原因：内网一般不会出现这个文图，可以监控内网流量状态，外网出现问题可能性大一点

节点负载，master与data节点负载，如果mastar节点失效，会出先脑裂，master与数据节点分开

改善方案：data与master几点分开

node.master: false

node.data: true

配置说明

discovery.zen.ping_timeout：增加节点响应时间，

discovery.zen.minimum_master_nodes（默认是1），（n/2）+1向下取整，n具有master资格节点数量。。

cluster.name: elasticsearch配置es的集群名称，默认是elasticsearch，es会自动发现在同一网段下的es，如果在同一网段下有多个集群，就可以用这个属性来区分不同的集群。

node.name: "Franz Kafka"节点名，默认随机指定一个name列表中名字，该列表在es的jar包中config文件夹里name.txt文件中，其中有很多作者添加的有趣名字。

node.master: true指定该节点是否有资格被选举成为node，默认是true，es是默认集群中的第一台机器为master，如果这台机挂了就会重新选举master。

node.data: true指定该节点是否存储索引数据，默认为true。

index.number_of_shards: 5设置默认索引分片个数，默认为5片。

index.number_of_replicas: 1设置默认索引副本个数，默认为1个副本。

path.conf: /path/to/conf设置配置文件的存储路径，默认是es根目录下的config文件夹。

path.data: /path/to/data设置索引数据的存储路径，默认是es根目录下的data文件夹，可以设置多个存储路径，用逗号隔开，例：path.data: /path/to/data1,/path/to/data2

path.work: /path/to/work设置临时文件的存储路径，默认是es根目录下的work文件夹。

path.logs: /path/to/logs设置日志文件的存储路径，默认是es根目录下的logs文件夹

path.plugins: /path/to/plugins设置插件的存放路径，默认是es根目录下的plugins文件夹

bootstrap.mlockall: true设置为true来锁住内存。因为当jvm开始swapping时es的效率会降低，所以要保证它不swap，可以把ES_MIN_MEM和ES_MAX_MEM两个环境变量设置成同一个值，并且保证机器有足够的内存分配给es。同时也要允许elasticsearch的进程可以锁住内存，Linux下可以通过`ulimit -l unlimited`命令。，程序启动直到JVM获取到指定大小的内存，可能由于系统cache释放缓慢，而导致这个过程非常长，这有可能使你的节点GC非常频繁，从而导致集群不稳定，作用就是在程序启动的时候先去获取足够大的内存，防止在内存不够用的时候，elasticsearch的内存被交换至交换区，导致性能骤降。先将内存给自己

network.bind_host: 192.168.0.1设置绑定的ip地址，可以是ipv4或ipv6的，默认为0.0.0.0。

network.publish_host: 192.168.0.1设置其它节点和该节点交互的ip地址，如果不设置它会自动判断，值必须是个真实的ip地址。

network.host: 192.168.0.1这个参数是用来同时设置bind_host和publish_host上面两个参数。

transport.tcp.port: 9300设置节点间交互的tcp端口，默认是9300。

transport.tcp.compress: true设置是否压缩tcp传输时的数据，默认为false，不压缩。

http.port: 9200设置对外服务的http端口，默认为9200。

http.max_content_length: 100mb设置内容的最大容量，默认100mb，每次发送的数据过大

http.enabled: false是否使用http协议对外提供服务，默认为true，开启。

gateway.type: local gateway的类型，默认为local即为本地文件系统，可以设置为本地文件系统，分布式文件系统，Hadoop的HDFS，和amazon的s3服务器

gateway.recover_after_nodes: 1设置集群中N个节点启动时进行数据恢复，默认为1。

gateway.recover_after_time: 5m设置初始化数据恢复进程的超时时间，默认是5分钟。

gateway.expected_nodes: 2设置这个集群中节点的数量，默认为2，一旦这N个节点启动，就会立即进行数据恢复

上面三个一起使用：

集群节点总数量，在5分钟内，一共有达到expected_nodes将会恢复数据，否则5分钟后recover的个数即可

参考：https://blog.csdn.net/u012450329/article/details/52881045

cluster.routing.allocation.node_initial_primaries_recoveries: 4初始化数据恢复时，并发恢复线程的个数，默认为4。

cluster.routing.allocation.node_concurrent_recoveries: 2添加删除节点或负载均衡时并发恢复线程的个数，默认为4。

indices.recovery.max_size_per_sec: 0设置数据恢复时限制的带宽，如入100mb，默认为0，即无限制。

indices.recovery.concurrent_streams: 5设置这个参数来限制从其它分片恢复数据时最大同时打开并发流的个数，默认为5。

discovery.zen.minimum_master_nodes: 1设置这个参数来保证集群中的节点可以知道其它N个有master资格的节点。默认为1，对于大的集群来说，可以设置大一点的值（2-4）

discovery.zen.ping.timeout: 3s设置集群中自动发现其它节点时ping连接超时时间，默认为3秒，对于比较差的网络环境可以高点的值来防止自动发现时出错。

discovery.zen.ping.multicast.enabled: false设置是否打开多播发现节点，默认是true。

选取机器内存较好的

只需更改是否为主节点

谷歌安装插件

分片分为两种类型：主分片（Primary Shard）和副本分片（Replica Shard）

主分片：用以解决数据水平扩展的问题，通过主分片，可以将数据分布到集群内的所有节点上(主从复制)
- 主分片在索引创建时指定，后续不允许修改，除非reindex
- 一个分片是一个运行的Lucene实例
副本分片：用于解决数据高可用的问题，是主分片的拷贝（可以提高读吞吐量）
- 副本分片数，可动态调整

主分片是粗线，副本分片和主分片不在一台机器上面。

新建索引

一旦分片数确定，后面将不能改变，只能通过扩展副分片的个数，增加加载速率

查询操作：

peiyajie/person/_search

peiyajie/person/2

参考：https://blog.csdn.net/weixin_41986096/article/details/86737967?utm_source=app

elasticsearch-sql插件安装

以elasticsearch-sql -6.5.1为例

链接：https://github.com/NLPchina/elasticsearch-sql/releases/download/6.5.1.0/es-sql-site-standalone.zip

1./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-sql/releases/download/6.5.1.0/elasticsearch-sql -6.5.1.0.zip

2.版本5/6版本还需安装stand，需要和1同一个文件目录，我的是plugin的sql

https://github.com/NLPchina/elasticsearch-sql/releases/download/5.4.1.0/es-sql-site-standalone.zip

启动插件：（如果没有安装node，执行步骤3，再进行步骤二）

cd site-server

npm install express --save

启动：步骤4执行完再执行node node-server.js &

安装node

wget https://npm.taobao.org/mirrors/node/v8.0.0/node-v8.0.0-linux-x64.tar.xz

vim /etc/profile

NODE_HOME=/home/peiyajie/elasticsearch-6.5.1/plugins/node

export PATH=$NODE_HOME/bin:$PATH

4.修改ela的yml配置文件

http.cors.enabled: true

http.cors.allow-origin: "*"

注意：重启集群

便可以访问，sql页面查询

http://10.217.56.230:8100/

内部存储原理

Es和数据库比对，不过6以后索引里面只允许一种类型type存在

分片：节点中存储数据的核心单元，每个索引的文档数据是均匀地存放到多个分片中的（默认为5个），这些分片又分散在多个节点中，这样便实现了分布式存储。当集群扩容／缩小时，ES会自动在各个节点中迁移分片，使得数据依然均匀分布

副本分片是主分片的冗余拷贝，和对应的主分片有完全一样的数据，这样就实现了节点间的数据备份，副分片越多，集群的规模会相应的扩大，海量的检索请求会分散到各个副本上，系统的吞吐量会有成倍的提升。(一个节点一个分片性能最高)

数据先写入内存 buffer，然后每隔 1s，将数据 refresh 到 os cache，到了 os cache 数据就能被搜索到（所以我们才说 es 从写入到能被搜索到，中间有 1s 的延迟）。每隔 5s，将数据写入 translo文件（这样如果机器宕机，内存数据全没，最多会有 5s 的数据丢失），translog 大到一定程度，或者默认每隔 30mins，会触发 commit 操作，将缓冲区的数据都 flush 到 segment file 磁盘文件中。

路径translog (/home/peiyajie/data/nodes/0/indices/bVBg3fN9Tk2uzVRR0mzVvg/1/translog)

1 秒钟一个 segment file会定期执行 merge。每次 merge 的时候，会将多个 segment file 合并成一个，同时这里会将标识为 deleted 的 doc 给物理删除掉，然后将新的 segment file 写入磁盘，同时删除旧的。

查询副分片既可以解决，增删改需要主分片查找路由，同步数据。当你请求节点上面没有document的主分片，其他主分片查找路由，并且自己主分片同步数据

ElasticSearch推荐的最大JVM堆空间是30~32G（ jvm 在内存小于 32 G 的时候会采用一个内存对象指针压缩技术

：即便你有足够的内存，也尽量不要超过 32 G，因为它浪费了内存，降低了 CPU 的性能，还要让 GC 应对大内存。

如果机器内存太大，可以安装多个，不过在一个机器上面，副本的高可用性就没了）, 所以把你的分片最大容量限制为30GB, 然后再对分片数量做合理估算. 例如, 你认为你的数据能达到200GB, 我们推荐你最多分配7到8个分片.

一个好的方案是根据你的节点数量按照1.5~3倍的原则来创建分片. 例如,如果你有3个节点, 则推荐你创建的分片数最多不超过9(3x3)个.

ES的默认配置(5个分片)

新增索引的同时添加分片，不使用默认分片，分片的数量

一般以（节点数*1.5或3倍）来计算，比如有4个节点，分片数量一般是6个到12个，每个分片一般分配一个副本

PUT /testindex

{