问题描述:
ES在重启只有健康状态变为yellow,有几个分片未分配成功
查看原因:是因为集群恢复导致的
常见的几种未分配原因如下:
ALLOCATION_FAILED:由于分片分配失败而未分配。
CLUSTER_RECOVERED:由于集群恢复而未分配。
DANGLING_INDEX_IMPORTED:由于导入了悬空索引导致未分配。
EXISTING_INDEX_RESTORED:由于恢复为已关闭的索引导致未分配。
INDEX_CREATED:由于API创建索引而未分配。
INDEX_REOPENED:由于打开已关闭索引而未分配。
NEW_INDEX_RESTORED:由于恢复到新索引而未分配。
NODE_LEFT:由于托管的节点离开集群而未分配。
REALLOCATED_REPLICA:确定了更好的副本位置,并导致现有副本分配被取消。
REINITIALIZED:当分片从开始移动回初始化,导致未分配。
REPLICA_ADDED:由于显式添加副本而未分配。
REROUTE_CANCELLED:由于显式取消重新路由命令而未分配。
问题解决:
1、查看集群分片分配开关是否打开
如果没打开可以通过以下参数开启,正常集群会自动分配。
curl -H "Content-Type: application/json" -XPUT http://host:9200/_cluster/settings -d '{"transient" : {"cluster.routing.allocation.enable" : "all"}}'
2、改变对应索引副本数。
此索引有1个副本,由于有问题的分片都是从分片,可以将副本数改为0,只保留主分片,可以解决此问题。
curl -H "Content-Type: application/json" -XPUT host:9200/jdfw_md/_settings -d '{ "index": {"number_of_replicas": "1"}}'
执行后集群状态恢复
为安全起见再将副本数调整为1,集群会自动生成对应的副本,但是耗时比较长,需要等待一段时间,本次恢复花费了近三个小时,如图:
调整为1后健康状态为yellow,此时还在恢复中
恢复后存储大小提升一倍
对应时间段内,集群整体负载会有所提高