现象:调整安全组后,集群内网络不可达,集群状态变红。网络恢复后,集群部分索引部分分片一直是 unassign 状态
导致原因:安全组调整,导致集群间通信中断
问题原因:
es 集群在出现未分配分片时,Elasticsearch 会尝试自动将未分配的分片重新分配到其他节点上。这时因为网络不可达,无法分配。es 尝试五次后停止分配该分片,导致网络恢复后,任有部分分片为分配
修复方式:删除存在未分配的index, 重新创建并写入数据
官方有相关命令进行恢复 (待验证)
curl -XPOST 'localhost:9200/_cluster/reroute?retry_failed