1.概述
在 Elasticsearch 日常运维中,有时候要对集群的某一个节点进行下线、上线操作,比如增加磁盘,扩展内存,版本升级,或节点回收等。本文就根据近期的一次生产实践,梳理如何实现 Elasticsearch 节点平滑下线。
所谓平滑下线,是指服务不中断,不影响正常的数据写入和业务查询。首先我们不能直接 kill 服务进程,这样可能会造成数据丢失,影响正常业务。
从活动集群中停用节点。 这种情况下的主要挑战之一是在不导致群集停机或重启的情况下停用节点
。 幸运的是,Elasticsearch 提供了一个选项,可以在不丢失数据或不会造成停机的情况下,优雅地删除/停用节点。
2.操作
2.1 检查集群配置,避免脑裂问题
在做节点下线操作之前,建议先检查 master-eligible 节点的数量与 minimum_master_nodes 配置,确认下线节点不会影响集群可用性与稳定性,特别是针对小集群。涉及到的参数如下: