腾云忆想技术文章|记一次Elasticsearch集群异常崩溃的离奇事件

最新推荐文章于 2025-02-28 17:08:14 发布

腾云忆想

最新推荐文章于 2025-02-28 17:08:14 发布

阅读量997

点赞数

文章标签： elasticsearch 大数据 big data 腾讯云云计算

本文链接：https://blog.csdn.net/tengyunyixiang/article/details/123377041

版权

本文讲述了在腾讯云Elasticsearch服务中，由于大量别名导致的集群异常崩溃事件。集群在CPU瓶颈和无主状态后，经过多次尝试恢复未果，最终发现是超过10万个别名造成的性能问题。通过对业务别名的清理，集群成功恢复正常。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导读

腾讯云Elasticsearch Service（ES）是基于开源搜索引擎 Elasticsearch 打造的高可用、可伸缩的云端全托管的 Elasticsearch 服务，包含 Kibana 及常用插件，并集成了安全、SQL、机器学习、告警、监控等高级特性（X-Pack）。使用腾讯云 ES，您可以快速部署、轻松管理、按需扩展您的集群，简化复杂运维操作，快速构建日志分析、异常监控、网站搜索、企业搜索、BI 分析等各类业务。

作者简介

岳涛

腾云忆想大数据产品架构师，多年分布式、高并发大数据系统的研发、系统架构设计经验，擅长主流大数据架构技术平台的落地和实施。目前专注于大数据架构相关组件的研究推广和最佳实践的沉淀，致力于帮助企业完成数字化转型。

背景

前面我们学习了《Elasticsearch集群异常状态（RED、YELLOW）原因分析》，了解到了当集群发生主分片无法上线的情况下，集群状态会变为RED，此时相应的RED索引读写请求都会受到严重的影响。这里我们将介绍在实际使用中，极端场景下ES集群异常崩溃且无法恢复的一种情况。

问题

业务突然不可用，持续收到报错：

通过观察集群日志，发现ES集群始终处于无主状态，无法自我恢复：

Caused by: ClusterBlockException[blocked by: [SERVICE_UNAVAILABLE/2/no master];]
        at org.elasticsearch.cluster.block.ClusterBlocks.globalBlockedException(C