Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享

骏Joy

于 2024-08-12 02:21:09 发布

阅读量12

点赞数

文章标签： elasticsearch 大数据搜索引擎全文检索

故障现象

近日有客户找到我们，说有个 ES 集群节点，磁盘利用率达到了 82% ，而其节点才 63% ，想处理下这个节点，降低节点的磁盘利用率。

起初以为是没有打开自动平衡导致的，经查询，数据还是比较平衡的。

Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享_脱机

利用率较高的是 76 节点，如果 76 节点的分片比其他节点多，好像还比较合乎逻辑，但它反而比其他节点少了 12-15 个分片。那是 76 节点上的分片比较大？

索引情况

Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享_解决方案_02

图中都是较大的索引，1 个索引 25TB 左右，共 160 个分片。

分片大小

节点 64

Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享_Elasticsearch_03

节点 77

Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享_Easysearch_04

节点 75

Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享_Easysearch_05

问题节点 76

Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享_Easysearch_06

可以看出分片大小没有出现较大的倾斜，分片大小和数据平衡的原因都被排除。

换个方向思考，节点 76 比其他节点多使用了磁盘空间 8 个 TB 左右，集群最大分片大小约 140GB ，8000/140=57 ，即节点 76 至少要比其他节点多 57 个分片才行，啊这...

会不会有其他的文件占用了磁盘空间？

我们登录到节点主机，排查是否有其他文件占用了磁盘空间。

结果：客户的数据路径是单独的数据磁盘，并没有其他文件，都是 ES 集群索引占用的空间。

现象总结

分片大小差不多的情况下，节点 76 的分片数还比别的节点还少 10 个左右，它的磁盘空间反而多占用了 8TB 。

这是不是太奇怪了？事出反常必有妖，继续往下查。

原因定位

通过进一步排查，我们发现节点 76 上有一批索引目录，在其他的节点上没有，而且也不在 GET \_cat/indices?v 命令的结果中。说明这些目录都是 dangling 索引占用的。

dangling 索引产生的原因

当 Elasticsearch 节点脱机时，如果删除的索引数量超过 Cluster.indes.tombstones.size，就会发生这种情况。

解决方案

通过命令删除 dangling 索引：

最后

这次的分享就到这里了，欢迎与我一起交流 ES 的各种问题和解决方案。

原创作者: u_15963473 转载于: https://blog.51cto.com/u_15963473/11715924

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Elasticsearch 磁盘空间异常：一次成功的故障排除案例分享

故障现象近日有客户找到我们，说有个 ES 集群节点，磁盘利用率达到了 82% ，而其节点才 63% ，想处理下这个节点，降低节点的磁盘利用率。起初以为是没有打开自动平衡导致的，经查询，数据还是比较平衡的。利用率较高的是 76 节点，如果 76 节点的分片比其他节点多，好像还比较合乎逻辑，但它反而比其他节点少了 12-1...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。