记一次kafka集群频繁crash的排查过程

最新推荐文章于 2023-06-14 15:20:21 发布

ZVAyIVqt0UFji

最新推荐文章于 2023-06-14 15:20:21 发布

阅读量944

点赞数

文章标签： kafka 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZVAyIVqt0UFji/article/details/123515782

版权

本文记录了一次kafka集群因broker频繁crash的排查过程。通过分析core dump和gc日志，发现问题是由于超过系统最大映射数(max_map_count)引发的内存映射失败。解决方案是增大系统限制或优化kafka索引文件管理。

摘要由CSDN通过智能技术生成

01

概述

kafka集群中的某些broker会随机重启，并且重启没有什么规律。broker重启对于client端使用层面是无感知的，但是在数据一致性、稳定性方面存在风险。broker重启时，连接在这台broker的连接会重连到其他正常的broker，增加集群中其他broker的压力。同时这个broker上的leader partition也会触发切主操作，频繁切主会影响该partition的一致性和可用性。partition的变动也会触发消费端的重平衡，从而影响消费端的稳定性。

通过查看 kafka 服务端日志，并未发现明显的 ERROR 级别日志。通过和运维同学的共同排查，最终定位并解决了这个问题，由于这个问题比较典型，因此通过这篇文章记录问题排查和定位过程。

02

找问题现场

1、分析 java core dump 文件：/tmp/hs_err_pid128144.log ，在文件头中发现以下线索，每次crash都是由OOM触发导致。

2、在 core dump 文件头部和尾部找到内存分配的细节：分配 12288Byte 空间失败，然而物理内存还剩余 461984KBÿ

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
记一次kafka集群频繁crash的排查过程

01概述kafka集群中的某些broker会随机重启，并且重启没有什么规律。broker重启对于client端使用层面是无感知的，但是在数据一致性、稳定性方面存在风险。broker重启时，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。