记一次kafka集群频繁crash的排查过程

01概述kafka集群中的某些broker会随机重启,并且重启没有什么规律。broker重启对于client端使用层面是无感知的,但是在数据一致性、稳定性方面存在风险。broker重启时,...
摘要由CSDN通过智能技术生成

01

概述

kafka集群中的某些broker会随机重启,并且重启没有什么规律。broker重启对于client端使用层面是无感知的,但是在数据一致性、稳定性方面存在风险。broker重启时,连接在这台broker的连接会重连到其他正常的broker,增加集群中其他broker的压力。同时这个broker上的leader partition也会触发切主操作,频繁切主会影响该partition的一致性和可用性。partition的变动也会触发消费端的重平衡,从而影响消费端的稳定性。

通过查看 kafka 服务端日志,并未发现明显的 ERROR 级别日志。通过和运维同学的共同排查,最终定位并解决了这个问题,由于这个问题比较典型,因此通过这篇文章记录问题排查和定位过程。

02

找问题现场

1、分析 java core dump 文件:/tmp/hs_err_pid128144.log ,在文件头中发现以下线索,每次crash都是由OOM触发导致。

2bfbff0f50a989734248b33195455c41.png      2、在 core dump 文件头部和尾部找到内存分配的细节:分配 12288Byte 空间失败,然而物理内存还剩余 461984KBÿ

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值