一次kafka集群重启引发的线上问题

本文详细介绍了在kafka集群重启后,由于__consumer_offsets topic数据量过大导致的问题,分析了问题原因,包括配置错误和消费提交偏移量过多。提出了设置过期策略和查看日志信息的方法,并提供了优化方案,如调整清理策略和应用代码优化,成功将数据量从900G降至2G。
摘要由CSDN通过智能技术生成

1. 背景

在某次运维发现线上的kafka server集群的默认配置的size太小,不能满足业务发送数据的要求,导致业务阻塞,于是,更改了kafka server的某项参数的size大小之后,并重启了线上kafka server集群。
在重启集群之后,线上实时业务消费kafka topic的消费者开始报错,在消费端的错误信息为:

  1. 消费方的error错误信息为:
"Container exception":
org.apache.kafka.common.errors.TimeoutException: Timeout of 6000ms expected expired before successfully committing offsets{orders-5=OffsetAndMetadata{offset=197572354, leaderEpoch=null, metadata=''}}
  1. 查看error错误信息的上下文,发现有相应的warn日志:
[Consumer clientId=consumer-25, groupId=orderconsumer-my-consumer] Offset commit failed on partition order-3 at offset 197449610: The coordinator is loading and hence can't process requests.
  1. 另外 kafka server在重启的过程中也打印了相应的启动的日志,大致是__consumer_offset这个topic正在loading相关的数据。
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值