Kafka服务不可用(宕机)问题踩坑记

线上日志收集服务遇到Kafka宕机导致502错误,通过检查线程存活、GC日志及Broker日志未发现明显问题。最终通过重启Kafka暂时解决问题,怀疑可能是网络或Kafka自身bug,计划升级Kafka版本以避免类似问题。
摘要由CSDN通过智能技术生成
背景

某线上日志收集服务报警,打开域名报502错误码。 收集服务由2台netty HA服务器组成,netty服务器将客户端投递来的protobuf日志解析并发送到kafka,打开其中一个应用的日志,发现如下报错:

org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s) 

在排除了netty服务的错误之后,去查看kafka的日志。 发现报错,排查过程如下;

配置信息
系统 kafka版本 broker数量
CentOS7.4 2.1.0 3

线上有三台Kafka Broker,id分别为0、1、2,服务器只部署了Kafka服务。

问题
线程是否存活

首先jps查看Kafka线程是否存活,三台机器都没问题,kafka依然在运行。

GC问题

查看kafkaServer-gc.log.1.current的日志,gc日志没发现异常。

Broker 0/server.log
[2019-08-02 15:17:03,699] WARN Attempting to send response via channel for which there is no open connection, connection id 172.21.3.14:9092-172.21.3.11:54311-107706 (kafka.network.Processor)
[2019-08-02 15:19:12,490] INFO [GroupMetadataManager brokerId=0] Removed 0 expired offsets in 0 milliseconds. (kafka.coordinator.group.GroupMetadataManager) [2019-08-02 15:26:54,405] INFO [ReplicaFetcher replicaId=0, leaderId=1, fetcherId=0] Error sending fetch request (sessionId=1112819217, epoch=1897450) to node 1: java.io.IOException: Connection to 1 was disconnected before the response was read. (org.apache.kafka.clients.FetchSessionHandler) [2019-08-02 15:26:54,411] WARN [Re
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值