Kafka常见报错和jmx监控指标

日志报错总结:

日志关键字监控项说明备注
Error processing append operation on partition一个类型告警配置了正则过滤了下面的一二情况,如果仍然告警需要留意,通知相关人员。
org.apache.kafka.common.errors.UnknownProducerIdException: Found no record of producerId幂等性问题有一些一天可能只发送一条消息的,如果partition数超过7,比如设成8,设成7天的保留时间就有可能出现上面的问题,像这种消息的保留时间可以设成一个月甚至更长都没问题
org.apache.kafka.common.errors.OutOfOrderSequenceException: Out of order sequence number for producerId幂等性问题有一些一天可能只发送一条消息的,如果partition数超过7,比如设成8,设成7天的保留时间就有可能出现上面的问题,像这种消息的保留时间可以设成一个月甚至更长都没问题
org.apache.kafka.common.errors.NotEnoughReplicas: Number of insync replicas for partitionpartition在ISR中的副本,少于配置文件中要求的min.insync.replica=$配置副本同步成功最小数告警,发生此告警需要留意联系一下相关人员。
Broker may not be availablekafka broker 不可用监控需要留意集群健康情况,联系一下相关人员确认。
WARN Attempting to send response via channel for which there is no open connection5595这个报错的issue在1.0.0版本也就是我们在用的版本已经修复了不影响业务,可调源码需要留意连接zk过多情况
NotLeaderForPartionException:This server is not the leader for that topic-partition发生了leader切换就有可能报NotLeaderForPartionExceptionbroker切换是这样的,因为partiton是均衡分布在各个broker的,所以不管是预期的还是非预期的broker切换,一般都会发生一些topic partition的leader切换,如果此时在完成切换前有读写请求,就会发现短时间的报错现象,切换完就恢复了
WARN Client session timed out, have not heard from server in 4002ms for sessionid 0x100b72efc7c0006 (org.apache.zookeeper.ClientCnxn)客户端连接出现会话超时情况zk会话超时出现的原因可能有多方面,比如网络问题如流量风暴,broker本身性能如full gc影响,zk性能原因等
INFO re-registering broker info in ZK for broker 0 (kafka.server.KafkaHealthcheck$SessionExpireListener)发生了broker重连的情况zk会话超时出现的原因可能有多方面,比如网络问题如流量风暴,broker本身性能如full gc影响,zk性能原因等
Shrinking ISR from 2,0,1 to 0发生了ISR伸缩isr伸缩的原因一般有两种,一种是真的有broker出现了问题下线了,会导致isr缩容,还有一种是复制原因,从节点来不及复制副本数据,这个有可能是发送的数据太大太多
This error can be ignored if the cluster is starting up and not all brokers are up yet集群可能在重启中集群重启时可忽略
UnknownTopicOrPartitionException: This server does not host this topic-partition搜查可能bughttps://issues.apache.org/jira/browse/KAFKA-6221 从issue讨论来看是偶发的,且一段时间会恢复,不会影响集群的,可以忽略

JMX监控指标总结:
参考官网:http://kafka.apachecn.org/documentation.html#monitoring
Kafka常见报错和jmx监控指标
Kafka常见报错和jmx监控指标Kafka常见报错和jmx监控指标

zabbix监控指标:
Kafka常见报错和jmx监控指标
Kafka常见报错和jmx监控指标
Kafka常见报错和jmx监控指标Kafka常见报错和jmx监控指标Kafka常见报错和jmx监控指标

转载于:https://blog.51cto.com/renzhiyuan/2376760

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值