运维人员如何利用Logi-KafkaManager了解、管控Kafka集群

最新推荐文章于 2024-07-01 12:29:06 发布

「已注销」

最新推荐文章于 2024-07-01 12:29:06 发布

阅读量344

点赞数

分类专栏：滴滴专家小课堂文章标签： kafka 分布式大数据运维 apache

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/didi_cloud/article/details/117532072

版权

本文详细介绍了运维人员如何使用Logi-KafkaManager了解和管控Kafka集群。内容包括集群概览、实时和历史流量监控、Broker信息、Leader Rebalance操作、Topic和Partition信息、磁盘与消费者信息、Region和逻辑集群管理，以及限流信息的查看。通过对各项功能的深入解析，帮助运维人员更好地管理和优化Kafka集群。

摘要由CSDN通过智能技术生成

前面的文章中，我们简单介绍了如何接入集群，以及Topic的申请和配额申请。这个时候，我们还不是很了解Logi-KafkaManager究竟有哪些优点，还有如何去管理如此众多的kafka集群。

那么今天这篇文章，就让我们来详细了解一下——运维人员是如何去了解和管控我们所有的集群的。

A.运维管控

运维管控这个菜单栏目下面主要是供运维人员来管理所有集群的。

B.接入集群

如何接入集群请看往期内容CSDN好文分享 | Kafka的灵魂伴侣滴滴Logi-KafkaManager

C.物理集群列表

物理集群列表列出了所有物理集群，点击一个物理集群进去可以看到看详细信息。

如果没有信息请检查一下是否正确开启了JMX; ==> JMX-连接失败问题解决

请点击github Logi-KafkaManager/docs/dev_guide/connect_jmx_failed.md查看

Github地址：https://z.didi.cn/4newP

1、集群概览

A.实时流量

指标说明因为我之前发送和消费过消息，所以为了不被之前的数据干扰，我们把Broker重启一下，这样Jmx的数据就会清0了。历史数据清除就去数据库中把_metrics结尾的表数据全部清空即可。接着可以执行下面的代码，验证一下实时流量的指标准不准确，下面的代码表示的是：60秒发送60条消息、每条消息大小1个字节、但是在这60秒内只发送一次消息，因为linger.ms=60000，所以设置为60秒后发送。那么期望中的实时指标就是：

messagesIn：每秒发送到kafka的消息条数 = 1条；

byteIn：每秒发送到kafka的字节数 = 1字节；

totalProduceReques：每秒总共发送的请求数 = 1/60=0.017 这里是请求数量，因为60s内实际上只发送了一次请求；

执行代码后看看结果，基本上是符合我们预期的，看来实时流量数据还是很准确的。

除了上面几个指标之外，我们还应该关注下面这几个异常指标。正常情况下他们都是0，如果出现不为0的情况说明可能有异常，运维同学此时就应该去查查异常日志了。

1、byteRejected(B/s) ：每秒被拒绝的字节数

2、failedFetchRequest ：每秒拉取失败的请求数

3、failedProduceRequest ：每秒发送失败的请求数

消息条数/总请求数messageIn/totalProduceRequest 也可以关注一下，假如他们的结果=1，说明没有批量发送，一条消息只发送了一个请求。

B.历史流量

指标说明

历史数据都存放在_metrics结尾的表中。

2、Broker信息

上图左侧部分，是对所有Broker峰值使用率的看板，可以通过这个图简单了解一下Broker的峰值情况。有同学要问了：这个使用率是怎么计算的？计算的到底准不准确？这得去源码里面看看，这个图我们仅作为一个参考值来了解。<

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。