RocketMQ/Kafka监控项整理【实战笔记】

目录
一、系统监控项
二、集群监控项
三、主题监控项
四、消费组监控项
五、发送客户端监控项
六、消费客户端监控项
七、系列文章

一、系统监控项

1.CPU

CPU使用率、CPU Load

2.内存

内存使用率

3.磁盘

磁盘使用率、磁盘IO、磁盘IOWAIT

4.带宽

带宽检测

5.实例存活

集群实例是否存活、实例端口是否可达

6.JVM监控

堆内存、Full GC时间等 

二、集群监控项

1.集群节点数量

注:比如RocketMQ集群中有4主4从;当Master节点数量小于4时

2.集群节点可用性

注:检测集群节点是否可达以及RT Time

3.集群写入TPS

注:例如集群写入TPS压测值的40%

4.集群消费TPS

注:集群消费TPS需关注带宽及CPU

5.集群写入TPS变化率

注:例如5分钟内集群TPS陡增30%

6.集群写入TPS变化率

注:例如5分钟内集群TPS陡增30%

7.集群日消息总量的变化

注:例如集群中每日的消息总量监控

8.Broker写入/消费TPS

注:单节点的写入/消费TPS

三、主题监控项
1.主题写入TPS

注:单一主题的写入速率

2.主题写入TPS的变化率

注:例如某一主题5分钟内速率陡增30%

3.主题日消息量

注:例如单一主题每日消息量

4.死信队列监控

注:RocketMQ被丢入死信队列的消息监控

四、消费组监控项
1.消费积压

注:积压量的监控

2.消费TPS

注:消费速率监控

3.消费阻塞

注:消费者隔特定时间未消费数据

4.消费速率变化

注:例如5分钟之内消费速率陡降了30%

五、发送客户端监控项
1.发送消息体大小变化

注:发送消息的大小在小于1K、1~2K、大于5K等的分布

2.发送耗时变化

注:单节点消息发送在不通时间范围内的分布

3.发送速率变化

注:单个发送节点速率变化

4.发送成功失败分布

注:消息发送成功/失败分布情况

六、消费客户端监控项
1.消费速率变化

注:单节点速率变化

2.消费耗时变化

注:单节点发送耗时分布情况

3.消费成功失败分布

注:单节点消费成功失败的分布情况

七、系列文章

RocketMQ生产环境配置【实战笔记】

RocketMQ性能测试【实战笔记】

RocketMQ性能优化【实战笔记】

RocketMQ同步复制性能优化【实战笔记】

Kafka集群平滑扩容及Leader均衡【实战笔记】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值