目录
一、系统监控项
二、集群监控项
三、主题监控项
四、消费组监控项
五、发送客户端监控项
六、消费客户端监控项
七、系列文章
一、系统监控项
1.CPU
CPU使用率、CPU Load
2.内存
内存使用率
3.磁盘
磁盘使用率、磁盘IO、磁盘IOWAIT
4.带宽
带宽检测
5.实例存活
集群实例是否存活、实例端口是否可达
6.JVM监控
堆内存、Full GC时间等
二、集群监控项
1.集群节点数量
注:比如RocketMQ集群中有4主4从;当Master节点数量小于4时
2.集群节点可用性
注:检测集群节点是否可达以及RT Time
3.集群写入TPS
注:例如集群写入TPS压测值的40%
4.集群消费TPS
注:集群消费TPS需关注带宽及CPU
5.集群写入TPS变化率
注:例如5分钟内集群TPS陡增30%
6.集群写入TPS变化率
注:例如5分钟内集群TPS陡增30%
7.集群日消息总量的变化
注:例如集群中每日的消息总量监控
8.Broker写入/消费TPS
注:单节点的写入/消费TPS
三、主题监控项
1.主题写入TPS
注:单一主题的写入速率
2.主题写入TPS的变化率
注:例如某一主题5分钟内速率陡增30%
3.主题日消息量
注:例如单一主题每日消息量
4.死信队列监控
注:RocketMQ被丢入死信队列的消息监控
四、消费组监控项
1.消费积压
注:积压量的监控
2.消费TPS
注:消费速率监控
3.消费阻塞
注:消费者隔特定时间未消费数据
4.消费速率变化
注:例如5分钟之内消费速率陡降了30%
五、发送客户端监控项
1.发送消息体大小变化
注:发送消息的大小在小于1K、1~2K、大于5K等的分布
2.发送耗时变化
注:单节点消息发送在不通时间范围内的分布
3.发送速率变化
注:单个发送节点速率变化
4.发送成功失败分布
注:消息发送成功/失败分布情况
六、消费客户端监控项
1.消费速率变化
注:单节点速率变化
2.消费耗时变化
注:单节点发送耗时分布情况
3.消费成功失败分布
注:单节点消费成功失败的分布情况
七、系列文章