服务名 | 指标 | 具体含义 | 时间间隔 | Warning | High | Disaster | 备注 |
RabbitMQ | rabbitmq deliver rate | 集群中总的delive数据 | >25000 | >30000 | >32000 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |
rabbitmq exchanges num | 集群中总的exchange数量 | >25(未开启) | (未开启) | (未开启) | |||
rabbitmq node disk free limit | 硬盘超过水位线 | 内存2倍(正常32G) | 内存2倍(正常32G) | 内存2倍(正常32G) | |||
rabbitmq node memory limit | 内存超过水位线 | >20% | >25% | >30% | |||
rabbitmq node partitions | 网络分区 | >2 | >2 | ||||
rabbitmq queues num | 一个exchange绑定队列的总数 | >3已关闭 | 已关闭 | 已关闭 | |||
rabbitmq node running status | node节点状态 | >0 | >0 | ||||
rabbitmq node memory used | CPU使用率 | >40% | 是 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |||
CPU load is overloaded (high) | CPU负载 | >cpu总量二分之一 | >cpu总量二分之一 | >cpu总量二分之一 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | ||
生产者连接失败 | 在调试 | 通过connetctions总的连接数做对比,如果比上次发了连接,则通过cmdb查找对应的IP 和App发告警给对应负责人 | |||||
消费者绑定失败 | 在调试 | 通过connetctions总的连接数做对比,如果比上次发了连接,则通过cmdb查找对应的IP 和App发告警给对应负责人 | |||||
Rabbitmq vhost {#VHOST} {#EXCHANGE} message rate in more than {$MESSAGE_RATE_IN} | Exchange消息进入的速率 | >3000 | >3500 | >4000 | 每秒不超过3000 | ||
Rabbitmq vhost {#VHOST} {#EXCHANGE} message rate out more than 90000 | Exchange消息出去的速率 | >9000 | >10000 | >13000 | 每秒不超过9000 | ||
Queues消费者提交的速率 | >3000在调试 | >3500在调试 | >4000在调试 | 每秒不超过3000 | |||
Queues消费者接收的速率 | >3000在调试 | >3500在调试 | >4000在调试 | 每秒不超过3000 | |||
{#VHOST} {#EXCHANGE} binding | exchange新增变更 | >N+1 | 无 | 无 | 在原有exchange的基础上新增都发Warning告警通知 | ||
Rabbitmq vhost {#VHOST} {#CONNECTIONS} {#PORT} 发送数据包大于{$PACKET_SEND}B | 每秒发出的数据包 | >500kb | >800kb | >1024kb | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | ||
Rabbitmq vhost {#VHOST} {#CONNECTIONS} {#PORT} 接收数据包大于{$PACKET_SEND}B | 每秒收到的数据包 | >500kb | 是>800kb | >1024kb | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | ||
Rabbitmq vhost {#VHOST} {#CONNECTIONS} port {#PORT} state flow | flow | flow | 一次触发告警 | ||||
网络流量 | >200M在调试 | >250M在调试 | >300M在调试 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |||
硬盘ops | >400在调试 | >500在调试 | >600在调试 | 第一次取值为: Information,持续3分钟为:Warning 持续5分钟为High | |||
Memory增量 | Mem环比增加>20%在调试 | Mem环比增加>30%在调试 | Mem环比增加>35%在调试 | 根据24小时最高值计算环比增加>20%触发告警 | |||
CPU增量 | CPU环比增加>10%在调试 | CPU环比增加>20%在调试 | CPU环比增加>30%在调试 | 根据24小时最高值计算环比增加>10%触发告警 | |||
Zabbix监控rabbitmq参数和水位
于 2022-07-14 08:50:17 首次发布