背景
前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。
虽然我们有个监控页面可以根据 topic 维度查看他的发送状态,比如速率、流量、消费状态等信息。
但也有几个问题:
无法在应用维度查看他所依赖的所有 topic 的各种状态。
监控的信息还不够,比如发送/消费延迟、发送/消费失败等数据。
总之就是缺少一个全局的监控视角,通过这些指标可以很方便的分析出当时的运行情况。
基于这个需求经过一段时间的折腾,现在已经上线使用几个月,目前比较稳定,效果图如下: