基于 Prometheus 监控服务多维能力告警优化实践

最新推荐文章于 2023-06-14 17:52:49 发布

Tencent_Monitor

最新推荐文章于 2023-06-14 17:52:49 发布

阅读量637

点赞数

文章标签：前端数据库 javascript

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38389696/article/details/123316379

版权

实践背景

通常来说，监控系统的四个黄金指标（Four Golden Signals,参考Goole运维解密）是错误类指标、延迟类指标、流量指标、和饱和度指标，可以在服务级别衡量终端用户体验、服务质量、业务影响等层面的问题。以一个典型的电商服务关键路径（登录->产品浏览详情页->下单）举例。

针对图中三个服务，需要设定成功率等监控指标。传统的以实例(比如 IP )为监控对象的场景下，通常会对每个服务的实例都配置告警策略，用于满足最细粒度的告警对象质量监测，但也会带来一系列痛点：

需要针对每个实例都配置一条告警策略，告警策略太多，维护成本高。
缺乏整个业务层面的监控(监控对象是3个业务，而不是每个实例)。
业务异常时，多个实例同时触发告警，容易引起告警风暴。
对于其他维度的业务质量监控能力不足，比如业务分区部署，需要看某个区的质量情况等。

针对上述痛点，Prometheus 监控服务可以提供“优雅”的解决方案。通过将监控对象从实例扩展为不同标签（label），利用Prometheus 监控服务的多维能力，可以聚合出服务层面的宏观监控指标。详见下文。

监控场景

01

服务指标的宏观维度监控&告警场景

以上述电商服务关键路径举例。服务上报指标为成功率&#x

最低0.47元/天解锁文章

Tencent_Monitor

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于 Prometheus 监控服务多维能力告警优化实践

实践背景通常来说，监控系统的四个黄金指标（Four Golden Signals,参考Goole运维解密）是错误类指标、延迟类指标、流量指标、和饱和度指标，可以在服务级别衡量终端用户体验、服务质量、业务影响等层面的问题。以一个典型的电商服务关键路径（登录->产品浏览详情页->下单）举例。针对图中三个服务，需要设定成功率等监控指标。传统的以实例(比如 IP )为监控对象的场景下，通常会对每个服务的实例都配置告警策略，用于满足最细粒度的告警对象质量监测，但也会带来一系列痛点：需要针对每个实例都配置一
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。