实践背景
通常来说,监控系统的四个黄金指标(Four Golden Signals,参考Goole运维解密)是错误类指标、延迟类指标、流量指标、和饱和度指标,可以在服务级别衡量终端用户体验、服务质量、业务影响等层面的问题。以一个典型的电商服务关键路径(登录->产品浏览详情页->下单)举例。
针对图中三个服务,需要设定成功率等监控指标。传统的以实例(比如 IP )为监控对象的场景下,通常会对每个服务的实例都配置告警策略,用于满足最细粒度的告警对象质量监测,但也会带来一系列痛点:
-
需要针对每个实例都配置一条告警策略,告警策略太多,维护成本高。
-
缺乏整个业务层面的监控(监控对象是3个业务,而不是每个实例)。
-
业务异常时,多个实例同时触发告警,容易引起告警风暴。
-
对于其他维度的业务质量监控能力不足,比如业务分区部署,需要看某个区的质量情况等。
针对上述痛点,Prometheus 监控服务可以提供“优雅”的解决方案。通过将监控对象从实例扩展为不同标签(label),利用Prometheus 监控服务的多维能力,可以聚合出服务层面的宏观监控指标。详见下文。
监控场景
01
服务指标的宏观维度监控&告警场景
以上述电商服务关键路径举例。服务上报指标为成功率&#x