Prometheus 一条告警的触发流程、等待时间

最新推荐文章于 2024-06-23 10:24:41 发布

weixin_30876945

最新推荐文章于 2024-06-23 10:24:41 发布

阅读量1.5k

点赞数

文章标签：大数据开发工具

原文链接：http://www.cnblogs.com/xiangsikai/p/11289966.html

版权

本文详细介绍了Prometheus告警的触发流程，包括监控数据采集、接口状态判断、Alert Rule评估、告警状态变化及Alertmanager的处理机制，如等待时间（group_wait、group_interval、repeat_interval）的设定，以及如何配置通知策略。

摘要由CSDN通过智能技术生成

Prometheus 一条告警的触发流程、等待时间

报警处理流程如下：
1. Prometheus Server监控目标主机上暴露的http接口（这里假设接口A），通过上述Promethes配置的'scrape_interval'定义的时间间隔，定期采集目标主机上监控数据。
2. 当接口A不可用的时候，Server端会持续的尝试从接口中取数据，直到"scrape_timeout"时间后停止尝试。这时候把接口的状态变为“DOWN”。
3. Prometheus同时根据配置的"evaluation_interval"的时间间隔，定期（默认1min）的对Alert Rule进行评估；当到达评估周期的时候，发现接口A为DOWN，即UP=0为真，激活Alert，进入“PENDING”状态，并记录当前active的时间；
4. 当下一个alert rule的评估周期到来的时候，发现UP=0继续为真，然后判断警报Active的时间是否已经超出rule里的‘for’ 持续时间，如果未超出，则进入下一个评估周期；如果时间超出，则alert的状态变为“FIRING”；同时调用Alertmanager接口，发送相关报警数据。

最低0.47元/天解锁文章

weixin_30876945

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Prometheus 一条告警的触发流程、等待时间

Prometheus 一条告警的触发流程、等待时间报警处理流程如下：1. Prometheus Server监控目标主机上暴露的http接口（这里假设接口A），通过上述Promethes配置的'scrape_interval'定义的时间间隔，定期采集目标主机上监控数据。2. 当接口A不可用的时候，Server端会持续的尝试从接口中取数据，直到"scrape_timeout"时间后停止...
复制链接

扫一扫