说明
用prometheus做监控,从告警事件发生到我们收到告警信息中间经历了很多流程,了解其中的流程及相关的时间配置,就能更及时、高效的获取告警信息。
以下记录下prometheus告警生命周期/流程、相关配置参数和告警案例说明。
prometheus告警生命周期/流程
- prometheus定时采集指标数据
- prometheus定时计算是否指标触发规则
- 触发规则的指标告警状态转为pending,当持续时间超过for指定的时间后,转换为firing,并将告警发送到alertmanager
- alertmanager收到告警后,等待一段分组时间,到时间后发送告警;如果该分组又持续收到了告警,会等待一个分组告警间隔时间后,再次为该分组发送告警
- 如果该告警一直存在,alertmanager会按照重发间隔来重复发送告警
下面这张图是整个prometheus的流程全景图,能清晰的了解prometheus的告警运转流程。
时间相关参数
参数名称 | 说明 | 默认值 | 参数所属 |
---|---|---|---|
scrape_interval | 指标数据采集间隔 | 1分钟 | prometheus.yml |
evaluation_interval | 规则的计算间隔 | 1分钟 |