原文:https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/
警报规则使您可以基于Prometheus表达式语言定义警报条件,并将有关触发警报的通知发送到外部服务。 只要警报表达式在给定的时间点产生一个或多个矢量元素,警报就被视为这些元素的标签集处于活动状态。
定义警报规则
警报规则在Prometheus中的配置方式与记录规则相同。
带有警报的示例规则文件:
groups:
- name: example
rules:
- alert: HighRequestLatency
expr: job:request_latency_seconds:mean5m{job="myjob"} > 0.5
for: 10m
labels:
severity: page
annotations:
summary: High request latency
可选的for参数使Prometheus在第一次遇到新的表达式输出向量元素与将警报计为对此元素的触发进行计数之间等待一段时间。 在这种情况下,Prometheus将在每次发出警报之前检查警报在10分钟内是否继续处于活动状态。 元素处于活动状态,但尚未触发,而是处于挂起状态。
labels参数允许指定一组附加标签来附加到警报。 任何现有的冲突标签都将被覆盖。 标