prometheus学习3：告警Alertmanager

最新推荐文章于 2024-08-29 09:45:17 发布

login_sonata

最新推荐文章于 2024-08-29 09:45:17 发布

阅读量2.5k

点赞数

分类专栏：监控告警文章标签： prometheus alertmanager 告警监控

本文链接：https://blog.csdn.net/login_sonata/article/details/89817408

版权

本文介绍了Prometheus的告警组件Alertmanager的工作原理和配置，包括告警规则、路由规则、邮件通知等。通过设置告警规则，Prometheus会在满足条件时发送告警给Alertmanager，Alertmanager则负责处理重复告警、分组及路由告警到正确的通知渠道。

摘要由CSDN通过智能技术生成

告警介绍

如下所示，通过在Prometheus中定义AlertRule（告警规则），Prometheus会周期性的对告警规则进行计算，如果满足告警触发条件就会向Alertmanager发送告警信息，以邮件等方式通知运维人员。
在这里插入图片描述
Alertmanager可以对这些告警信息进行进一步的处理，比如当接收到大量重复告警时能够消除重复的告警信息，同时对告警信息进行分组并且路由到正确的通知方。

告警规则rules

举个告警规则配置的例子，在目录/etc/prometheus/rules/下创建告警规则文件test-alert.rules内容如下：

groups:
- name: example
  rules:

  # Alert for any instance that is unreachable for >5 minutes.
  - alert: InstanceDown
    expr: up == 0
    for: 5m
    labels:
      severity: page
    annotations:
      summary: "Instance {
  { $labels.instance }} down"
      description: "{
  { $labels.instance }} of job {
  { $labels.job }} has been down for more than 5 minutes."

  # Alert for any instance that has a median request latency >1s.
  - alert: APIHighRequestLatency
    expr: api_http_request_latencies_second{quantile="0.5"} > 1
    for: 10m
    annotations:
      summary: "