prometheus告警group_wait&repeat_interval

  1. 1分钟内文件没有恢复告警
root@monitor-alarm:/usr/local/prometheus/prometheus# cat alert.rules.yml
groups:
- name: alert.rules
  rules:
  - alert: cpu_usage_over_threshold
    expr: 100 - avg(irate(node_cpu_seconds_total{
   mode="idle"}[1m])) by (alarmhost) * 100  > 90
    # Alarm duration
    for: 60s
    label:
      severity: "critical"
    annotatio
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Prometheus告警合并是指将多个告警规则的触发条件合并成一个告警,以避免在短时间内接收到大量的单独告警。这可以通过使用Prometheus Alertmanager来实现。 AlertmanagerPrometheus的一个组件,它负责将Prometheus生成的告警发送到接收器(如电子邮件、PagerDuty等)。Alertmanager支持告警抑制规则,可以将多个告警合并成一个告警,从而减少重复通知。 告警合并的方法有多种,其中一种常见的方法是使用group_by选项。可以通过group_by将多个告警分组,并将它们合并成一个告警。例如,将具有相同标签的告警分组并合并成一个告警。 以下是一个示例告警规则,它将来自多个目标的CPU使用率告警合并为一个告警: ``` groups: - name: cpu_alerts rules: - alert: HighCpuUsage expr: avg(rate(node_cpu{mode="idle"}[5m])) < 10 for: 5m labels: severity: critical annotations: summary: High CPU usage across multiple targets description: "{{ $labels.instance }} has high CPU usage ({{ $value }})" group_by: [instance] group_wait: 30s group_interval: 5m repeat_interval: 1h ``` 在这个示例中,告警规则会查找CPU使用率低于10%的所有节点,并将它们分组成不同的告警。如果多个节点的CPU使用率低于10%,则这些告警将被合并为一个告警告警合并操作会在每5分钟内执行一次,如果在30秒内没有新的告警,则会发送合并后的告警。如果在1小时内合并后的告警没有消失,则会再次发送。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值