Prometheus度量值标签合并

Prometheus有时需要将两个度量值通过某个标签关联,相当于sql里面的连表查询如:

度量值1:

tempHealthStatus{env="dev",instance="10.135.160.4",job="lenovo",region="cn-chongqing",tempHealthStatus="Normal",tempIndex="1"}

度量值2:

tempDescr{env="dev",instance="10.135.160.4",job="lenovo",region="cn-chongqing",tempDescr="Ambient Temp",tempIndex="1"}

这两个度量值通过tempIndex做关联,可以通过如下的查询语句实现
0*tempDescr + on(tempIndex) group_left(tempHealthStatus) tempHealthStatus

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Prometheus告警合并是指将多个告警规则的触发条件合并成一个告警,以避免在短时间内接收到大量的单独告警。这可以通过使用Prometheus Alertmanager来实现。 Alertmanager是Prometheus的一个组件,它负责将Prometheus生成的告警发送到接收器(如电子邮件、PagerDuty等)。Alertmanager支持告警抑制规则,可以将多个告警合并成一个告警,从而减少重复通知。 告警合并的方法有多种,其中一种常见的方法是使用group_by选项。可以通过group_by将多个告警分组,并将它们合并成一个告警。例如,将具有相同标签的告警分组并合并成一个告警。 以下是一个示例告警规则,它将来自多个目标的CPU使用率告警合并为一个告警: ``` groups: - name: cpu_alerts rules: - alert: HighCpuUsage expr: avg(rate(node_cpu{mode="idle"}[5m])) < 10 for: 5m labels: severity: critical annotations: summary: High CPU usage across multiple targets description: "{{ $labels.instance }} has high CPU usage ({{ $value }})" group_by: [instance] group_wait: 30s group_interval: 5m repeat_interval: 1h ``` 在这个示例中,告警规则会查找CPU使用率低于10%的所有节点,并将它们分组成不同的告警。如果多个节点的CPU使用率低于10%,则这些告警将被合并为一个告警。告警合并操作会在每5分钟内执行一次,如果在30秒内没有新的告警,则会发送合并后的告警。如果在1小时内合并后的告警没有消失,则会再次发送。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值