Grafana + Prometheus 服务器监控 Alert设置总结

2 篇文章 0 订阅

一、Docker Swarm节点服务器负载设置

        5分钟的负载报警设置,由于服务器上不同业务种类主机的cpu核算不一致。一个一个节点比较麻烦,而且后续扩容新主机,又的一个个加上麻烦。由于Docker Swarm 节点名称都是有一个某个前缀开通。某个前缀开头的代表同一类型的主机。同一类型的主机CPU,内存配置都一样。

       查阅Prometheus官方文档,精确匹配用= 或 !=,模糊匹配用~ 或 !~。这里我的需求肯定是模糊匹配。.代表一个占位符合。.*代表n个占位符合。这里我以我的主机前缀worker开头。所以5分钟负载警戒值统计如下:

node_load5 * on(instance) group_left(node_name) node_meta{node_name=~"worker-.*"}

      设置好Metric,在Graphic的Alert分页,加上5分钟内平均的告警大于阀值即可。当然如果是邮箱告警,需要配置邮箱信息。

二、添加Alert,Metric不能有变量问题。

     例如:node_load5 * on(instance) group_left(node_name) node_meta{node_id=~"$node_id"}。统计所有节点负载情况。$node_id可以用".+"替换。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值