prometheus + AlertManager 实现对多node节点CPU和内存信息的监控

首先,prometheus的安装就不介绍了,正常安装,本文主要记录关于报警rules的配置问题
 

首先是对内存信息的监控

定义rules文件,例如memory_rules.yml

groups:

-name: 自定义名字,例如 Node  Memory

  rules:

  -alert: 提示名称(按照自己需要的名称定义,会发送到需要提醒的邮箱或者微信)例如 Memory Over Load

    expr: node_memory_MemTotal_bytes -(node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 80
#用总内存减去空闲内存与缓存等公用的内存量,获取占用内存  算出比例,80是所占比80%,自定义的整数值

    for :1m  #持续的时间,指发生expr的情况出现的时间
    labels:

     severity: yellow
其余配置可根据所需信息添加
CPU监控:

主要是expr的不同:(100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m]))by (job)) * 100)  > 80 #判断非空闲的CPU比例,针对于配置多台需要监控的node(服务器)


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值