首先,prometheus的安装就不介绍了,正常安装,本文主要记录关于报警rules的配置问题
首先是对内存信息的监控
定义rules文件,例如memory_rules.yml
groups:
-name: 自定义名字,例如 Node Memory
rules:
-alert: 提示名称(按照自己需要的名称定义,会发送到需要提醒的邮箱或者微信)例如 Memory Over Load
expr: node_memory_MemTotal_bytes -(node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 80
#用总内存减去空闲内存与缓存等公用的内存量,获取占用内存 算出比例,80是所占比80%,自定义的整数值
for :1m #持续的时间,指发生expr的情况出现的时间
labels:
severity: yellow
其余配置可根据所需信息添加
CPU监控:
主要是expr的不同:(100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m]))by (job)) * 100) > 80 #判断非空闲的CPU比例,针对于配置多台需要监控的node(服务器)