prometheus + AlertManager 实现对多node节点CPU和内存信息的监控

最新推荐文章于 2024-08-12 19:46:31 发布

Lskying

最新推荐文章于 2024-08-12 19:46:31 发布

阅读量3k

点赞数

分类专栏：学习笔记文章标签： prometheus alerting 多node CPU

本文链接：https://blog.csdn.net/qq_25178661/article/details/86690729

版权

学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

首先，prometheus的安装就不介绍了，正常安装，本文主要记录关于报警rules的配置问题

首先是对内存信息的监控

定义rules文件，例如memory_rules.yml

groups:

-name: 自定义名字，例如 Node Memory

rules:

-alert: 提示名称（按照自己需要的名称定义，会发送到需要提醒的邮箱或者微信）例如 Memory Over Load

expr: node_memory_MemTotal_bytes -(node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 80
#用总内存减去空闲内存与缓存等公用的内存量，获取占用内存算出比例，80是所占比80%，自定义的整数值

for :1m #持续的时间，指发生expr的情况出现的时间
labels:

severity: yellow
其余配置可根据所需信息添加
CPU监控：

主要是expr的不同：(100-(avg(irate(node_cpu_seconds_total{mode="idle"}[5m]))by (job)) * 100) > 80 #判断非空闲的CPU比例，针对于配置多台需要监控的node(服务器)