Ceph 集群状态监控细化

本文探讨了在Ceph监控报警系统中,如何从简单的OK、WARN、ERROR状态细化到具体的健康问题,通过分析Ceph的HEALTH_OK、HEALTH_WARN、HEALTH_ERR状态描述,制定状态码进行Level化处理,以便更精确地了解和处理Ceph集群的夜间报警问题。
摘要由CSDN通过智能技术生成

需求

在做Ceph的监控报警系统时,对于Ceph集群监控状态的监控,最初只是简单的OK、WARN、ERROR,按照Ceph的status输出来判断的,仔细想想,感觉这些还不够,因为WARN、ERROR状态中,是包含多种状态的,如果在大晚上收到一条关于Ceph health的报警信息,只知道了集群有问题,但具体是什么问题呢,不得而知。这个事情发生在工作时间,就还好处理,直接到Ceph环境中查看一下就OK。但是在晚上,有些报警没有那么紧急,可以第二天再处理。所以,就需要细化这些健康状态。

因此,从代码中将HEALTH_OK、HEALTH_WARN、HEALTH_ERR的相关描述输出拉出来,进行判断,分类处理,然后用状态码(status code)的方式来进行Level化。

Ceph本身的健康状态信息:

HEALTH_WARN:

集群健康状态描述信息 代表的现象
Monitor clock skew detected 时钟偏移
mons down, quorum Ceph Monitor down
some monitors are running older code 部署完就可以看到,运行过程中不会出现
in osds are down OSD down后会出现
flag(s) set 标志位设置,可以忽略
crush map has legacy tunables 部署完就可以看到,运行过程中不会出现
crush map has straw_calc_version=0 部署完就可以看到,运行过程中不会出现
cache pools are missing hit_sets 使用cache tier后会出现
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值