OpenFalcon集群监控实现
一、概述
集群监控的本质是一个聚合功能,把整个集群的机器(体现为某个HostGroup下的机器)综合起来看某项监控指标,把这个指标重新push回指定的监控server端,以便查看该指标的历史趋势图,为该指标配置报警策略,以此来达到从单个维度来监控整个集群的效果。Openfalcon集群监控是用aggregator组件配合告警模板实现,aggregator提供整个集群机器的某项指标聚合功能,告警模板配置该项指标的告警策略。
二、实现原理
用户要在某个HostGroup下去添加集群聚合规则,这个规则涵盖的机器是当前这个HostGroup下的机器。整个集群的监控指标计算是一个除法,有分子和分母。监控指标是每个机器应该都应该有的counter,每个counter在书写的时候要求用$()包裹起来,多个counter之间支持加减计算,不支持乘法、除法、括号。分子和分母不但支持配置counter,也支持配置纯数字,支持配置“$#”,“$#”表示的是正常查到数据的机器数量,具体详细信息见https://book.open-falcon.org/zh/usage/aggregator.html。
三、实现规则(参见官网说明举例)
在使用aggregator集群聚合监控时,需要进行两个配置: cluster配置和策略配置。下面举两个例子来说明cluster配置实