数据库自治平台 KAP 监控告警架构及实例演示

文章介绍了KAP作为KaiwuDB自治服务工具的监控告警功能,包括监控整体运行情况、实时性能监测、定制化模板展示指标数据。告警管理基于配置规则进行,确保集群服务稳定性和安全性。文章还详细讨论了metric指标的采集、类型、存储以及告警的实现机制,如告警规则、告警通道和告警订阅。
摘要由CSDN通过智能技术生成

对 KAP 监控告警架构感兴趣的小伙伴,记得点击下方观看直播回放哦 ↓ ↓ ↓

直播重点回顾

01. KAP 监控告警功能介绍

KAP 是 KaiwuDB 的自治服务工具,在 KAP 中监控主要是帮助用户全面掌握 KaiwuDB 集群的整体运行情况,实时监测集群相关性能,并支持定制化的模板展示各种指标数据。

在告警管理中系统可以根据配置的规则、订阅、通知等信息进行告警,帮助用户及早发现问题、解决问题,从而提高被监控集群持续服务的能力,有效保障数据库服务的稳定性、安全及可靠性。

02. 监控告警的技术架构

KAP 的监控告警实现了多集群监控指标及日志的采集、存储,支持平台监控展示和告警监测和推送。具体流程如下图所示:

03. 监控实现

(1)metric 指标采集

metrics 由 metric name 和 label name 组成。

{=,…},存储相关指标名称如下表所示:

(2)指标类型:

  • Counter(计数器):累计度量指标,只能递增、不能为负,也不支持减少,但可以重置回 0;

  • Gauge(仪表盘):用于存储有着起伏特征的指标数据,例如内存空闲大小;

  • Histogram(直方图):对每个采样点进行统计,打到各个分类值中(bucket);对每个采样点值累计和(sum);对采样点的次数累计和(count);

  • Summary(摘要):Histogram 的扩展类型,直接由监控端自行聚合计算出分位数,并计算结果给 prometheus server 的样本采取请求。

(3)metric 指标存储

metric 指标占用磁盘大小估算方式:磁盘大小 = metric 保留时间 * 每秒获取样本数 * 样本大小。

可以通过修改配置参数调整指标保留时间,在保留时间和样本大小不变的情况下,如果想减少本地磁盘的容量需求,可以减少时间序列的数量。因此一个 metric 的 label 数量也不应该过多,单个 metric 的 label 数量尽量保持在 10 个以内。

(4)监控指标可视化

监控哪些内容,不同的集群,不同的业务需求都不相同,且展示可能会随着时间推移发生变化,这就需要根据业务与集群的要求去定制,使监控更加灵活、扩展性更强。

04. 告警实现

  • 告警规则管理可支持设置指标触发规则、告警范围、告警等级、告警详情等信息,系统根据定制的规则检测指标值,满足触发条件后生成告警事件;

  • 告警通道,是告警事件发送的通道,使告警事件、告警日志、错误日志推送至配置好的服务器;

  • 告警订阅实现用户根据需要推送告警规则。支持用户自定义告警信息发送方式,即通过哪些通道推送哪些分组内告警事件信息。如不配置订阅则只能在告警事件中查看告警信息;

  • 告警事件中用户可以查看历史产生的告警事件,点击时间可查看对应告警事件的详情。了解发生告警的节点、产生时间、恢复时间、最后一次告警时间、告警概述、告警详情,以及告警通知信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值