Prometheus时序数据库-报警的计算及 Prometheus时序数据库-数据的查询

最新推荐文章于 2024-06-21 16:50:24 发布

90后小伙追梦之路

最新推荐文章于 2024-06-21 16:50:24 发布

阅读量2.2k

点赞数 1

分类专栏： java 架构面试文章标签：时序数据库数据库 database 分布式缓存

本文链接：https://blog.csdn.net/m0_67322837/article/details/125004715

版权

本文详细探讨了Prometheus的报警计算机制，包括报警规则、触发条件及状态变迁，并介绍了数据查询的重点，如Promql、瞬时向量查询和表达式计算过程，帮助读者深入了解Prometheus监控系统的内部工作原理。

摘要由CSDN通过智能技术生成

前言

在前面的文章中，笔者详细的阐述了Prometheus的数据插入存储查询等过程。但作为一个监控神器，报警计算功能是必不可少的。自然的Prometheus也提供了灵活强大的报警规则可以让我们自由去发挥。在本篇文章里，笔者就带读者去看下Prometheus内部是怎么处理报警规则的。

报警架构

Prometheus只负责进行报警计算，而具体的报警触发则由AlertManager完成。如果我们不想改动AlertManager以完成自定义的路由规则，还可以通过webhook外接到另一个系统(例如,一个转换到kafka的程序)。

在本篇文章里，笔者并不会去设计alertManager,而是专注于Prometheus本身报警规则的计算逻辑。

一个最简单的报警规则

rules:
	alert: HTTPRequestRateLow
	expr: http_requests < 100
	for: 60s
	labels:
		severity: warning
	annotations:
		description: "http request rate low"

这上面的规则即是http请求数量<100从持续1min,则我们开始报警，报警级别为warning

什么时候触发这个计算

在加载完规则之后，Prometheus按照evaluation_interval这个全局配置去不停的计算Rules。代码逻辑如下所示:

rules/manager.go

func (g *Group) run(ctx context.Context) {
	iter := func() {
		......
		g.Eval(ctx,evalTimestamp)
		......
	}
	// g.interval = evaluation_interval
	tick := time.NewTicker(g.interval)
	defer tick.Stop()
	......
	for {
		......
		case <-tick.C:
			......
			iter()
	}
}

而g.Eval的调用为:

func (g *Group) Eval(ctx context.Context, ts time.Time) {
	// 对所有的rule
	for i, rule := range g.rules {
		......
		// 先计算出是否有符合rule的数据
		vector, err := rule.Eval(ctx, ts, g.opts.QueryFunc, g.opts.ExternalURL)
		......
		// 然后发送
		ar.sendAlerts(ctx, ts, g.opts.ResendDelay, g.interval, g.opts.NotifyFunc)
	}
	......
}

整个过程如下图所示:

对单个rule的计算
我们可以看到，最重要的就是rule.Eval这个函数。代码如下所示:

func (r *AlertingRule) Eval(ctx context.Context, ts time.Time, query QueryFunc, externalURL *url.URL) (promql.Vector, error) {
	// 最终调用了NewInstantQuery
	res, err = query(ctx,r.vector.String(),ts)
	......
	// 报警组装逻辑
	......
	// active 报警状态变迁
}

这个Eval包含了报警的计算/组装/发送的所有逻辑。我们先聚焦于最重要的计算逻辑。也就是其中的query。其实，这个query是对NewInstantQuery的一个简单封装。

func EngineQueryFunc(engine *promql.Engine, q storage.Queryable) QueryFunc {
	return func(ctx context.Context, qs string, t time.Time) (promql.Vector, error) {
		q, err := engine.NewInstantQuery(q, qs, t)
		......
		res := q.Exec(ctx)
	}
}

也就是说它执行了一个瞬时向量的查询。而其查询的表达式按照我们之前给出的报警规则，即是
**http_requests < 100 **
既然要计算表达式，那么第一步，肯定是将其构造成一颗AST。其树形结构如下图所示:

解析出左节点是个VectorSelect而且知道了其lablelMatcher是

__name__:http_

最低0.47元/天解锁文章

90后小伙追梦之路

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Prometheus时序数据库-报警的计算及 Prometheus时序数据库-数据的查询

前言在前面的文章中，笔者详细的阐述了Prometheus的数据插入存储查询等过程。但作为一个监控神器，报警计算功能是必不可少的。自然的Prometheus也提供了灵活强大的报警规则可以让我们自由去发挥。在本篇文章里，笔者就带读者去看下Prometheus内部是怎么处理报警规则的。报警架构Prometheus只负责进行报警计算，而具体的报警触发则由AlertManager完成。如果我们不想改动AlertManager以完成自定义的路由规则，还可以通过webhook外接到另一个系统(例如,一个转换到
复制链接

扫一扫