前言
在前面的文章中,笔者详细的阐述了Prometheus的数据插入存储查询等过程。但作为一个监控神器,报警计算功能是必不可少的。自然的Prometheus也提供了灵活强大的报警规则可以让我们自由去发挥。在本篇文章里,笔者就带读者去看下Prometheus内部是怎么处理报警规则的。
报警架构
Prometheus只负责进行报警计算,而具体的报警触发则由AlertManager完成。如果我们不想改动AlertManager以完成自定义的路由规则,还可以通过webhook外接到另一个系统(例如,一个转换到kafka的程序)。
在本篇文章里,笔者并不会去设计alertManager,而是专注于Prometheus本身报警规则的计算逻辑。
一个最简单的报警规则
rules:
alert: HTTPRequestRateLow
expr: http_requests < 100
for: 60s
labels:
severity: warning
annotations:
description: "http request rate low"
这上面的规则即是http请求数量<100从持续1min,则我们开始报警,报警级别为warning
什么时候触发这个计算
在加载完规则之后,Prometheus按照evaluation_interval这个全局配置去不停的计算Rules。代码逻辑如下所示:
rules/manager.go
func (g *Group) run(ctx context.Context) {
iter := func() {
......
g.Eval(ctx,evalTimestamp)
......
}
// g.interval = evaluation_interval
tick := time.NewTicker(g.interval)
defer tick.Stop()
......
for {
......
case <-tick.C:
......
iter()
}
}
而g.Eval的调用为:
func (g *Group) Eval(ctx context.Context, ts time.Time) {
// 对所有的rule
for i, rule := range g.rules {
......
// 先计算出是否有符合rule的数据
vector, err := rule.Eval(ctx, ts, g.opts.QueryFunc, g.opts.ExternalURL)
......
// 然后发送
ar.sendAlerts(ctx, ts, g.opts.ResendDelay, g.interval, g.opts.NotifyFunc)
}
......
}
整个过程如下图所示:
对单个rule的计算
我们可以看到,最重要的就是rule.Eval这个函数。代码如下所示:
func (r *AlertingRule) Eval(ctx context.Context, ts time.Time, query QueryFunc, externalURL *url.URL) (promql.Vector, error) {
// 最终调用了NewInstantQuery
res, err = query(ctx,r.vector.String(),ts)
......
// 报警组装逻辑
......
// active 报警状态变迁
}
这个Eval包含了报警的计算/组装/发送的所有逻辑。我们先聚焦于最重要的计算逻辑。也就是其中的query。其实,这个query是对NewInstantQuery的一个简单封装。
func EngineQueryFunc(engine *promql.Engine, q storage.Queryable) QueryFunc {
return func(ctx context.Context, qs string, t time.Time) (promql.Vector, error) {
q, err := engine.NewInstantQuery(q, qs, t)
......
res := q.Exec(ctx)
}
}
也就是说它执行了一个瞬时向量的查询。而其查询的表达式按照我们之前给出的报警规则,即是
**http_requests < 100 **
既然要计算表达式,那么第一步,肯定是将其构造成一颗AST。其树形结构如下图所示:
解析出左节点是个VectorSelect而且知道了其lablelMatcher是
__name__:http_