通过Alertmanager实现Prometheus的告警
告警配置
Prometheus本身不支持的告警功能,主要通过插件Alertmanager来实现告警。Alertmanager用于接收Prometheus发送的告警信息并对告警进行一系列的处理后发送给指定的用户或组。
docker pull prom/alertmanager
启动alertmanager镜像
docker run -d -p 9093:9093 --name my_alertmanager prom/alertmanager
- -p 本机端口和容器启动端口映射
- -d 后台运行
- --name 容器名称
- prom/alertmanager 镜像
配置告警信息
global:
smtp_smarthost: 'smtp.qq.com:465'
smtp_from: '1811461563@qq.com'
smtp_auth_username: '1811461563@qq.com'
smtp_auth_password: 'mgkrvlkublozdhja' # 这里是邮箱的授权密码,不是登录密码
smtp_require_tls: false #要设置后才能发送成功,默认是true
route: # route用来设置报警的分发策略
group_by: 'alertname' # 采用哪个标签来作为分组依据
group_wait: 10s # 组告警等待时间。也就是告警产生后等待10s,如果有同组告警一起发出
group_interval: 20s # 两组告警的间隔时间
repeat_interval: 1h # 重复告警的间隔时间,减少相同邮件的发送频率
receiver: 'mail' # 设置默认接收人
receivers:
- name: 'mail'
email_configs: - to: '1811461563@qq.com'
inhibit_rules: - source_match:
severity: 'critical'
target_match:
severity: 'warning'
equal: 'alertname', 'dev', 'instance'
配置告警规则
alert:报警规则名称
expr:基于PromQL表达式告警触发条件,用于计算是否有时间序列满足该条件。
for:评估等待时间,可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为pending。
labels:自定义标签,允许用户指定要附件到告警上的一组附加标签
annotations:用于指定一组附加信息,比如用于描述告警详细信息的文字等,annotations的内容在告警产生时会一同作为参数发送到Alertmanager
启动prometheus 挂载prometheus和告警规则文件
docker run -d -p 9090:9090 -v /opt/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml -v /opt/prometheus/node_rule.yml:/etc/prometheus/node_rule.yml -v /etc/localtime:/etc/localtime:ro prom/prometheus
添加钉钉接收告警
首先先注册钉钉,然后创建一个群,添加机器人
添加机器人
群设置--智能群助手--添加自定义模板
机器人名称
安全设置说明文档详情链接:自定义机器人安全设置 - 钉钉开放平台
推荐使用加签方式
通过 curl ipinfo.io 查看服务器的公网ip
点击完成到此对于我们最重要的一点是这里的Webhook。
因为使用钉钉告警的话,还需要钉钉插件prometheus-webhook-dingtalk支持
安装钉钉插件(prometheus-webhook-dingtalk)
docker 安装prometheus-webhook-dingtalk
docker pull timonwong/prometheus-webhook-dingtalk
启动prometheus-webhook-dingtalk
docker run -d --name webhook -p 8060:8060 timonwong/prometheus-webhook-dingtalk
或者通过docker run -d --name webhook -p 8060:8060 -v /opt/prometheus/dingtalk/config.yml:/etc/prometheus-webhook-dingtalk/config.yml -v /etc/localtime:/etc/localtime:ro timonwong/prometheus-webhook-dingtalk 在启动的时候外部挂载钉钉的配置文件config.yml
alertmanager配置发送钉钉告警
修改prometheus-webhook-dingtalk下的config.yml配置文件
targets:
webhook1:
- url: 这里将从钉钉机器人那复制过来的webhook地址粘贴
url: https://oapi.dingtalk.com/robot/send?access_token=b4a03644b0fb264da0be1e0faecfb10ee5d97228a909d45f376b52467afdc6e2
配置alermanager.yml添加钉钉告警
# 这里的 url: 'http://prometheus-webhook-dingtalk的服务器的ip地址:端口/config.yml中的分组名称/send'
alertmanager发送告警到多个渠道
通常告警消息的 Lable 匹配 match 之后,不会继续向下匹配。通过 continue: true 能够使告警消息继续向下匹配。
下图当发生alertname="InstanceDown"的告警时,匹配到钉钉的告警之后会继续向下匹配。所以发生alertname="InstanceDown"告警时会同时发送给钉钉和QQ邮箱