Prometheus 之钉钉报警

空中连线

已于 2024-06-15 08:47:25 修改

阅读量557

点赞数 20

文章标签： prometheus

于 2024-06-14 15:15:44 首次发布

本文链接：https://blog.csdn.net/MCB134/article/details/139680625

版权

当 Prometheus 通过 Exporter 采集到相应的监控指标样本数据后，我们就可以通过PromQL 对监控样本数据进行查询，从而对相应的数据样本进行分析以及制定报警规则。

一. Alertmanager 发送告警的介绍

Prometheus 对指标的收集、存储与告警能力分属于 Prometheus Server 和 AlertManager 两个独立的组件，前者仅负责定义告警规则生成告警通知，具体的告警操作则由后者完成。

Alertmanager 负责处理由 Prometheus Server 发来的告警通知，Alertmanager对告警通知进行分组、去重后，根据路由规则将其路由到不同的receiver，如：Email、钉钉或企业微信等。

1 Altermanager还支持对告警进行去重、分组、抑制、静默和路由等功能：

●分组（Grouping）：将相似告警合并为单个告警通知的机制，在系统因大面积故障而触发告警潮时，分组机制能避免用户被大量的告警噪声淹没，进而导致关键信息的隐没

●抑制（Inhibition）：系统中某个组件或服务故障而触发告警通知后，那些依赖于该组件或服务的其它组件或服务可能也会因此而触发告警，抑制便是避免类似的级联告警的一种特性，从而让用户能将精力集中于真正的故障所在

●静默（Silent）：是指在一个特定的时间窗口内，即便接收到告警通知，Alertmanager也不会真正向用户发送告警信息的行为；通常，在系统例行维护期间，需要激活告警系统的静默特性

●路由（route）：用于配置Alertmanager如何处理传入的特定类型的告警通知，其基本逻辑是根据路由匹配规则的匹配结果来确定处理当前告警通知的路径和行为

2 Prometheus报警处理流程

1）Prometheus Server 监控目标主机上暴露的 http接口（假设接口A），通过Promethes配置的'scrape_interval' 定义的时间间隔，定期采集目标主机上监控数据。

2）当接口A不可用的时候，Server 端会持续的尝试从接口中取数据，直到 "scrape_timeout" 时间后停止尝试。这时候把接口的状态变为 "DOWN"。

3）Prometheus 同时根据配置的 evaluation_interval 的时间间隔，定期（默认1min）的对 Alert Rule 进行评估；当到达评估周期的时候，发现接口A为 DOWN，即 UP=0 为真，激活 Alert，进入 PENDING 状态，并记录当前 active 的时间；

4）当下一个 alert rule 的评估周期到来的时候，发现 UP=0 继续为真，然后判断警报 Active 的时间是否已经超出 rule 里的 for 持续时间，如果未超出，则进入下一个评估周期；如果时间超出，则 alert 的状态变为 FIRING；同时调用 Alertmanager 接口，发送相关报警数据。

5）AlertManager 收到报警数据后，会将警报信息进行分组，然后根据 alertmanager 配置的 group_wait 时间先进行等待。等 wait 时间过后再发送报警信息。

6）属于同一个 Alert Group的警报，在等待的过程中可能进入新的 alert，如果之前的报警已经成功发出，那么间隔 group_interval 的时间间隔后再重新发送报警信息。比如配置的是邮件报警，那么同属一个 group 的报警信息会汇总在一个邮件里进行发送。

7）如果 Alert Group里的警报一直没发生变化并且已经成功发送，等待 repeat_interval 时间间隔之后再重复发送相同的报警邮件；如果之前的警报没有成功发送，则相当于触发第6条条件，则需要等待 group_interval 时间间隔后重复发送。

8）同时最后至于警报信息具体发给谁，满足什么样的条件下指定警报接收人，设置不同报警发送频率，这里使用 alertmanager 的 route 路由规则进行配置。

二 Alertmanager邮箱报警设置

1 上传 alertmanager-0.24.0.linux-amd64.tar.gz 到 /opt 目录中，并解压

cd /opt/
tar xf alertmanager-0.24.0.linux-amd64.tar.gz
mv alertmanager-0.24.0.linux-amd64 /usr/local/alertmanager

2 修改 alertmanager 配置文件，添加邮件告警路由信息

vim /usr/local/alertmanager/alertmanager.yml
#global 配置段用于定义全局配置
#templates 配置段负责自定义告警内容模板文件
#route 配置段用于指定如何处理传入的告警
#receiver 配置段则定义了告警信息的接收器，每个接收器都应该有其具体的定义
 
global:                       #在全局配置段设置发件人邮箱信息
  resolve_timeout: 5m             #定义持续多长时间未接收到告警通知后，就将告警状态标记为resolved
  smtp_smarthost: 'smtp.qq.com:25'
  smtp_from: '这里使用的是个人邮箱'
  smtp_auth_username: '这里使用的是个人邮箱'
  smtp_auth_password: 'xxxxxx'    #此处为授权码，登录QQ邮箱【设置】->【账户】中的【生成授权码】获取
  smtp_require_tls: false         #禁用TLS的传输方式
route:                        #设置告警的分发策略
  group_by: ['alertname']         #采用哪个标签来作为分组依据，这里使用告警名称做为规则，满足规则的告警将会被合并到一个通知中
  group_wait: 20s                 #一组告警第一次发送之前等待的时延，即产生告警20s将组内新产生的消息合并发送，通常是0s~几分钟（默认是30s）
  group_interval: 5m              #一组已发送过初始告警通知的告警，接收到新告警后，下次发送通知前等待时延，通常是5m或更久（默认是5m）
  repeat_interval: 20m            #一组已经发送过通知的告警，重复发送告警的间隔，通常设置为3h或者更久（默认是4h）
  receiver: 'my-email'    #定义告警接收人
receivers:                    #设置收件人邮箱信息
- name: 'my-email'
  email_configs:
  - to: '收件人的邮箱'    #设置收件人邮箱地址
    send_resolved: true

3 配置启动文件

cat > /usr/lib/systemd/system/alertmanager.service <<'EOF'
[Unit]
Description=alertmanager
Documentation=https://prometheus.io/
After=network.target
 
[Service]
Type=simple
ExecStart=/usr/local/alertmanager/alertmanager \
--config.file=/usr/local/alertmanager/alertmanager.yml \
--log.level=debug
 
ExecReload=/bin/kill -HUP $MAINPID
Restart=on-failure
 
[Install]
WantedBy=multi-user.target
EOF
 
#启动 Alertmanager
systemctl start alertmanager
systemctl enable alertmanager
 
netstat -natp | grep :9093

4 添加告警规则

mkdir /usr/local/prometheus/alter_rules
 
vim /usr/local/prometheus/alter_rules/instance_down.yaml
groups:
#若某个 Instance 的 up 指标的值转为 0 持续超过 1 分钟后，将触发告警
- name: AllInstances
  rules:
  - alert: InstanceDown                  #告警规则的名称，一个组内的告警规则名称必须惟一
    # Condition for alerting
    expr: up == 0                        #基于PromQL表达式的告警触发条件（布尔表达式）
    for: 1m                              #控制在触发告警之前，测试表达式的值必须为true的时长
	                                     #表达式值为true，但其持续时间未能满足for定义的时长时，相关的告警状态为pending
	                                     #满足该时长之后，相关的告警将被触发，并转为firing状态
	                                     #表达式的值为false时，告警将处于inactive状态
    # Annotation - additional informational labels to store more information
    annotations:                         #附加在告警之上的注解信息
      title: 'Instance down'
      description: Instance has been down for more than 1 minute.'
    # Labels - additional labels to be attached to the alert
    labels:
      severity: 'critical'               #在告警上附加的自定义的标签
#CPU 使用率大于 80% 触发告警
- name: node_alert
  rules:
  - alert: cpu_alert
    expr: 100 -avg(irate(node_cpu_seconds_total{mode="idle"}[1m])) by (instance)* 100 > 80
    for: 5m
    labels:
      level: warning
    annotations:
      description: "instance: {{ $labels.instance }} ,cpu usage is too high ! value: {{$value}}"
      summary:  "cpu usage is too high"

5 修改 prometheus 配置文件，添加 Alertmanager 实例的配置

vim /usr/local/prometheus/prometheus.yml
......
alerting:
  alertmanagers:
    - static_configs:
        - targets:
            - 192.168.80.30:9093 #任意一台k8s主机IP及exporter服务监听端口
 
rule_files:
  - "/usr/local/prometheus/alter_rules/*.yaml"
  
 
systemctl reload prometheus

6 进行报警测试

systemctl stop node_exporter.service

7 恢复监控节点的exporter服务

systemctl start node_exporter.service

三 kubernetes 配置 alertmanager 发送报警到邮箱

1 Prometheus 及 Alertmanager 配置

（1）创建 alertmanager 配置文件

vim alertmanager-cm.yaml
---
kind: ConfigMap
apiVersion: v1
metadata:
  name: alertmanager
  namespace: monitor-sa
data:
  alertmanager.yml: |-
    global:                    #设置发件人邮箱信息
      resolve_timeout: 1m
      smtp_smarthost: 'smtp.qq.com:25'
      smtp_from: '124481457@qq.com'
      smtp_auth_username: '124481457@qq.com'
      smtp_auth_password: 'yoevnefvknmqbjia'    #此处为授权码，登录QQ邮箱【设置】->【账户】中的【生成授权码】获取
      smtp_require_tls: false
    route:                        #用于设置告警的分发策略
      group_by: [alertname]         #采用哪个标签来作为分组依据
      group_wait: 10s               #组告警等待时间。也就是告警产生后等待10s，如果有同组告警一起发出
      group_interval: 10s           #上下两组发送告警的间隔时间
      repeat_interval: 10m          #重复发送告警的时间，减少相同邮件的发送频率，默认是1h
      receiver: default-receiver    #定义谁来收告警
    receivers:                    #设置收件人邮箱信息
    - name: 'default-receiver'
      email_configs:
      - to: '960027936@139.com'    #设置收件人邮箱地址
        send_resolved: true

kubectl apply -f alertmanager-cm.yaml

（2）创建 prometheus 和告警规则配置文件

#上传 prometheus-alertmanager-cfg.yaml 文件

#删除之前的配置，更新配置
kubectl delete -f prometheus-cfg.yaml
kubectl apply -f prometheus-alertmanager-cfg.yaml

kubectl get cm -n monitor-sa 
alertmanager        1      2m29s
kube-root-ca.crt    1      14h
prometheus-config   2      29s

（3）安装 prometheus 和 alertmanager

#生成一个 secret 资源 etcd-certs，这个在部署 prometheus 需要，用于监控 etcd 相关资源
kubectl -n monitor-sa create secret generic etcd-certs --from-file=/etc/kubernetes/pki/etcd/server.key  --from-file=/etc/kubernetes/pki/etcd/server.crt --from-file=/etc/kubernetes/pki/etcd/ca.crt

更新资源清单 yaml 文件，安装 prometheus 和 alertmanager
vim prometheus-alertmanager-deploy.yaml
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: prometheus-server
  namespace: monitor-sa
  labels:
    app: prometheus
spec:
  replicas: 1
  selector:
    matchLabels:
      app: prometheus
      component: server
    #matchExpressions:
    #- {key: app, operator: In, values: [prometheus]}
    #- {key: component, operator: In, values: [server]}
  template:
    metadata:
      labels:
        app: prometheus
        component: server
      annotations:
        prometheus.io/scrape: 'false'
    spec:
      nodeName: node01
      serviceAccountName: monitor
      containers:
      - name: prometheus
        image: prom/prometheus:v2.2.1
        imagePullPolicy: IfNotPresent
        command:
        - "/bin/prometheus"
        args:
        - "--config.file=/etc/prometheus/prometheus.yml"
        - "--storage.tsdb.path=/prometheus"
        - "--storage.tsdb.retention=24h"
        - "--web.enable-lifecycle"
        ports:
        - containerPort: 9090
          protocol: TCP
        volumeMounts:
        - mountPath: /etc/prometheus
          name: prometheus-config
        - mountPath: /prometheus/
          name: prometheus-storage-volume
        - name: k8s-certs
          mountPath: /var/run/secrets/kubernetes.io/k8s-certs/etcd/
        - name: localtime
          mountPath: /etc/localtime
      - name: alertmanager
        image: prom/alertmanager:v0.14.0
        imagePullPolicy: IfNotPresent
        args:
        - "--config.file=/etc/alertmanager/alertmanager.yml"
        - "--log.level=debug"
        ports:
        - containerPort: 9093
          protocol: TCP
          name: alertmanager
        volumeMounts:
        - name: alertmanager-config
          mountPath: /etc/alertmanager
        - name: alertmanager-storage
          mountPath: /alertmanager
        - name: localtime
          mountPath: /etc/localtime
      volumes:
        - name: prometheus-config
          configMap:
            name: prometheus-config
        - name: prometheus-storage-volume
          hostPath:
           path: /data
           type: Directory
        - name: k8s-certs
          secret:
           secretName: etcd-certs
        - name: alertmanager-config
          configMap:
            name: alertmanager
        - name: alertmanager-storage
          hostPath:
           path: /data/alertmanager
           type: DirectoryOrCreate
        - name: localtime
          hostPath:
           path: /usr/share/zoneinfo/Asia/Shanghai

kubectl delete -f prometheus-deploy.yaml
kubectl apply -f prometheus-alertmanager-deploy.yaml

kubectl get pods -n monitor-sa | grep prometheus

（4）部署 alertmanager 的 service，

（4）部署 alertmanager 的 service，方便在浏览器访问
vim alertmanager-svc.yaml
---
apiVersion: v1
kind: Service
metadata:
  labels:
    name: prometheus
    kubernetes.io/cluster-service: 'true'
  name: alertmanager
  namespace: monitor-sa
spec:
  ports:
  - name: alertmanager
    nodePort: 30066
    port: 9093
    protocol: TCP
    targetPort: 9093
  selector:
    app: prometheus
  sessionAffinity: None
  type: NodePort

kubectl apply -f alertmanager-svc.yaml

#查看 service 在物理机映射的端口
kubectl get svc -n monitor-sa
NAME           TYPE       CLUSTER-IP       EXTERNAL-IP   PORT(S)          AGE
alertmanager   NodePort   10.105.125.219   <none>        9093:30066/TCP   38s
prometheus     NodePort   10.107.188.51    <none>        9090:31000/TCP   23h
#此时可以看到 prometheus 的 service 在物理机映射的端口是 31000，alertmanager 的 service 在物理机映射的端口是 30066

浏览器访问 http://192.168.10.20:30066/#/alerts ，登陆 alertmanager

查看接收到的邮件报警，可以发现与 alertmanager 显示的告警一致

(5) 浏览器访问

浏览器访问 http://192.168.10.20:31000 ，点击页面的 Status->Targets，查看 prometheus 的 targets

(6) 处理 kube-proxy 监控告警

处理 kube-proxy 监控告警
kubectl edit configmap kube-proxy -n kube-system
......
metricsBindAddress: "0.0.0.0:10249"
#因为 kube-proxy 默认端口10249是监听在 127.0.0.1 上的，需要改成监听到物理节点上

#重新启动 kube-proxy
kubectl get pods -n kube-system | grep kube-proxy |awk '{print $1}' | xargs kubectl delete pods -n kube-system

ss  -antulp |grep :10249
tcp    LISTEN     0      128      :::10249                :::*                   users:(("kube-proxy",pid=55675,fd=15))

#alert 查看
点击 prometheus 页面的 Alerts，点开一个告警项，FIRING 表示 prometheus 已经将告警发给 alertmanager，在 Alertmanager 中可以看到有一个 alert。登录到 浏览器访问 http://192.168.10.20:30066/#/alerts ，登陆 alertmanager 即可看到。

四 Alertmanager钉钉报警设置

1）上传 prometheus-webhook-dingtalk-2.1.0.linux-amd64.tar.gz 到 /opt 目录中，并解压

cd /opt/
tar xf prometheus-webhook-dingtalk-2.1.0.linux-amd64.tar.gz
mv prometheus-webhook-dingtalk-2.1.0.linux-amd64 /usr/local/dingtalk

（2）登录阿里钉钉，并且进行设置
创建群 -> 群设置 -> 智能群助手 -> 添加机器人 -> 添加机器人 -> 自定义
消息推送开启
Webhook 复制
安全设置 -> 勾选加签 -> 复制
点击完成

（3）修改 dingtalk 告警插件配置文件

cd /usr/local/dingtalk
cp -p config.example.yml config.yml
 
vim config.yml
timeout: 5s
 
## Uncomment following line in order to write template from scratch (be careful!)
#no_builtin_template: true
 
## Customizable templates path
templates:
  - contrib/templates/legacy/template.tmpl
 
## You can also override default template using `default_message`
## The following example to use the 'legacy' template from v0.3.0
default_message:
  title: '{{ template "legacy.title" . }}'
  text: '{{ template "legacy.content" . }}'
 
## Targets, previously was known as "profiles"
targets:
  webhook1:
    url: <粘贴Webhook的内容>
    # secret for signature
    secret: <粘贴加签的内容>
 
#启动服务 
./prometheus-webhook-dingtalk

（4）修改 alertmanager 配置文件

vim /usr/local/alertmanager/alertmanager.yml
global:
  resolve_timeout: 5m
 
route:
  group_by: [alertname]
  group_wait: 10s
  group_interval: 15s
  repeat_interval: 20m
  receiver: 'dingding.webhook1'
 
receivers:
- name: 'dingding.webhook1'
  webhook_configs:
  - url: 'http://192.168.73.108:8060/dingtalk/webhook1/send'
    send_resolved: true
 
  
systemctl reload alertmanager

（5）测试告警

systemctl stop node_exporter

空中连线

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
Prometheus 之钉钉报警

Prometheus 对指标的收集、存储与告警能力分属于 Prometheus Server 和 AlertManager 两个独立的组件，前者仅负责定义告警规则生成告警通知，具体的告警操作则由后者完成。Alertmanager 负责处理由 Prometheus Server 发来的告警通知，Alertmanager对告警通知进行分组、去重后，根据路由规则将其路由到不同的receiver，如：Email、钉钉或企业微信等。
复制链接

扫一扫