新手学习Prometheus监控Day03

最新推荐文章于 2024-08-22 17:14:34 发布

weixin_40319231

最新推荐文章于 2024-08-22 17:14:34 发布

阅读量966

点赞数 26

文章标签：学习 prometheus linux

本文链接：https://blog.csdn.net/weixin_40319231/article/details/141387295

版权

提示：AlterManager部署以及告警配置

文章目录

一、告警平台AlterManager部署
二、AlterManager配置
- 企业微信
- 钉钉配置
告警静默
- web界面配置

一、告警平台AlterManager部署

AlterManager告警平台官网介绍https://prometheus.io/docs/alerting/latest/alertmanager/

AlterManager是一个专门用于实现告警的工具，可以接受像Prometheus和其他监控平台发出的告警信息，并且对这些告警信息进行分组、抑制等各种操作，通过路由的方式把告警规则分发到不同的告警路由策略中，支持邮件、企业微信、webhook等多种方式发送告警信息。

AlterManager功能

抑制：当一个告警发送后，可以停止由此告警引发的其他告警，避免相同的告警信息重复发送
静默：设置一个标签，对告警信息进行静默处理，如果一个告警符合AlterManager告警的配置，则不会发送该告警。
发送告警：通过路由的方式把告警规则分发到不同的告警路由策略中，支持邮件、企业微信、webhook等多种方式发送告警信息。
分组：在某些情况下可以把某些信息（如系统宕机引起的大量告警）合并成一个通知。

Prometheus和AlterManager的关系

在这里插入图片描述
Prometheus和AlterManager是两个分离的组件。
Prometheus通过静态或者动态的拉取Metrics，Prometheus会根据配置的参数周期对告警规则进行计算，一旦满足告警条件就会生产处一条告警信息发送到AlterManager组件中。AlterManager收到告警信息后会对告警信息进行处理（去重、静默、抑制、告警分组…）并通过路由转发到正确的reserve。

部署步骤

由于AlterManager告警相关的数据需要持久话保存，所以需要通过PVC资源进行落地

# 创建AlterManager数据的存储PVC资源 altermanager-storage.yaml
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: alertmanager-pvc
  namespace: monitor
spec:
  accessModes:
    - ReadWriteMany
  storageClassName: "nfs-storage"
  resources:
    requests:
      storage: 5Gi

kubectl apply -f altermanager-storage.yaml

配置AlterManager的配置文件configmap（以下以邮件方式举例）

apiVersion: v1
kind: ConfigMap
metadata:
  name: alertmanager-config
  namespace: monitor
data:
  alertmanager.yml: |-
    global:
      resolve_timeout: 1m    #持续多长时间未收到告警信息后就将告警标记为解决的状态
      #########邮件相关的配置##########
      smtp_smarthost: 'smtp.exmail.qq.com:465'     # 邮箱服务器的SMTP主机配置
      smtp_from: 'zhdya@zhdya.cn'    # 发送邮件主题
      smtp_auth_username: 'zhdya@zhdya.cn'      # 登录用户名
      smtp_auth_password: 'XXXyfXBjd6J73DwYTjn'    # 此处的auth password是邮箱的第三方登录授权密码，而非用户密码
      smtp_require_tls: false           # 有些邮箱需要开启此配置，这里使用的是企微邮箱，仅做测试，不需要开启此功能。
      ###################################

    templates:
      - '/etc/alertmanager/*.tmpl'     #告警模板存储的路径
  
    ############################告警的分发策略##########################
    route:
      group_by: ['env','instance','type','group','job','alertname','cluster']   # 报警分组，如果需要完全聚合就把group去掉
      group_wait: 5s      # 在组内等待所配置的时间，如果同组内，5秒内出现相同报警，在一个组内出现。
      group_interval: 1m        # 如果组内内容不变化，合并为一条警报信息，2m后发送。
      repeat_interval: 2m    # 发送报警间隔，如果指定时间内没有修复，则重新发送报警。
      receiver: 'email'
      routes:
      - receiver: 'devops'
        match:
          severity: critical22
        group_wait: 5s
        group_interval: 5m
        repeat_interval: 30m

    receivers:
    - name: 'email'
      email_configs:
      - to: 'zhdya@qq.com'
        send_resolved: true
        html: '{{ template "email.to.html" . }}'

    - name: 'devops'
      email_configs:
      - to: 'zhdyaa@163.com,10000@qq.com'
        send_resolved: true
        html: '{{ template "email.to.html" . }}'

    inhibit_rules:    # 抑制规则
      - source_match:       # 源标签警报触发时抑制含有目标标签的警报，在当前警报匹配 servrity: 'critical'
          severity: 'critical'
        target_match:
          severity: 'warning'    # 目标标签值正则匹配，可以是正则表达式如: ".*MySQL.*"
        equal: ['alertname', 'dev', 'instance']    # 确保这个配置下的标签内容相同才会抑制，也就是说警报中必须有这三个标签值才会被抑制。

  wechat.tmpl: |-
    {{ define "wechat.default.message" }}
    {{- if gt (len .Alerts.Firing) 0 -}}
    {{- range $index, $alert := .Alerts -}}
    {{- if eq $index 0 }}
    ========= 监控报警 =========
    告警状态：{{   .Status }}
    告警级别：{{ .Labels.severity }}
    告警类型：{{ $alert.Labels.alertname }}
    故障主机: {{ $alert.Labels.instance }}
    告警主题: {{ $alert.Annotations.summary }}
    告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};
    触发阀值：{{ .Annotations.value }}
    故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    ========= = end =  =========
    {{- end }}
    {{- end }}
    {{- end }}
    {{- if gt (len .Alerts.Resolved) 0 -}}
    {{- range $index, $alert := .Alerts -}}
    {{- if eq $index 0 }}
    ========= 告警恢复 =========
    告警类型：{{ .Labels.alertname }}
    告警状态：{{   .Status }}
    告警主题: {{ $alert.Annotations.summary }}
    告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};
    故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    恢复时间: {{ ($alert.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    {{- if gt (len $alert.Labels.instance) 0 }}
    实例信息: {{ $alert.Labels.instance }}
    {{- end }}
    ========= = end =  =========
    {{- end }}
    {{- end }}
    {{- end }}
    {{- end }}

  email.tmpl: |-
    {{ define "email.from" }}xxx.com{{ end }}
    {{ define "email.to" }}xxx.com{{ end }}
    {{ define "email.to.html" }}
    {{- if gt (len .Alerts.Firing) 0 -}}
    {{ range .Alerts }}
    ========= 监控报警 =========<br>
    告警程序: prometheus_alert <br>
    告警级别: {{ .Labels.severity }} <br>
    告警类型: {{ .Labels.alertname }} <br>
    告警主机: {{ .Labels.instance }} <br>
    告警主题: {{ .Annotations.summary }}  <br>
    告警详情: {{ .Annotations.description }} <br>
    触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }} <br>
    ========= = end =  =========<br>
    {{ end }}{{ end -}}

    {{- if gt (len .Alerts.Resolved) 0 -}}
    {{ range .Alerts }}
    ========= 告警恢复 =========<br>
    告警程序: prometheus_alert <br>
    告警级别: {{ .Labels.severity }} <br>
    告警类型: {{ .Labels.alertname }} <br>
    告警主机: {{ .Labels.instance }} <br>
    告警主题: {{ .Annotations.summary }} <br>
    告警详情: {{ .Annotations.description }} <br>
    触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }} <br>
    恢复时间: {{ .EndsAt.Format "2006-01-02 15:04:05" }} <br>
    ========= = end =  =========<br>
    {{ end }}{{ end -}}

    {{- end }}

configmap配置文件详解

global:
  resolve_timeout: 5m    ##超时,默认5min
  smtp_smarthost: 'smtp.exmail.qq.com:25'
  smtp_from: 'xxxxxxx'
  smtp_auth_username: 'xxxx'
  smtp_auth_password: '123'
  smtp_require_tls: false
 
templates:    ##告警模板(可定义多个)
  - '/etc/alertmanager/*.tmpl'
 
##route:用来设置报警的分发策略。Prometheus的告警先是到达alertmanager的根路由(route)，alertmanager的根路由不能包含任何匹配项，因为根路由是所有告警的入口点
##另外，根路由需要配置一个接收器(receiver)，用来处理那些没有匹配到任何子路由的告警（如果没有配置子路由，则全部由根路由发送告警），即缺省
##接收器。告警进入到根route后开始遍历子route节点，如果匹配到，则将告警发送到该子route定义的receiver中，然后就停止匹配了。因为在route中
##continue默认为false，如果continue为true，则告警会继续进行后续子route匹配。如果当前告警仍匹配不到任何的子route，则该告警将从其上一级(
##匹配)route或者根route发出（按最后匹配到的规则发出邮件）。查看你的告警路由树，https://www.prometheus.io/webtools/alerting/routing-tree-editor/,
##将alertmanager.yml配置文件复制到对话框，然后点击"Draw Routing Tree"
route:
  group_by: ['env','instance','type','group','job','alertname','cluster']    ##用于分组聚合，对告警通知按标签(label)进行分组，将具有相同标签或相同告警名称(alertname)的告警通知聚合在一个组，然后作为一个通知发送。如果想完全禁用聚合，可以设置为group_by: [...]
  group_wait: 10s    ##当一个新的告警组被创建时，需要等待'group_wait'后才发送初始通知。这样可以确保在发送等待前能聚合更多具有相同标签的告警，最后合并为一个通知发送
  group_interval: 2m    ##当第一次告警通知发出后，在新的评估周期内又收到了该分组最新的告警，则需等待'group_interval'时间后，开始发送为该组触发的新告警，可以简单理解为，group就相当于一个通道(channel)
  repeat_interval: 10m    ##告警通知成功发送后，若问题一直未恢复，需再次重复发送的间隔(根据实际情况来调整)
  receiver: 'email'        ##配置告警消息接收者，与下面配置的对应，例如常用的 email、wechat、slack、webhook 等消息通知方式。
  routes:    ##子路由
  - receiver: 'wechat'
    match:    ##通过标签去匹配这次告警是否符合这个路由节点；也可以使用match_re进行正则匹配
      severity: error    ##标签severity为error时满足条件使用wechat警报
      continue: true   ##匹配到这个路由后是否继续匹配，默认flase
receivers:    ##配置报警信息接收者信息
- name: 'email' ##警报接收者名称
  email_configs:
  - to: 'xxxxxx'  ##接收警报的email（可引用模板文件中定义的变量）,可定义多个
##    html: '{{ template "email.to.html" .}}' ##发送邮件的内容（调用模板文件中的）
    helo: 'alertmanager.com' #alertmanager的地址
    send_resolved: true #故障恢复后通知
 
- name: 'wechat'
  wechat_configs:
  - corp_id: xxxxxxxxx    ##企业信息
    to_user: '@all'        ##发送给企业微信用户的ID，这里是所有人
    agent_id: xxxxx    ##企业微信AgentId
    api_secret: xxxxxxxxx        ##企业微信Secret 
##    message: '{{ template "wechat.default.message" .}}'    ##发送内容(调用模板里面的微信模板)
    send_resolved: true         ##故障恢复后通知
 
inhibit_rules:        ##抑制规则配置，当存在与另一组匹配的警报（源）时，抑制规则将禁用与一组匹配的警报（目标）
  - source_match:
      severity: 'critical'
    target_match:
      severity: 'warning'
    equal: ['alertname', 'dev', 'instance']

创建AlertManager部署文件 alertmanager-deploy.yaml

apiVersion: v1
kind: Service
metadata:
  name: alertmanager
  namespace: monitor
  labels:
    k8s-app: alertmanager
spec:
  type: ClusterIP
  ports:
  - name: http
    port: 9093
    targetPort: 9093
  selector:
    k8s-app: alertmanager
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: alertmanager
  namespace: monitor
  labels:
    k8s-app: alertmanager
spec:
  replicas: 1
  selector:
    matchLabels:
      k8s-app: alertmanager
  template:
    metadata:
      labels:
        k8s-app: alertmanager
    spec:
      containers:
      - name: alertmanager
        image: prom/alertmanager:v0.24.0
        imagePullPolicy: IfNotPresent
        ports:
        - name: http
          containerPort: 9093
        args:
        ## 指定容器中AlertManager配置文件存放地址 (Docker容器中的绝对位置)，会挂载到持久化存储
        - "--config.file=/etc/alertmanager/alertmanager.yml"
        ## 指定AlertManager管理界面地址，用于在发生的告警信息中,附加AlertManager告警信息页面地址
        - "--web.external-url=https://alertmanager.kubernets.cn"  
        ## 指定监听的地址及端口
        - '--cluster.advertise-address=0.0.0.0:9093'
        ## 指定数据存储位置 (Docker容器中的绝对位置)
        - "--storage.path=/alertmanager"
        resources:
          limits:
            cpu: 1000m
            memory: 512Mi
          requests:
            cpu: 1000m
            memory: 512Mi
        readinessProbe:
          httpGet:
            path: /-/ready
            port: 9093
          initialDelaySeconds: 5
          timeoutSeconds: 10
        livenessProbe:
          httpGet:
            path: /-/healthy
            port: 9093
          initialDelaySeconds: 30
          timeoutSeconds: 30
        volumeMounts:
        - name: data
          mountPath: /alertmanager 
        - name: config
          mountPath: /etc/alertmanager
      - name: configmap-reload   #altermanager都需要热加载，当前配置发生变化的时候就会重新自动reload
        image: jimmidyson/configmap-reload:v0.7.1
        args:
        - "--volume-dir=/etc/config"
        - "--webhook-url=http://localhost:9093/-/reload"
        resources:
          limits:
            cpu: 100m
            memory: 100Mi
          requests:
            cpu: 100m
            memory: 100Mi
        volumeMounts:
        - name: config
          mountPath: /etc/config
          readOnly: true
      volumes:
      - name: data
        persistentVolumeClaim:
          claimName: alertmanager-pvc
      - name: config
        configMap:
          name: alertmanager-config

创建AlertManager外部服务暴露 alertmanager-ingress.yaml

apiVersion: networking.k8s.io/v1
kind: Ingress
metadata:
  namespace: monitor
  name: alertmanager-ingress
spec:
  ingressClassName: nginx
  rules:
 - host: alertmanager.kubernets.cn
    http:
      paths:
        - pathType: Prefix
          backend:
            service:
              name: alertmanager
              port:
                number: 9093
          path: /

验证
在这里插入图片描述
$ curl http://alertmanager.kubernets.cn

Altermanager控制台

在这里插入图片描述
status Altermanager状态

Prometheus添加告警配置

修改ConfigMap资源文件prometheus-config.yaml

添加AlertManager服务器地址
指定告警规则文件路径位置
添加Prometheus中触发告警的告警规则

vim prometheus-config.yaml

apiVersion: v1
kind: ConfigMap
metadata:
  name: prometheus-config
  namespace: monitoring
data:
  prometheus.yml: |
    global:
      scrape_interval:     15s
      evaluation_interval: 15s
      external_labels:
        cluster: "kubernetes"
    ############ 添加配置 Aertmanager 服务器地址 ###################
    alerting:
      alertmanagers:
      - static_configs:
        - targets: ["alertmanager:9093"] 
 
    ############ 指定告警规则文件路径位置 ###################
    rule_files: 
    - /etc/prometheus/*-rule.yml

在这里插入图片描述

告警标签

Prometheus控制台验证

自定义一条告警规则测试

手动添加一条告警规则

$ curl -XPOST -H 'Content-Type: application/json' http://alertmanager.kubernets.cn/api/v1/alerts -d '[{"labels":{"severity":"critical22"},"annotations":{"summary":"This is a test alert"}}]'

之前的configmap配置中有，如果有critical22标签的告警就会发送到对应标签的邮箱，所以配置邮箱时也需要特别注意标签，否则会收不到告警邮件
在这里插入图片描述
Altermanager优势

灵活性：Alertmanager提供了灵活的配置选项，允许用户根据自己的需求定义警报规则和接收警报的方式，同时支持多个不同层面的媒介进行告警通知。
可视化：Alertmanager提供了丰富的可视化功能，包括交互式控制台和Web界面，使用户可以轻松地查看警报和监控状态，以及管理警报的路由和通知。
多功能：通过分组，抑制，静默等多功能。这意味着这款工具可以适配更多的场景，做不同维度的功能释放。
与Prometheus的集成：Alertmanager是由Prometheus团队开发的，这意味着它与Prometheus监控系统紧密集成。Alertmanager可以与Prometheus进行无缝协作，从而实现更全面、更高效的监控和警报功能。

二、AlterManager配置

基于快消息的告警媒介：Altermanager快消息是为了向接收者发送告警消息而设置的一种机制，与普通的消息相比，快消息除了基本的告警内容之外，还包含更丰富的上下文信息，比如告警时间、级别、标签，同时还支持在文本中添加一些自定义的文本和URL，以便更好的理解和处理告警信息。
当前最常用的快消息软件：企业微信、钉钉

优势：可以帮助企业运维更快的了解系统告警信息并及时处理，保证应用系统的健康

实时告警通知：企业微信/钉钉等即时通信工具能够实现实时的告警通知，使得团队成员能够及时响应和解决问题。
通知范围更广：基于企业微信/钉钉的告警通知可以通过群组和@某人的方式，将告警通知发送给更广泛的接收者，避免出现漏报的情况。
告警信息更直观：企业微信/钉钉等通信工具提供了更丰富的告警信息呈现方式，例如文本消息、链接、图片、语音等，使得告警信息更加直观和易于理解。

企业微信

altermanager-configmap-wechat.yaml
kubectl apply -f altermanager-configmap-wechat.yaml

apiVersion: v1
kind: ConfigMap
metadata:
  name: alertmanager-config
  namespace: monitor
data:
  alertmanager.yml: |-
    global:
      resolve_timeout: 1m
      smtp_smarthost: 'smtp.exmail.qq.com:465'     # 邮箱服务器的SMTP主机配置
      smtp_from: 'zhdya@zhdya.cn'    # 发送邮件主题
      smtp_auth_username: 'zhdya@zhdya.cn'      # 登录用户名
      smtp_auth_password: 'yfXBjd6J73DwYTjn'    # 此处的auth password是邮箱的第三方登录授权密码，而非用户密码
      smtp_require_tls: false           # 有些邮箱需要开启此配置，这里使用的是企微邮箱，仅做测试，不需要开启此功能。

    templates:
      - '/etc/alertmanager/*.tmpl'
    route:
      group_by: ['env','instance','type','group','job','alertname','cluster']
      group_wait: 10s
      group_interval: 2m
      repeat_interval: 10m
      receiver: 'email'              #匹配不同的标签发送到不同的告警组
      routes:
      - receiver: 'wechat'     #当告警标签中有critical的时候告警通过企业微信发送
        match:
          severity: critical

    receivers:
    - name: 'email'
      email_configs:
      - to: 'zhdyaa@163.com'
        send_resolved: true
        html: '{{ template "email.to.html" . }}'

    - name: 'wechat'
      wechat_configs:
      - corp_id: 'ww182a29bdbaeXXXc4'   #企业组织
        to_party: '413'      #告警组，企业中一般按照部门划分告警组
        to_user: '@all'    #如果是单用户则写企业当中用户名
        agent_id: 1000035   #企业微信中常见的应用ID号
        api_secret: 'XXXXS6lb5WRCq2-EoDxoqFXSnBdY3fyocuDP-tc'
        send_resolved: true

    inhibit_rules:
      - source_match:
          severity: 'critical'
        target_match:
          severity: 'warning'
        equal: ['alertname', 'dev', 'instance']

  wechat.tmpl: |-
    {{ define "wechat.default.message" }}
    {{- if gt (len .Alerts.Firing) 0 -}}
    {{- range $index, $alert := .Alerts -}}
    {{- if eq $index 0 }}
    ========= 监控报警 =========
    告警状态：{{   .Status }}
    告警级别：{{ .Labels.severity }}
    告警类型：{{ $alert.Labels.alertname }}
    故障主机: {{ $alert.Labels.instance }}
    告警主题: {{ $alert.Annotations.summary }}
    告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};
    触发阀值：{{ .Annotations.value }}
    故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    ========= = end =  =========
    {{- end }}
    {{- end }}
    {{- end }}
    {{- if gt (len .Alerts.Resolved) 0 -}}
    {{- range $index, $alert := .Alerts -}}
    {{- if eq $index 0 }}
    ========= 告警恢复 =========
    告警类型：{{ .Labels.alertname }}
    告警状态：{{   .Status }}
    告警主题: {{ $alert.Annotations.summary }}
    告警详情: {{ $alert.Annotations.message }}{{ $alert.Annotations.description}};
    故障时间: {{ ($alert.StartsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    恢复时间: {{ ($alert.EndsAt.Add 28800e9).Format "2006-01-02 15:04:05" }}
    {{- if gt (len $alert.Labels.instance) 0 }}
    实例信息: {{ $alert.Labels.instance }}
    {{- end }}
    ========= = end =  =========
    {{- end }}
    {{- end }}
    {{- end }}
    {{- end }}

  email.tmpl: |-
    {{ define "email.from" }}xxx.com{{ end }}
    {{ define "email.to" }}xxx.com{{ end }}
    {{ define "email.to.html" }}
    {{- if gt (len .Alerts.Firing) 0 -}}
    {{ range .Alerts }}
    ========= 监控报警 =========<br>
    告警程序: prometheus_alert <br>
    告警级别: {{ .Labels.severity }} <br>
    告警类型: {{ .Labels.alertname }} <br>
    告警主机: {{ .Labels.instance }} <br>
    告警主题: {{ .Annotations.summary }}  <br>
    告警详情: {{ .Annotations.description }} <br>
    触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }} <br>
    ========= = end =  =========<br>
    {{ end }}{{ end -}}

    {{- if gt (len .Alerts.Resolved) 0 -}}
    {{ range .Alerts }}
    ========= 告警恢复 =========<br>
    告警程序: prometheus_alert <br>
    告警级别: {{ .Labels.severity }} <br>
    告警类型: {{ .Labels.alertname }} <br>
    告警主机: {{ .Labels.instance }} <br>
    告警主题: {{ .Annotations.summary }} <br>
    告警详情: {{ .Annotations.description }} <br>
    触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }} <br>
    恢复时间: {{ .EndsAt.Format "2006-01-02 15:04:05" }} <br>
    ========= = end =  =========<br>
    {{ end }}{{ end -}}

    {{- end }}

测试验证

## 匹配如上webhook标签：hostname:zhdya
$ curl -XPOST -H 'Content-Type: application/json' http://alertmanager.kubernets.cn/api/v1/alerts -d '[{"labels":{"severity":"critical"},"annotations":{"summary":"This is a test alert"}}]'

在这里插入图片描述

将被监控端的一台主机断开
在这里插入图片描述
Prometheus的监控已经采集不到信息

Prometheus开始告警

Altermanager也有告警信息

钉钉配置

钉钉机器人安全配置
自定义关键词：例如后续所告警中都有监控告警的关键词，如果有其他的关键词是不允许发出来，防止钉钉机器人webhook地址六流入到外网，避免恶意通知。

部署
配置钉钉告警需要第三方的媒介，安装部署如下

cat << EOF > dingtalk-webhook.yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    run: dingtalk
  name: webhook-dingtalk
  namespace: monitor
spec:
  replicas: 1
  selector:
    matchLabels:
      run: dingtalk
  template:
    metadata:
      labels:
        run: dingtalk
    spec:
      containers:
      - name: dingtalk
        image: timonwong/prometheus-webhook-dingtalk:v1.4.0
        imagePullPolicy: IfNotPresent
        args:
          - --ding.profile=webhook1=https://oapi.dingtalk.com/robot/send?access_token=<替换成你的token>
        ports:
        - containerPort: 8060
          protocol: TCP 
---
apiVersion: v1
kind: Service
metadata:
  labels:
    run: dingtalk
  name: webhook-dingtalk
  namespace: monitor
spec:
  ports:
  - port: 8060
    protocol: TCP
    targetPort: 8060
  selector:
    run: dingtalk
  sessionAffinity: None
EOF

Altermanager配置文件configmap

    route:
      group_by: ['env','instance','type','group','job','alertname','cluster']
      group_wait: 10s
      group_interval: 2m
      repeat_interval: 10m
      receiver: 'email'
      routes:
      - receiver: 'wechat'
        match:
          severity: critical

      - receiver: 'webhook'         ## 新增告警receiver通道
        match:
          hostname: zhdya

    receivers:
    - name: 'email'
      email_configs:
      - to: 'zhdyaa@163.com'
        send_resolved: true
        html: '{{ template "email.to.html" . }}'

    - name: 'wechat'
      wechat_configs:
      - corp_id: 'ww187a29bdbaececc4'
        to_party: '413'
        to_user: '@all'
        agent_id: 1000035
        api_secret: 'IVRfzG15S6lb5WRCq2-EoDxoqFXSnBdY3fyocuDP-tc'
        send_resolved: true

    - name: 'webhook'           ## 配置接收告警的媒介
      webhook_configs:
      - url: 'http://webhook-dingtalk.monitor.svc.cluster.local:8060/dingtalk/webhook1/send'
        send_resolved: true

测试验证

## 匹配如上webhook标签：hostname:zhdya（钉钉机器人自定义标签总关键字也需要写hostname）
$ curl -XPOST -H 'Content-Type: application/json' http://alertmanager.kubernets.cn/api/v1/alerts -d '[{"labels":{"hostname":"zhdya"},"annotations":{"summary":"This is a test alert"}}]'

告警静默

什么是告警静默
静默Silence 告警静默是让告警在某一个时间段内不要再发出来，场景如下：
①已经收到很多告警，且分析问题需要花费较多的时间
②维护期间对所维护的实例告警进行静默处理

web界面配置

界面找到已经出发的告警，选择Silence
在这里插入图片描述
Start：开始告警的时间
Duration：静默时长
MAtchers Alters affected by this silence：匹配的标签静默处置，一定要精确匹配否则会导致其他告警规则发不出告警
Creator：谁创建的静默规则
Comment：备注静默的原因

已完成配置的界面
在这里插入图片描述

weixin_40319231

关注

26
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
新手学习Prometheus监控Day03

手动添加一条告警规则之前的configmap配置中有，如果有critical22标签的告警就会发送到对应标签的邮箱，所以配置邮箱时也需要特别注意标签，否则会收不到告警邮件Altermanager优势灵活性：Alertmanager提供了灵活的配置选项，允许用户根据自己的需求定义警报规则和接收警报的方式，同时支持多个不同层面的媒介进行告警通知。可视化：Alertmanager提供了丰富的可视化功能，包括交互式控制台和Web界面，使用户可以轻松地查看警报和监控状态，以及管理警报的路由和通知。多功能。
复制链接

扫一扫