promethues rules告警规则

文章详细介绍了Prometheus的启动脚本设置,包括配置文件路径、数据存储位置以及启用生命周期管理等。同时,文章列出了多个告警规则,如实例存活、内存使用率、磁盘使用率、CPU利用率和端口状态的监控阈值和告警策略。
摘要由CSDN通过智能技术生成

 promethues 启动脚本

/usr/lib/systemd/system/prometheus.service
[Unit]
Description=Prometheus

[Service]
ExecStart=/data/prometheus/prometheus --config.file=/data/prometheus/prometheus.yml --storage.tsdb.path=/opt/prometheus --web.enable-lifecycle --storage.tsdb.retention.time=180d
Restart=on-failure

[Install]
WantedBy=multi-user.target
groups:
  - name: 实例存活告警规则
    rules:
    - alert: "实例存活告警"
      expr: up == 0
      for:  30s
      labels:
        severity: Disaster
      annotations:
       summary: "节点失联"
       description: "节点断联已超过1分钟: "
  - name: 内存告警规则
    rules:
    - alert: "内存使用率告警"
      expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 75 # 告警阈值为当内存使用率大于75%
      for: 30s
      labels:
        severity: warning
      annotations:
       summary: "服务器内存报警"
       description: "内存资源利用率大于75%!(当前值: {{ $value }}%)"
  - name: 磁盘报警规则
    rules:
    - alert: 磁盘使用率告警
      expr: (node_filesystem_size_bytes - node_filesystem_avail_bytes) / node_filesystem_size_bytes * 100 > 80    # 告警阈值为某个挂载点使用大于80%
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器磁盘使用率报警"
       description: "服务器磁盘设备使用超过80%!(挂载点: {{ $labels.mountpoint }} 当前值: {{ $value }}%)"
  - name: cpu利用率
    rules:
    - alert: cpu使用率告警
      expr:  (100 - avg(irate(node_cpu_seconds_total{mode="idle"}[1m])) by (instance) * 100 ) >80 # 告警阈值为某个挂载点使用大于80%
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器CPU报警"
       description: "服务器CPU使用超过80%!(挂载点: {{ $labels.mountpoint }} 当前值: {{ $value }}%)"

  - name: free使用告警
    rules:
    - alert: free空间使用率
      expr:   (100 - (node_memory_MemAvailable_bytes)/(node_memory_MemTotal_bytes) *100 ) >80 # 告警阈值为某个挂载点使用大于80%
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器free使用率报警"
       description: "服务器free使用超过80%!(挂载点: {{ $labels.mountpoint }} 当前值: {{ $value }}%)"
  - name: 服务端口告警
    rules:
    - alert: 端口告警
      expr:   probe_success == 0
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器端口报警"
       description: "服务器端口异常服务不可以用 {{ $labels.instance}} 当前值: {{ $value }}%)"
groups:
  - name: 实例存活告警规则
    rules:
    - alert: "实例存活告警"
      expr: up == 0
      for:  30s
      labels:
        severity: Disaster
      annotations:
       summary: "节点失联"
       description: "节点断联已超过1分钟: "
  - name: 内存告警规则
    rules:
    - alert: "内存使用率告警"
      expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 75 # 告警阈值为当内存使用率大于75%
      for: 30s
      labels:
        severity: warning
      annotations:
       summary: "服务器内存报警"
       description: "内存资源利用率大于75%!(当前值: {{ $value }}%)"
  - name: 磁盘报警规则
    rules:
    - alert: 磁盘使用率告警
      expr: (node_filesystem_size_bytes - node_filesystem_avail_bytes) / node_filesystem_size_bytes * 100 > 80    # 告警阈值为某个挂载点使用大于80%
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器磁盘使用率报警"
       description: "服务器磁盘设备使用超过80%!(挂载点: {{ $labels.mountpoint }} 当前值: {{ $value }}%)"
  - name: cpu利用率
    rules:
    - alert: cpu使用率告警
      expr:  (100 - avg(irate(node_cpu_seconds_total{mode="idle"}[1m])) by (instance) * 100 ) >80 # 告警阈值为某个挂载点使用大于80%
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器CPU报警"
       description: "服务器CPU使用超过80%!(挂载点: {{ $labels.mountpoint }} 当前值: {{ $value }}%)"

  - name: free使用告警
    rules:
    - alert: free空间使用率
      expr:   (100 - (node_memory_MemAvailable_bytes)/(node_memory_MemTotal_bytes) *100 ) >80 # 告警阈值为某个挂载点使用大于80%
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器free使用率报警"
       description: "服务器free使用超过80%!(挂载点: {{ $labels.mountpoint }} 当前值: {{ $value }}%)"
  - name: 服务端口告警
    rules:
    - alert: 端口告警
      expr:   probe_success == 0
      for: 1m
      labels:
       severity: warning
      annotations:
       summary: "服务器端口报警"
       description: "服务器端口异常服务不可以用 {{ $labels.instance}} 当前值: {{ $value }}%)"

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值