Prometheus报警规则别名设置

prometheus报警规则,是由promsql语句编写组合的,但是有时语句会很长,我们看还好,但是有时间业务组那边也会使用promsql来看主机偏高的指标,这边只能设置别名,方便他们使用。

别名设置:

很简单,也是和报警规则一样,但是语法可能不一样

示例
 

[root@hdpv3test08 rules]# cat prometheus_rules_name.yml 
groups:
- name: alive
  rules:
  - record: node:ping:total 
    expr: up 
- name: cpu
  rules:
  - record: node:cpu_usage:ratio #别的文件使用,直接使用这个
    expr: ((100 - (avg by(instance,ip,hostname) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100))) 
- name: mem
  rules:
  - record: node:memory_usage:ratio
    expr: (100 -(node_memory_MemTotal_bytes -node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes ) / node_memory_MemTotal_bytes * 100 )

node:cpu_usage:ratio 就是查看cpu使用率的指标

下面两张图就是区别

 

 我们正常使用,就是直接采用这个别名指标了

 业务组使用

prometheus支持promsql语法,我们可以通过相关语句,很快定位到集群,资源使用情况

如:高CPU 高内存,出入流量大, tcp连接数多等等一些列问题。

主机重启

delta(node_boot_time_seconds[5m]) != 0

文件只读异常

node_filesystem_readonly == 1

CPU使用率

((100 - (avg by(instance,ip,hostname) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)))

内存使用率

(100 -(node_memory_MemTotal_bytes -node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes ) / node_memory_MemTotal_bytes * 100 )

IO性能

 100-(avg(irate(node_disk_io_time_seconds_total[5m])) by(instance,hostname)* 100) < 40

磁盘使用率

100-(node_filesystem_free_bytes{fstype=~"ext4|xfs"}/node_filesystem_size_bytes {fstype=~"ext4|xfs"}*100) > 80

主机网络IO速率

入速率(MiB/s)

irate(node_network_receive_bytes_total{}[5m]) / 1024 / 1024

出速率(MiB/s)

irate(node_network_transmit_bytes_total{}[5m]) / 1024 / 1024

主机磁盘IO

写速率(MiB/s)

irate(node_disk_written_bytes_total{}[5m]) / 1024 / 1024

读速率(MiB/s)

irate(node_disk_read_bytes_total{}[5m]) / 1024 / 1024

TCP连接数

node_netstat_Tcp_CurrEstab

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Prometheus是一种用于监控报警的开源系统。超全面的Prometheus报警规则集合是指包含了对各种监控指标进行报警规则集合。 首先,对于系统资源的监控,可以设置CPU利用率、内存使用率、磁盘空间等指标的报警规则。当这些指标超过设定的阈值时,Prometheus会触发相应的报警。 其次,对于网络相关的监控,可以设置网络流量、网络延迟等指标的报警规则。当网络出现异常情况时,比如流量突然剧增或者延迟超出设定的范围,Prometheus会发送报警通知。 此外,还可以设置应用程序相关的监控指标的报警规则。比如,对于Web服务器可以设置HTTP响应码的报警规则,当错误响应码的比例超过一定阈值时,Prometheus会发出报警。对于数据库,可以设置查询延迟、连接数等指标的报警规则。 在超全面的Prometheus报警规则集合中,还可以根据业务需求自定义扩展报警规则。比如,可以针对特定业务逻辑设置业务指标的报警规则。当业务异常时,Prometheus会发送报警,提醒相关负责人进行处理。 总而言之,超全面的Prometheus报警规则集合能够对各种系统、网络和应用程序的指标进行全面的监控,并在出现异常情况时及时发出报警通知。这有助于及时发现和解决问题,提高系统的可用性和稳定性。 ### 回答2: Prometheus是一种广泛应用于监控报警的开源系统,提供了丰富的报警规则集合,可以帮助我们及时发现系统中的问题并采取相应的措施。 首先,Prometheus通过其基于时间序列的数据模型,可以对服务器、应用程序以及其他网络设备进行实时监控。它可以收集和存储各种指标,如内存、CPU使用率、网络流量等,以便进行分析和报警。 其次,Prometheus提供了灵活而强大的查询语言PromQL,可以根据用户的需求编写各种定制化的报警规则。用户可以根据自己的系统特点和需求,定义各种指标的阈值,一旦某个指标超过或低于设定的阈值,系统就会触发相应的报警动作,如发送邮件、短信或调用其他外部服务。 此外,Prometheus还支持基于时间窗口的报警规则,即连续一段时间内超过或低于阈值才触发报警,避免了短时间波动带来的误报警情况。 Prometheus还支持灵活的告警分级机制,允许用户为不同的监控对象设置不同的报警级别,以便针对不同的问题采取不同的处理策略。 此外,Prometheus还支持报警的静默模式,即用户可以手动关闭某个报警规则,以避免在某些特定情况下产生误报。 总之,Prometheus提供了一个超全面且灵活的报警规则集合,可以满足不同系统的监控报警需求。用户可以根据自己的实际情况,定制化地配置各种报警规则,以便及时发现并解决系统中的问题。 ### 回答3: 超全面的prometheus报警规则集合是一个包含了大量规则的集合,用于监控报警系统中可能出现的问题和异常情况。 这个集合中的规则涵盖了各种系统指标,例如 CPU 使用率、内存使用率、磁盘空间、网络流量等等。它们旨在帮助管理员监控系统的运行状况,并在出现异常时及时发出警报,以便能够进行及时的故障排除和修复。 超全面的prometheus报警规则集合还包括了许多预定义的警报规则,用于监控重要的系统组件和服务,如数据库、消息队列、集群状态等。这些规则可以根据实际需求进行自定义配置,以适应不同系统和应用的监控需求。 此外,集合中的规则还包括了一些常见的警报规则模板,用于处理常见的异常情况,如网络中断、服务崩溃、CPU 负载过高等。这些模板可以帮助管理员更快地设置和配置报警规则,减少了规则编写的工作量,同时也提高了监控系统的响应速度。 总之,超全面的prometheus报警规则集合是一个功能强大、可定制性高的工具,用于监控报警系统中各种异常情况。通过使用这个集合,管理员可以更好地了解系统的运行状况,并在出现问题时能够及时采取相应的措施,确保系统的可用性和稳定性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南宫乘风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值