原文:https://prometheus.io/docs/alerting/alertmanager/
Alertmanager处理由客户端应用程序发送过来的报警,例如Prometheus server。它负责对报警的重复数据删除、分组和通过电子邮件、PagerDuty或OpsGenie发送到正确的整合接收者。它还负责沉默和抑制报警。
下面描述了Alertmanager实现的核心概念。请查阅配置文档以了解如何更详细地使用它们。
分组(grouping)
分组将类似性质的报警分类为单个通知。当许多系统同时发生故障并且可能同时触发数百数千个报警时,此功能特别有用。
例如:当集群中正在运行数十个或数百个服务实例的某个网络分区发送故障时。您有一半的服务实例不再能访问数据库。Prometheus中的报警规则配置为在每个服务实例无法与数据库通信时为其发送报警。结果,