Dynatrace系列之- 标记常见问题
在大型环境中,系统的某些方面可能会持续触发不必要的警报。这些告警可能来自非关键组件或者是非关键情况下的资源不足的问题。通常这些问题不需要人员响应。
为了减少此类警报并避免发出垃圾告警邮件,Dynatrace AI根因分析引擎会自动检测那些经常发生但是并非重要的问题。Dynatrace通过观察指定期内(一天和一周)那些受监控实体的问题模型来检测此类频繁出现的问题。
当在这些时间段内多次检测到同一问题时,Dynatrace会根据阈值突破的实际严重程度与问题的持续时间来评估问题。然后,它会比较同一实体上过去的问题警报的严重性和持续时间,并且仅在问题的严重性增加时才发出警报。下图说明了此过程。
与之前的警报相比不太严重且持续时间较短的问题被认为是常见问题,因此针对这些问题取消了告警(Problem)。Dynatrace中事件严重性的排列如下:
事件严重级别 | 事件类型 |
---|---|
Severity 1 | Availability |
Severity 2 | Error |
Severity 3 | Slowdown |
Severity 4 | Resource |
Severity 5 | Custom |
Severity 6 | Info(不生成Problem) |
这种智能的检测和处理常见问题的方法可确保您收到严重性随时间而增加的问题的警报,同时避免警报垃圾邮件。
常见问题的概述页面包括“常见问题”消息,如下例所示。
常见问题评估
下图显示了问题的分类。
- 绿色为正常运行状态。
- 黄色是经常发生的事件,但对您的系统来说是正常的。例如,它可能是与非关键任务设备相关的慢磁盘读写事件。这些事件是不健康的,但没有必要告警。
- 红色是确实会影响正常操作并触发警报的事件。
评估过程的目标是将传入事件分类为黄色或红色。
对于每种事件类型和每个受监控实体,评估过程都是独立的。它从两组历史事件开始:
- 最近24小时的事件
- 最近7天的事件
然后进行如下评估:
- 将24小时数据集合以下面两种方式储存
-
持续时间(最短到最长)
-
严重程度(从低到高)
- 当一个新事件到达时,它将被放置在每个排序集中的适当位置。
- 从每个初始排序的集合中,创建一个子集,该子集由新事件右边的事件组成(即更长和更严重)。
- 创建一个参考集,其中包含同时出现在这两个子集中的事件。
-
参考集的大小计算为参考集中的事件数。
-
参考集的持续时间计算为参考集中事件的持续时间之和。
- 从7天的数据集合中创建相同的参考集。
- 评估以下条件:
-
如果24小时参考集的大小等于或大于3,则将条件解析为黄色。否则,将其解析为红色。
-
如果24小时参考集的持续时间等于或大于24小时的50%(12小时= 720分钟= 43,200秒),则该条件解析为黄色。否则,将其解析为红色。
-
如果7天参考集的大小等于或大于7,则该条件解析为黄色。否则,将其解析为红色。
-
如果7天参考集的持续时间等于或大于7天的30%(50.4小时= 3,024分钟= 181,440秒),则该条件解析为黄色。否则,将其解析为红色。
- 如果将至少一种情况解析为黄色,则事件分类为黄色。
否则将其分类为红色,并触发警报。
初步评估后,每个黄色事件都将以1分钟的间隔重新评估,直到变为红色或停用为止。
有关评估过程请参见下面的示例。
为了简单起见,本示例仅考虑24小时制。在此示例中,事件类型是主机上的CPU饱和。
最近24小时的历史事件具有以下持续时间和严重性:
事件1 -45秒,95.5%
事件2 -15秒,99%
事件3 -35秒,98%
事件4 -30秒,97%
事件5 -60秒,96%
排序后的集合如下所示:
持续时间:{事件2,事件4,事件3,事件1,事件5 }
严重性:{事件1,事件5,事件4,事件3,事件2 }
一个新的事件到来:事件NEW -28秒,95%。它在排序集中处于以下位置:
持续时间:{事件2,事件NEW,事件4,事件3,事件1,事件5 }
严重性:{事件NEW,事件1,事件5,事件4,事件3,事件2 }
包含右侧事件的子集如下所示:
持续时间:{事件4,事件3,事件1,事件5 }
严重性:{事件1,事件5,事件4,事件3,事件2 }
以下事件同时出现在两个子集中并形成参考集:{事件1,事件3,事件4,事件5 }。
参考集的大小为4。条件被解析为黄色。
参考集的持续时间为170秒。条件被解析为红色。
有一个黄色情况,因此“新事件”被分类为黄色,并且不会触发警报。