对抗告警疲劳的8种方法

本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 ITOM 管理平台 OneAPM 编译呈现。

2016-06-22 14:56:16

阅读数:377

评论数:0

也许狼真的来了,我们该怎么办?

《狼来了》的故事对人有启示意义,对机器也一样。运维人员每天可能接收大量的告警消息,也许有很多重复、无效的邮件信息,对运维同学来说就像一直收到「狼来了」的消息,终会有遗漏的风险。另外,如果有大量相似度高、关联性强的告警消息,同时发给运维同学,我们如何做到「万军从中取上将首级」?精准定位问题?规避无用...

2016-03-23 16:44:02

阅读数:630

评论数:0

OneAlert 入门(三)——事件分析

OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地为事件划分优先级、分配路径,从而极大地提高团队的协作能力、优化协作流程。本文是 OneAlert 入门系列文...

2016-01-22 16:32:42

阅读数:281

评论数:0

OneAlert 入门(二)——事件分析

OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地为事件划分优先级、分配路径,从而极大地提高团队的协作能力、优化协作流程。本文是 OneAlert 入门系列文...

2016-01-22 10:56:31

阅读数:573

评论数:0

告警分析:如何帮助运维团队快速做出最佳决策?

「路漫漫其修远兮,吾将上下而求索」,「转身」不见得华丽,但我必须「转身」,不要安逸于现在的运维状况。如果你运维一线人员,是否会遇到以下情况: 公司所有的服务器告警消息会塞满自己的整个邮箱,如果公司的运维团队有几个人到几十人不等,当你处理邮箱中的告警消息的时候,处理一半会发现问题已经解决了,这个现象...

2016-01-19 14:53:21

阅读数:1161

评论数:0

MTTR是什么?或者说为什么别给婴儿喝白兰地

在团队纷纷谈起工作效率的时候,对运维工作者,他们通常喜欢用「故障的平均解决时间」来衡量团队的工作效率。然而这往往是不正确的。一个迅速解决大量突发事故的团队十分高效,而实际上这更有可能意味着该团队的基础设施十分脆弱易损。那我们应该使用什么标准来衡量团队的工作效率呢?

2016-01-18 16:46:52

阅读数:450

评论数:0

怎样创建合适的告警处理流程?

我们都知道监控对确保网站和应用的平稳运行是多么重要,但这只是一个方面。一旦发现错误,监控软件发出了告警消息你该怎么做?如何决定下一步采取什么措施?一个合理的告警流程可以帮助你优先处理最重要的问题,并且避免让问题打扰到不在职责范围内的无关人员。更广泛地说,它使得每个人都清楚地知道自己应该解决什么问题...

2016-01-14 17:35:40

阅读数:483

评论数:0

「技术大牛」是如何缩短事件平均解决时间的?

前不久,我们讨论了运维不容错过的 4个关键指标,其中平均解决时间(MTTR)被认为是衡量业务的最佳标准,随后也分析了「告警等级」对MTTR的重要性。正确看待 MTTRMTTR 为从故障发生到故障修复所经历的时间。总故障时间是关于告警事件数量与各告警事件时长的函数。

2016-01-07 11:55:14

阅读数:362

评论数:0

为什么「告警等级」对缩短平均修复时间如此重要?

互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设...

2016-01-06 10:42:10

阅读数:345

评论数:0

对抗不可执行告警的四种措施

过量的不可执行告警会造成告警疲劳,浪费时间和资源,从而耽误你解决实质性的问题,可能这些已经在你身边正悄无声息地发生着: 你是否自动忽略收到的多余告警? 你是否收到很多与你无关的告警? 每当你收到告警时,是否为了获得你真正需要的信息而采取一系列常规的行动? 如果有以上这样的情况,就能确定你是在遭受...

2015-12-30 14:10:20

阅读数:328

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭