告警
文章平均质量分 76
OneAPM官方技术
北京蓝海讯通科技股份有限公司(以下简称 OneAPM)是一家领先的IT运维管理软件厂商。公司于2008年成立于北京,始终秉承「让运维更加智能」的企业使命,致力于为中国的企业级用户提供一体化的智能运维解决方案。OneAPM 通过10年以上的持续研发和不断创新,目前拥有国内最完整的 IT运维管理产品线和智能探针技术。公司的产品和服务在运 营商、金融、政府、互联网、教育、能源、交通、军工等多个行业获得了广泛应用和一致好评。
展开
-
对抗不可执行告警的四种措施
过量的不可执行告警会造成告警疲劳,浪费时间和资源,从而耽误你解决实质性的问题,可能这些已经在你身边正悄无声息地发生着:你是否自动忽略收到的多余告警?你是否收到很多与你无关的告警?每当你收到告警时,是否为了获得你真正需要的信息而采取一系列常规的行动?如果有以上这样的情况,就能确定你是在遭受着告警疲劳,本篇将会列出四种常见的不可执行告警及其解决办法。转载 2015-12-30 14:10:20 · 455 阅读 · 0 评论 -
也许狼真的来了,我们该怎么办?
《狼来了》的故事对人有启示意义,对机器也一样。运维人员每天可能接收大量的告警消息,也许有很多重复、无效的邮件信息,对运维同学来说就像一直收到「狼来了」的消息,终会有遗漏的风险。另外,如果有大量相似度高、关联性强的告警消息,同时发给运维同学,我们如何做到「万军从中取上将首级」?精准定位问题?规避无用的告警消息?原创 2016-03-23 16:44:02 · 821 阅读 · 0 评论 -
怎样创建合适的告警处理流程?
我们都知道监控对确保网站和应用的平稳运行是多么重要,但这只是一个方面。一旦发现错误,监控软件发出了告警消息你该怎么做?如何决定下一步采取什么措施?一个合理的告警流程可以帮助你优先处理最重要的问题,并且避免让问题打扰到不在职责范围内的无关人员。更广泛地说,它使得每个人都清楚地知道自己应该解决什么问题。怎样创建合适的告警处理流程?创建一个合适的告警处理流程可能会比较棘手,这个过程需要自己去摸索。适合你的原创 2016-01-14 17:35:40 · 827 阅读 · 0 评论 -
「技术大牛」是如何缩短事件平均解决时间的?
前不久,我们讨论了运维不容错过的 4个关键指标,其中平均解决时间(MTTR)被认为是衡量业务的最佳标准,随后也分析了「告警等级」对MTTR的重要性。正确看待 MTTRMTTR 为从故障发生到故障修复所经历的时间。总故障时间是关于告警事件数量与各告警事件时长的函数。原创 2016-01-07 11:55:14 · 726 阅读 · 0 评论 -
为什么「告警等级」对缩短平均修复时间如此重要?
互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设置告警等级来提高团队效率,还缺少必要的认识。针对该问题,以下几条快速指南可以供大家参考。什么是告警等级?原创 2016-01-06 10:42:10 · 559 阅读 · 0 评论 -
OneAlert 入门(三)——事件分析
OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地为事件划分优先级、分配路径,从而极大地提高团队的协作能力、优化协作流程。本文是 OneAlert 入门系列文章的第三篇,将帮助你快速了解和配置 OneAlert,从而挖掘该平台的最大价值。原创 2016-01-22 16:32:42 · 407 阅读 · 0 评论 -
OneAlert 入门(二)——事件分析
OneAlert 是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。有了 OneAlert,你可以更快更合理地为事件划分优先级、分配路径,从而极大地提高团队的协作能力、优化协作流程。本文是 OneAlert 入门系列文章的第二篇,帮助你快速了解和配置 OneAlert,从而尽早解决系统宕机或 404 错误。原创 2016-01-22 10:56:31 · 1093 阅读 · 0 评论 -
告警分析:如何帮助运维团队快速做出最佳决策?
「路漫漫其修远兮,吾将上下而求索」,「转身」不见得华丽,但我必须「转身」,不要安逸于现在的运维状况。如果你运维一线人员,是否会遇到以下情况:公司所有的服务器告警消息会塞满自己的整个邮箱,如果公司的运维团队有几个人到几十人不等,当你处理邮箱中的告警消息的时候,处理一半会发现问题已经解决了,这个现象很常见,会导致工作效率的下降。改善的方法有很多,比如团队内部多一些沟通,然而沟通的成本也是非常高的。解决原创 2016-01-19 14:53:21 · 2606 阅读 · 0 评论 -
MTTR是什么?或者说为什么别给婴儿喝白兰地
在团队纷纷谈起工作效率的时候,对运维工作者,他们通常喜欢用「故障的平均解决时间」来衡量团队的工作效率。然而这往往是不正确的。一个迅速解决大量突发事故的团队十分高效,而实际上这更有可能意味着该团队的基础设施十分脆弱易损。那我们应该使用什么标准来衡量团队的工作效率呢?原创 2016-01-18 16:46:52 · 588 阅读 · 0 评论 -
对抗告警疲劳的8种方法
本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 ITOM 管理平台 OneAPM 编译呈现。原创 2016-06-22 14:56:16 · 1416 阅读 · 1 评论