mttr_MTTR已死,CIRT万岁

mttr

IT操作社区的游戏正在发生变化,这意味着过去的规则变得越来越不合理。 组织需要在正确的上下文中提供准确,可理解且可操作的指标,以衡量运营绩效并推动关键业务转型。

客户使用现代工具的次数越多,他们管理的事件类型越多,将所有这些不同的事件粉碎成一个桶来计算代表操作性能的平均解决时间的意义就越小。做了很长时间。

历史和指标

历史表明,在分析信号以防止错误和误解时,上下文是关键。 例如,在1980年代,瑞典建立了一个系统来分析水听器信号,以提醒他们注意瑞典当地水域中的俄罗斯潜艇。 瑞典人使用了他们认为代表一类俄罗斯潜艇的声学特征,但实际上是鲱鱼在面对潜在掠食者时释放出的气泡 。 对度量标准的这种误解加剧了国家之间的紧张关系,几乎导致了战争。

Funny fish cartoon

平均解决时间(MTTR)是运营经理用来获得实现目标的洞察力的主要运营绩效指标。 这是一项基于系统可靠性工程的古老措施。 MTTR已在许多行业中得到采用,包括制造,设施维护以及最近的IT运营,它代表解决事件从创建给定时间以来的平均时间。

通过将解决所有事件所需的时间(从事件创建到解决的时间)除以事件总数,可以计算出MTTR。

MTTR formula

MTTR就是它所说的:这是所有事件的平均值。 MTTR将高紧急事件和低紧急事件混在一起。 它还会重复计算每个单独的,未分组的事件,并导致解决时间有偏差。 它包括在相同上下文中的手动解决的事件和自动解决的事件。 它将创建后几天(或几个月)内提交的事件混在一起,甚至完全忽略掉。 最后,MTTR包括每个微小的瞬时突发事件(在120秒内自动关闭的事件),这些突发事件要么是嘈杂的非问题,要么是由机器快速解决的。

Variability in incident types

MTTR收集所有事件,无论其类型如何,将其放入单个存储桶中,将它们混在一起,然后计算整个事件集中的“平均”解决时间。 这种过于简单的方法会导致嘈杂,错误和误导性的操作执行指示。

一种衡量绩效的新方法

关键事件响应时间(CIRT)是一种新的,更加准确的评估运营绩效的方法。 CIRT通过使用以下技术来消除来自传入信号的噪声来关注最可能影响业务的事件:

  1. 真正的影响业务(或潜在影响)的事件很少具有低紧急性,因此请排除所有低紧急性事件。
  2. 真正的影响业务的事件很少(如果有的话)可以通过监视工具自动解决,而无需人工干预,因此请排除人为无法解决的事件。
  3. 在120秒内解决的短暂,突发和瞬态事件极不可能是真正影响业务的事件,因此请排除它们。
  4. 长时间不被注意,被记录或忽略(未确认,未解决)的事件很少对业务有影响。 排除他们。 注意:此阈值可以是特定于客户的统计得出的数字(例如,均值上方两个标准差),以避免使用任意数字。
  5. 由单独的警报生成的单个,未分组的事件不代表较大的业务影响事件。 因此,以非常保守的阈值(例如两分钟)模拟事件分组,以计算响应时间。

应用这些假设对响应时间有什么影响? 简而言之,非常非常大的效果!

由于MTTR会计算更长的人为偏差响应时间,因此它不能很好地指示运营绩效。 另一方面,CIRT是针对对业务最重要的事件的有意措施。

与CIRT一起明智使用的另一项关键措施是已确认和解决的事件百分比。 这很重要,因为它可以验证CIRT(或该问题的MTTA / MTTR)是否值得利用。 例如,如果MTTR结果很低,例如10分钟,听起来不错,但是如果仅解决了42%的事件,那么该MTTR就是可疑的。

总之,CIRT和已确认和已解决的事件百分比构成了一组有价值的指标,这些指标使您可以更好地了解自己的运营方式。 衡量绩效是提高绩效的第一步,因此,这些新措施对于实现组织可衡量的持续改进周期至关重要。

翻译自: https://opensource.com/article/19/7/measure-operational-performance

mttr

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值