故障管理:故障定级和定责

最新推荐文章于 2024-05-20 10:47:13 发布

韩淼燃

最新推荐文章于 2024-05-20 10:47:13 发布

阅读量1.9k

点赞数 1

分类专栏： # 运维体系管理文章标签：大数据

本文链接：https://blog.csdn.net/weixin_36691991/article/details/127867067

版权

运维体系管理专栏收录该内容

40 篇文章 11 订阅

订阅专栏

故障管理的第一步是对故障的理解，只有正确地面对故障，我们才能够找到更合理的处理方式。今天就来和你分享关于故障定级和定责方面的经验。

故障的定级标准

上期文章中介绍到，如果我们的注意力仅仅盯着故障本身，就非常容易揪着责任人不放，进而形成一些负面效应，所以我们要将更多的注意力放到故障背后的技术和管理问题上。

但是，这并不是说对故障本身就可以不重视，相反，故障发生后，一定要严肃对待。这里就需要制定相应的标准和规范来指导我们的处理过程。这个过程并不是一定找出谁来承担责任，或者一定要进行处罚，而是期望通过这样的过程，让我们能够从故障中深刻地认识到我们存在的不足，并制定出后续的改进措施。

这里有一个关键角色，我们称之为技术支持，也有的团队叫 NOC(Network Operation Center)。这个角色主要有两个职责:一是跟踪线上故障处理和组织故障复盘，二是制定故障定级定责标准，同时有权对故障做出定级和定责，有点像法院法官的角色，而上面的两个标准就像是法律条款，法官依法办事，做到公平公正。

所以，这里的一个关键就是我们要有明确的故障定级标准。这个标准主要为了判定故障影响程度，且各相关利益方能够基于统一的标准判断和评估。现实情况中，因为各方受到故障的影响不同，对故障影响的理解也不同，所以复盘过程中，经常会出现下面这两种争执场景。

1. 技术支持判定故障很严重，但是责任方认为没什么大不了的，不应该把故障等级判定到如此之高;

2. 技术支持认为故障影响较小，但是受影响方却认为十分严重，不应该将故障等级判定得这么低。

遇到这种情况，技术支持作为故障判定的法官，就必须拿出严格的判定标准，并说明为什么这么判定。我们将故障等级设置为P0~P4这么5个级别，P0为最高，P4为最低。对于电商，主要以交易下跌、支付下跌、广告收入资损这些跟钱相关的指标为衡量标准。对于其它业务如用户IM等，主要区分业务类型，制定符合业务特点的定级标准。两个示例如下。

交易链路故障定级标准示例:

用户IM故障定级标准示例:

故障定级的标准，会由技术支持与各个业务研发团队进行点对点的细节沟通讨论，从业务影响角度把影响面、影响时长这些因素串联起来。这样即使在后续出现争执，也会有对应的标准参考。这个标准可能覆盖不到有些故障影响或特例，但是技术支持可以根据自己的经验进行“自由裁量”。同时，每个季度或半年对标准进行一次修订和完善。这样，我们前面提到的争执就会越来越少，再加上我们内部树立了“技术支持角色拥有绝对话语权和决策权”的制度，执行过程中就会顺畅很多。

对于P0故障，通常是由两个级以上的P1故障叠加造成的，这说明已经发生了非常严重的全站故障。不同的故障定级，在故障应对时采取的策略也就不同。一般来说，P2及以上故障就需要所有相关责任人马上上线处理，并及时恢复业务。对于P3或P4的问题，要求会适当放宽。整个过程，技术支持会给出一个基本判断，然后会组织召集临时故障应急小组处理。

关于全年全站，或者分业务的可用性和可靠性，这个可以借鉴业界通用的MTBF(Mean Time Between Failures，平均故障间隔时间)、MTTR(Mean Time To Recovery，平均修复时间)、MTTF(Mean Time To Failure ，平均失效前时间)这几个指标来衡量，这里我们就不详细介绍了。