前言
在咨询的经历中,发现有些软件项目经常出现线上事故,出现了线上事故之后,第一时间会去修复这个问题,第二时间,则是问责。
这是一个很有意思的现象,通常在一些传统行业的团队或者政府背景的团队中,发生了线上事故,他们会启动问责程序,找到事故的负责人,并对他做出相应的处罚。
作为程序员,大家都知道,代码的世界不出错是不可能的。问责在很大程度上会导致团队成员不敢写代码,不敢上线,不敢触碰线上环境的一切东西,最终导致团队研发效率下降。
那正确的做法应该是什么呢?
这里就给大家介绍一下Blameless Postmortem,中文意思就是无过错验尸报告。
什么是无过错验尸报告?
无过错验尸报告是对线上事故的书面记录,用来描述:
- 这一线上事故的影响。
- 减轻或解决事故所采取的行动。
- 事故的根本原因。
- 为防止该事故再次发生而采取的后续行动。
无过错验尸报告这个名字是英文直译过来的,如果觉得这个名字过于血腥,可以叫它无过错反思报告,或者无过错事故报告,或者无过错事后分析报告。但更多的人都习惯亲切的叫它验尸报告。
之所以强调无过错,是因为这样的话人们就不会在写报告的时候由于害怕被问责,从而互相埋怨或者隐藏自己的过错。
为什么需要无过错验尸报告?
验尸报告的目标是了解所有导致事故的根本原因,记录事故的经过以供未来参考,并制定有效的预防措施以减少事故再次发生的可能性。</