最近跟团队在做很多历史故障的复盘,看怎么才能够挖掘出更深层次的一些问题。
做的第一件事情,就是整理复盘框架,这个框架之前我在我的极客时间课程中分享过,就是我提出的黄金三问(Three Golden Questions)。
非常简洁,这次借着实操,打算更深入的分享下。先分享框架,再分享内在的细分环节。
故障的根因是什么?
触发原因
根本原因(可以多个如技术层面+流程管控层面)
怎么做,后面才能完全避免同样的故障?
-
生产环境上是否有同样的问题,应该立即执行的巡检和规避措施什么?
产品技术层面要做什么改进?
架构设计要做什么改进?
如涉及产品功能,测试层面需要做什么改进?