故障总结|从事故中学习

在日常事故中,发现很多开发人员写故障总结就是走个过场,不清不楚,还会漏掉一些实际问题。其实一份好的事故总结能够加强自身对错误的反思和解决,并且能够帮助团队内其他人避免类似错误重犯,降低犯错几率,从而保障服务稳定性。

一般一个好的故障总结都会有如下几个重要特点:

  • 看得懂,即便是一个非专业人员也能看懂来龙去脉;

  • 有数据,通过数据说清楚故障真实原因、造成损失;

  • 免指责,不要指责个人,以团队的名义说清楚解决方案和后续避免措施。

分享一份我在工作过程中经常使用的事故总结模版,以加快事故总结效率。

事项内容
概述一个到两个简短的句子,总结促成因素、时间线摘要和影响。例如:在  8 月 13 日早上,由于主数据库机器上的进程故障,遭受了 1 分钟的请求访问超时。
影响‍‍用数字说明影响范围。例如:0.01%  用户下单失败,预计造成损失 578w。
开始和结束时间
故障发生时间和终止时间,永远试图减少故障发生间隔
原因‍故障导致的真实原因,例如:由于订单数据的缓存过期,所有请求打到数据库,进而导致数据库  CPU 升高,无法处理更多请求。
解决方案包括对解决问题的方法的描述。如果有临时解决方案与长期解决方案一起描述。
临时方案:已经临时扩容  10 倍容量以减轻级联故障。
长期方案:问题解决方案、时间线和对应负责人。
时间线事前、事中、事后的整个过程,要非常具体,并包括确切的数字。
时间线描述
11:45收到HTTP 500电话告警
11:47发现数据库CPU飙升
…..….监控数据走势图
12:0010倍扩容,问题得到暂时解决
专业术语对于没有接触过该系统,但是故障中出现的专业术语描述
事后学习此次事故中哪些事情处理的值得称赞;什么事件做的不好,需要重点改进....
撰写者xxx
撰写时间20220813

原创不易,随手关注或者”在看“,诚挚感谢!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Spring_java_gg

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值