- 基本的事后总结条件为:
(a)用户可见的宕机时间或者服务质量降级程度达到一定标准。
(b)任何类型的数据丢失。
(c)on-call 工程师需要人工介入的事故(包括回滚、切换用户流量等)。
(d)问题解决耗时超过一定限制。
(e)监控问题(预示着问题是由人工发现的,而非报警系统)。
- 协作和知识共享
(a)实时协作:可以很快地收集数据和想法
(b)开放的评论系统:使大家都可以参与进来提供解决方案
(c)邮件通知:
读书笔记(SRE:Google运维解密):第15章 事后总结:从失败中学习
最新推荐文章于 2020-12-03 21:42:12 发布