读书笔记（SRE：Google运维解密）：第15章事后总结：从失败中学习

最新推荐文章于 2020-12-03 21:42:12 发布

github_37320188

最新推荐文章于 2020-12-03 21:42:12 发布

阅读量301

点赞数

分类专栏：读书笔记（SRE：Google运维解密）文章标签：运维

本文链接：https://blog.csdn.net/github_37320188/article/details/108974686

版权

读书笔记（SRE：Google运维解密）专栏收录该内容

27 篇文章 9 订阅

订阅专栏

                    
                        
                    
                    基本的事后总结条件为：
 （a）用户可见的宕机时间或者服务质量降级程度达到一定标准。
 （b）任何类型的数据丢失。
 （c）on-call 工程师需要人工介入的事故（包括回滚、切换用户流量等）。
 （d）问题解决耗时超过一定限制。
 （e）监控问题（预示着问题是由人工发现的，而非报警系统）。
  
协作和知识共享
 （a）实时协作：可以很快地收集数据和想法
 （b）开放的评论系统：使大家都可以参与进来提供解决方案
 （c）邮件通知：