读书笔记(SRE:Google运维解密):第14章 紧急事故管理

本文介绍了Google运维中的紧急事故管理流程,包括嵌套式职责分离、控制中心设立、实时事故状态文档和明确的职责交接。事故总控、事务处理团队、发言人和规划负责人各司其职,确保高效解决事故。最佳实践包括划分优先级、事前准备、建立信任、反思、考虑替代方案、练习和换位思考。
摘要由CSDN通过智能技术生成
  • 紧急事故的流程管理要素
    (a)嵌套式职责分离:在事故处理中,让每个人清楚自己的职责是非常重要的
    (b)控制中心:受到事故影响的部门或者人需要知道他们可以与事故总控负责人联系。在很多情况下,可以设立一个“作战室”(warroom),将处理问题的全部成员挪到该地办公。
    (c)实时事故状态文档
    (d)明确公开的职责交接

以下是系统中可以分配给某个人的角色:

  • 事故总控(incident command):事故总控负责人掌握这次事故的概要信息。他们负责组建事故处理团队,按需求和优先级将一些任务分配给团队成员。未分配的职责仍由事故总控人负责。如果有必要的话,他们要负责协调工作,让事务处理团队可以更有效地解决问题,比如代申请访问权限、收集联系信息等。
  • 事务处理团队(operational work):事务处理团队负责人在与事故总控负责人充分沟通的情况下,负责指挥团队具体执行合适的事务来解决问题。事务处理团队是在一次事故中唯一能够对系统做修改的团队。
  • 发言人(communication):该人是本次事故处理团队的公众发言人。他的职责包括向事故处理团队和所有关心的人发送周期性通知(通常以电子邮件形式),同时可能要负责维护目前的事故文档,保证其正确性和信息的及时性。
  • 规划负责人(planning):规划负责人负责为事务处理团队提供支持,负责处理一些持续性工作,例如填写Bug报告记录系统,给事务处理团队订晚餐,安排职责交接记录。同
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值