SRE附录C~事故状态文档示范

莎士比亚搜索服务 新韵文+过载事故:2015-10-21

(沟通负责人会随时更新事故概要)

摘要

莎士比亚搜索服务由于新发现的韵文不在索引中而处于连锁故障状态

状态

活跃,事故编号 ##45

事故处理中心

IRC #shakespeare 频道

事故处理组织架构:(参与人)

  • 目前事故负责人:xxx

  • 运维负责人:

  • 计划负责人:

  • 沟通负责人:

  • 下一个事故总负责人:待定 (沟通负责人在交接班时或者每4小时更新一次)

细节状态

最终更新时间 2015-10-21 15:28 UTC,Jennifer

退出条件

  • 向莎士比亚搜索服务的Search
  • Corpus中添加新的韵文(TODO)
  • 在30分钟内维持SLO,可用性为99.99%,延迟为99%<100ms(TODO)

代办列表以及提交的工单

  • 执行MapReduce任务,重新索引Shakespeare corpus(DONE)
  • 借用一些紧急资源来提高容量(DONE)
  • 启用 flux capacitor,在集群之间负载均衡(TODO)

事故时间线(倒叙排列,时区为UTC)

  • 2015-10-21 15:28 UTC jennifer

    ——全球服务容量提升为2倍

  • 2015-10-21 15:21 UTC jennifer

    ——将所有流量导向USA-2泄洪集群,同事将其他集群下线,以便让这些集群从连锁故障中恢复,同时启动更多任务

    ——MapReduce索引任务完成,等待Bigdata复制到所有集群

  • 2015-10-21 15:10 UTC martym

    ——向Shakespeare corpus中增加新的韵文,同时启动MapReduce任务

  • 2015-10-21 15:04 UTC martym

    ——从Shakespeare-discuss@ 邮件列表中获得了新发现的韵文全文

  • 2015-10-21 15:01 UTC docbrown

    ——由于出现连锁故障,声明目前进入紧急状态

  • 2015-10-21 14:55 UTC docbrown

    ——出现大量紧急报警,全部集群出现 ManyHttp500s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值