团队线上故障处理模板(SRE必收藏)

d389ee11532d6c223afe63893a7653af.png

如果对于生产环境的故障没有一个提前的准备,出现故障时,团队必定手忙脚乱。前段时间,笔者设计了一个线上故障处理的流程模板。当出现故障时,根据这个模板创建一个故障单,然后团队的人各司其职,将自己的那部分信息填到故障单中。方便排查人排查故障的根因。

当然,这个故障单应该是可以自动化生成的,但是,并不是每个团队一开始就有这样的能力去建设。所以,小团队时,手工创建这个故障单也是可以的。

同时,你也会发现,这个故障处理模板很大程度上,其实是一个初级的AIOps。

以下是故障单的内容:

事故业务现象

<由谁在什么时间点报什么问题,尽量详细,比如设备id,用户id等>

事件发生频率

偶发 or 必现

事故复现方法

方便大家复现。

事件时间流记录

以事件时间流的方式记录出现事故前,事故中的操作记录

注:时间能精确就精确

时间
事件
备注
202
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值