如果对于生产环境的故障没有一个提前的准备,出现故障时,团队必定手忙脚乱。前段时间,笔者设计了一个线上故障处理的流程模板。当出现故障时,根据这个模板创建一个故障单,然后团队的人各司其职,将自己的那部分信息填到故障单中。方便排查人排查故障的根因。
当然,这个故障单应该是可以自动化生成的,但是,并不是每个团队一开始就有这样的能力去建设。所以,小团队时,手工创建这个故障单也是可以的。
同时,你也会发现,这个故障处理模板很大程度上,其实是一个初级的AIOps。
以下是故障单的内容:
事故业务现象
<由谁在什么时间点报什么问题,尽量详细,比如设备id,用户id等>
事件发生频率
偶发 or 必现
事故复现方法
方便大家复现。
事件时间流记录
以事件时间流的方式记录出现事故前,事故中的操作记录
注:时间能精确就精确
时间 |
事件 |
备注 |
202 |