一、引言
通常我们遇到线上问题,都需要面对以下几个问题:
1.对业务有没有影响?
2.怎么恢复?
3.为什么会发生?
4.怎么避免?
二、线上问题处理原则
目标:尽快恢复,消除影响
1.第一时间恢复系统,快速止损
2.当前负责人不能短时间解决问题,则必须进行问题升级
3.处理过程在不影响用户体验基础上,尽可能保留现场
三、线上问题处理流程
一共分为5个阶段
1.发现问题
2.定位问题
分析定位过程中,优先考虑系统最近发生的变化,主要有一下几个方面
- 故障系统最近是否有发布?
- 依赖的基础平台或资源是否升级过?
- 依赖的系统是否升级过?
- 运营是否做过运营变更?
- 网络是否有抖动?
- 最近的业务量是否上涨?是否有促销活动?
3.解决问题
- 解决问题要与定位问题为基础
- 定位问题产生的操作或原因
- 在没有定位问题原因之前,除非有完善的恢复方案(如发布回滚、切流等),不要使用各种昂发来尝试修复问题,可能还没有解决这个问题又引入了其他问题
4.回顾问题
回顾问题产生的真实原因、问题处理的合理性、提出整改措施,主要关注一下几点:
- 类似的问题还有哪些没有发生?
- 做了哪些事情,事故就不会再发生?
- 做了哪些事情,即使发生故障,也不会产生影响?
5.改进措施
根据回顾问题出的改进措施,已正式的项目管理方式进行统一的管理,采用SMART原则来跟进
你们的线上问题处理方式是什么样的呢?