遇到线上问题该怎么办?

一、引言

  通常我们遇到线上问题,都需要面对以下几个问题:

1.对业务有没有影响?

2.怎么恢复?

3.为什么会发生?

4.怎么避免?

二、线上问题处理原则

        目标:尽快恢复,消除影响

1.第一时间恢复系统,快速止损

2.当前负责人不能短时间解决问题,则必须进行问题升级

3.处理过程在不影响用户体验基础上,尽可能保留现场

三、线上问题处理流程

      一共分为5个阶段

1.发现问题

2.定位问题

    分析定位过程中,优先考虑系统最近发生的变化,主要有一下几个方面

  • 故障系统最近是否有发布?
  • 依赖的基础平台或资源是否升级过?
  • 依赖的系统是否升级过?
  • 运营是否做过运营变更?
  • 网络是否有抖动?
  • 最近的业务量是否上涨?是否有促销活动?

3.解决问题

  • 解决问题要与定位问题为基础
  • 定位问题产生的操作或原因
  • 在没有定位问题原因之前,除非有完善的恢复方案(如发布回滚、切流等),不要使用各种昂发来尝试修复问题,可能还没有解决这个问题又引入了其他问题

4.回顾问题

    回顾问题产生的真实原因、问题处理的合理性、提出整改措施,主要关注一下几点:

  • 类似的问题还有哪些没有发生?
  • 做了哪些事情,事故就不会再发生?
  • 做了哪些事情,即使发生故障,也不会产生影响?

5.改进措施

    根据回顾问题出的改进措施,已正式的项目管理方式进行统一的管理,采用SMART原则来跟进

你们的线上问题处理方式是什么样的呢?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值