线上故障定级标准

1. 前言:

 **线上故障**是指提供给客户使用的平台服务全部或部分不可用,包括服务性能的降低,如:服务延迟导致用户体验变差。在创业前期,为了抢占市场先机,产品新功能的发布速度追求往往优先于其质量,埋下了很多技术债务,部分技术债务的爆发会引起线上故障,造成客户的体验下降或经济损失。

 故障管理的目标是“尽快恢复服务到正常运行,并且最小化对业务运营的不利影响,从而尽可能地保证服务质量和可用性的水平”。在故障发生后,故障紧急处理小组会定位、分析和恢复故障,并在故障恢复后对故障进行Review和总结,制定出可执行的Actions,以提高故障处理效率和避免类似故障再次发生

2. 故障处理流程介绍

 我们使用禅道 或 公共bug池:  ****  作为跨部门协作工具,线上故障管理也借助于禅道。我们制定了下面的故障处理流程,故障禅道工单遵循该工作流,故障会被建立在 禅道-紧急修复版 执行迭代中。

在这里插入图片描述

3. 确认故障与通知协调人

当收到客户、内部员工或监控上报的潜在故障时,报告人会尽快确认故障的有效性。当确定是个故障后,会在禅道提交一个故障工单或者直接群里反馈,并通知故障协调人。协调人确保公司内业务部门、技术和产品部门被通知到位,同时将故障上报到对应群里,故障原因排查和讨论会在该群里或拉单独的故障处理群进行。

故障录入的2种方式,2选1即可
  1. 禅道对应录入地址:

  2. 对应线上bug池录入地址:

4. 定位/处理故障

  为避免无关消息干扰,故障处理人组建故障紧急处理小组,以提高故障处理效率。故障处理人在定位到问题后需将故障原因和预计多久修复同步给协调人。对于处理时间比较长的故障,紧急处理小组会每隔半小时对相关业务部门同步一次故障处理进展。

5. 故障恢复

  如确定是发布引起的故障,需将代码回滚到故障前的某个稳定版本。故障恢复后,故障处理人需跟业务影响方确认是否有数据需要修复。如有,需将影响情况反馈给协调人,并配合业务方尽快修复数据。

6. 组织故障Review

   故障Review针对的是P1、P2级别,全员邮件通知,一般安排在故障处理结束后24小时内,包括故障标题、故障回顾、事件回顾、故障原因、故障总结、改进计划等,其产出物为:故障分析报告。

故障分析报告模板见其它文章

7. 线上故障定级标准

故障定级分为P1、P2、P3和P4四个等级(依次降低)

7.1 符合下列条件之一的,为P1级事故:

安全:影响线上生产核心数据安全(丢失和泄漏)
功能:主要功能完全不能使用,主业务接口阻塞,系统崩溃、死机、瘫痪
资损:造成资损损失超过 >5k
影响范围:
有效客诉超过 >3
由于系统问题导致、不能开展核心业务的核心企业超过1家

7.2 符合下列条件之一的,为P2级事故:

功能:线上主要功能部分丧失或次要功能大部分丧失报错,或严重误导的提示信息
资损:1k< 造成资损损失 <5K
影响范围:
1< 有效客诉 <=3人

7.3 符合下列条件之一的,为P3级事故:

功能:线上次要功能异常,但通过其它方式仍然能正常使用,边界校验不全导致的报错但是不影响正常功能使用
体验:用户界面交互差或操作等待时间长
资损:造成资损损失超过 <1k
有效客诉 =1

7.4 符合下列条件之一的,为P4级事故:

界面提示描述错别字、设计排版等用户提示性问题,但是不影响业务功能并且没有收到客诉

8. 线上故障的处理措施及时效

等级处理措施及负责人处理时效
P1所有系统关联方进行问题排查, 找到问题后第一时间修复Bug确认1小时内必须有解决方案(包含临时方案和远期完整方案),Bug确认3小时内必须至少有临时方案解除当前业务影响。Bug确认24小时内,必须有完整解决方案彻底杜绝该问题。
P2整个系统研发组进行问题排查, 找到问题后第一时间修复当天发现当天修复,测试上线
P3分配研发人员进行问题排查, 排期进行修复视改动大小和紧急程度决定上线时间,一般跟着周二、周四正常迭代上线
P4分配研发人员进行问题排查, 排期进行修复视改动大小决定上线时间,一般跟着周二、周四正常迭代上线
需求类产品提交新需求视研发团队任务排期而定

9. 故障参考指标说明:

9.1 核心数据包括:
   企业信息
   企业业务线价格
   数据泄漏
   等结合业务
9.2主要功能包括:
  根据业务写
9.3. 有效客诉
  客户出现负面或者敏感词汇比如:投诉,强烈要求退款等,就直接上升为 P1和P0 事件
  其他情况,需要定性为客诉,需要公司层面出面统一定性
9.4. 资损
   需要公司层面出面统一定性
9.5. P1 和 P2 故障定级
   一般故障可以根据定性标准定级P0、P1
   对于存在异议的定级可直接上升到公司层面来定性
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CVSS(Common Vulnerability Scoring System)是一种常用的漏洞评分系统,用于评估计算机系统的漏洞严重程度和危害程度,并提供给相关方便于采取相应的应对措施。 CVSS打分定级标准主要包括以下几个方面: 1. 基本指标:基于漏洞的特性和易受攻击的程度来对漏洞进行打分。包括漏洞的攻击向量(Attack Vector)、攻击复杂度(Attack Complexity)、攻击向量的身份验证(Privileges Required)、对受影响的组件的冲击(User Interaction)和漏洞的机密性、完整性和可用性冲击(Confidentiality, Integrity, and Availability Impact)等。 2. 环境指标:用于评估漏洞对系统环境的影响程度。包括攻击向量所需要的权限(Privileges Required)、对用户交互的要求(User Interaction Required)和系统组件所在的用户界面(Scope)等。 3. 通用指标:针对指标1和指标2的评分结果进行综合计算,得出最终的CVSS分数。 CVSS分数的的等级标准主要有以下几个级别: 1. 严重(Critical):CVSS分数为9.0 - 10.0,对系统的影响非常大,可能导致系统完全受控或敏感信息泄露。需要立即采取行动进行修复。 2. 高危(High):CVSS分数为7.0 - 8.9,对系统的影响比较大,可能导致系统受控或敏感信息部分泄露。需要尽快采取行动进行修复。 3. 中危(Medium):CVSS分数为4.0 - 6.9,对系统的影响一般,可能导致系统资源的非关键性泄露或中断。需要在合理的时间内进行修复。 4. 低危(Low):CVSS分数为0.1 - 3.9,对系统的影响较小,可能导致系统性能或功能上的一些缺陷。可以在适当的时间内进行修复。 通过CVSS的打分定级标准,系统管理员和安全团队可以快速了解漏洞的严重程度,并优先采取相应的应对措施,以保护系统的安全性和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值