稳定性建设

 

目标

业务上:制定各业务稳定性SLA,并达标。

技术上:在短期内通过一些稳定性抓手,降低线上故障的发生,提高系统的高可用性。

整体规划

 今年主要着眼于短期快速提升稳定性的抓手,整体分4期来建设。

一期:组建FT、确定目标、现状调研,时间1个月左右。

二期:核心是提升故障发现能力、故障止损能力(线上问题分钟级别报警,分钟级别止损能力),时间2个月左右。

三期:基础稳定性抓手在各方向上定制化落地,进一步提高各方向的故障发现预防能力,减少故障发生和影响,时间3个月左右。

四期:保证整个增长方向具有应对大规模故障应对能力(故障预防、故障止损恢复能力),时间3个月左右。

一期规划

抓手目标子任务备注负责人相关文档
稳定性FT组建增长方向稳定性团队
  1. 人员职责,覆盖RD\SRE\QA三方团队
  2. 周会制度,定期完成稳定性项目推进,故障复盘
单周会还是双周会 稳定性周会
现状调研确定增长各个方向稳定性现状
  1. 各业务方向系统串讲
  2. 历史故障复盘讨论
  3. 核心服务分级
  4. 现状问题和业务规划讨论调整
 

各方向负责人串讲

稳定性同学调研

 
故障定级体系确定各方向故障定级方案
  1. 产出各业务核心指标Wiki
  2. 产出不可用时长计算标准
  3. 产出故障级别标准
  4. 产出各业务故障等级判定细节标准
  5. 产出各业务SLA
  6. 产出故障处理和善后规范Wiki
 

稳定性同学对接平台规范

各方向负责人产出相关指标

橙心优选推广

 

核心链路梳理摸清核心主流程业务情况
  1. 产出各业务核心链路梳理Wiki,包括核心接口,业务流程图、第三方依赖拓扑、存储依赖等
 稳定性同学调研 

二期规划

抓手目标子任务备注负责人相关文档
BI核心指标业务核心指标故障实时报警
  1. 产出各业务核心Woater实时指标监控和报警
根据故障定级方案接入BI监控大盘  
上线治理上线流程规范化,减少上线变更引发的故障
  1. 产出线上服务部署规范Wiki,包括集群分组、double check机制、分组停留时间等
  2. 推动各业务模块部署配置规范化
  3. 产出上线Checklist Wiki
  4. 推动Odin部署信用分建设,达到良好级别
   
监控报警治理监控报警规范化,线上问题能够分钟级别报警
  1. 产出服务监控报警规范Wiki
  2. 新建增长接入层监控大盘、各业务核心监控大盘、各业务核心存储大盘
  3. 建立各业务报警值班跟进制度
  4. 推动Odin监控健康分建设,达到良好级别
  5. 推动Odin灭火图、容量水位建设,核心模块全接入
  6. 无效报警治理
   
降级治理

核心接口有弱依赖降级预案

系统级别有一键降级预案

  • 弱依赖降级
  1. 产出各业务核心接口的弱依赖梳理Wiki
  2. 各业务核心接口弱依赖能降级,并接入911平台
  • 一键降级
  1. 产出各业务系统一键降级技术方案相关Wiki
  2. 各业务系统具备一键降级能力,并接入911平台
   
容量管理核心接口和服务有限流,能自动化扩容
  1. 核心模块建立哨兵系统
  2. 核心接口单机限流
  3. 核心接口接入层限流
  4. 核心模块接入卡尔平台自动化扩容
   


三期规划

抓手目标子任务备注   
分级发布线上问题提前发现,避免扩散到全量
  1. 产出线上小流量系统发布技术方案
  2. 建立各业务线上预览、小流量、全量3级发布机制
  3. 产出线上分级发布规范Wiki
    
自动化Case保证上线核心主流程无问题
  1. 产出各业务自动化Case实现技术方案
  2. 产出各业务核心主流程自动化Case梳理Wiki
  3. 线上分级发布集成自动化Case
    
压测常态化定期容量预估,系统体检
  1. 产出常态化压测标准规范Wiki,包括并且不限于压测工具、压测流程、压测报告、压测时间窗口等
  2. 定期压测演练,评估容量
    
服务治理提升系统整体稳定性
  1. 产出Rpc调用规范Wiki,包括不限于Metric上报、日志、超时设置、重试设置、Trace规范等
  2. Rpc全面接入Disf
  3. 公司服务治理框架接入

 

3.公司服务治理框架接入,视增长业务实际情况而定   
问题定位缩短问题定位时间
  1. 产出增长方向问题定位技术方案,并在各业务落地
    

 

四期规划

抓手目标子任务备注 
放火防火提高线上隐藏问题发现能力,预案有效性验证
  1. 技术方案调研设计
  2. 定期防火演练
  
     

双活建设

服务机房级别冗余,提高系统故障恢复能力
  1. 各业务双活方案的调研和设计
  2. 911一键切流能力
视橙心整体全链路压测计划而定 
全链路压测全链路系统容量评估,系统瓶颈摸底
  1. 搜索支持全链路压测
  2. 推荐支持全链路压测
其它业务视是否需要而定 
     

执行说明

执行计划和时间整体会按规划的节奏来进行,但中间可能遇到不可预知的问题和风险,部分任务和计划可能存在变更。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值