目标
业务上:制定各业务稳定性SLA,并达标。
技术上:在短期内通过一些稳定性抓手,降低线上故障的发生,提高系统的高可用性。
整体规划
今年主要着眼于短期快速提升稳定性的抓手,整体分4期来建设。
一期:组建FT、确定目标、现状调研,时间1个月左右。
二期:核心是提升故障发现能力、故障止损能力(线上问题分钟级别报警,分钟级别止损能力),时间2个月左右。
三期:基础稳定性抓手在各方向上定制化落地,进一步提高各方向的故障发现预防能力,减少故障发生和影响,时间3个月左右。
四期:保证整个增长方向具有应对大规模故障应对能力(故障预防、故障止损恢复能力),时间3个月左右。
一期规划
抓手 | 目标 | 子任务 | 备注 | 负责人 | 相关文档 |
---|---|---|---|---|---|
稳定性FT | 组建增长方向稳定性团队 |
| 单周会还是双周会 | 稳定性周会 | |
现状调研 | 确定增长各个方向稳定性现状 |
| 各方向负责人串讲 稳定性同学调研 | ||
故障定级体系 | 确定各方向故障定级方案 |
| 稳定性同学对接平台规范 各方向负责人产出相关指标 |
| |
核心链路梳理 | 摸清核心主流程业务情况 |
| 稳定性同学调研 |
二期规划
抓手 | 目标 | 子任务 | 备注 | 负责人 | 相关文档 |
---|---|---|---|---|---|
BI核心指标 | 业务核心指标故障实时报警 |
| 根据故障定级方案接入BI监控大盘 | ||
上线治理 | 上线流程规范化,减少上线变更引发的故障 |
| |||
监控报警治理 | 监控报警规范化,线上问题能够分钟级别报警 |
| |||
降级治理 | 核心接口有弱依赖降级预案 系统级别有一键降级预案 |
| |||
容量管理 | 核心接口和服务有限流,能自动化扩容 |
|
三期规划
抓手 | 目标 | 子任务 | 备注 | |||
---|---|---|---|---|---|---|
分级发布 | 线上问题提前发现,避免扩散到全量 |
| ||||
自动化Case | 保证上线核心主流程无问题 |
| ||||
压测常态化 | 定期容量预估,系统体检 |
| ||||
服务治理 | 提升系统整体稳定性 |
| 3.公司服务治理框架接入,视增长业务实际情况而定 | |||
问题定位 | 缩短问题定位时间 |
|
四期规划
抓手 | 目标 | 子任务 | 备注 | |
---|---|---|---|---|
放火防火 | 提高线上隐藏问题发现能力,预案有效性验证 |
| ||
双活建设 | 服务机房级别冗余,提高系统故障恢复能力 |
| 视橙心整体全链路压测计划而定 | |
全链路压测 | 全链路系统容量评估,系统瓶颈摸底 |
| 其它业务视是否需要而定 | |
执行说明
执行计划和时间整体会按规划的节奏来进行,但中间可能遇到不可预知的问题和风险,部分任务和计划可能存在变更。