两大典型业务场景:“1-5-10”故障快恢和“变更三板斧”故障预防
十四五规划下,各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大,迭代速度加快,系统复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。下述有几点典型场景和挑战:
场景一:分布式系统面临稳定性保障新挑战
近年来,虽然稳定性关注度日益提高,新技术蓬勃发展,重大故障依然频发且影响巨大。
例如,2021年,某证券 IDC 故障 2 小时,导致客户无法交易,产生资损;某视频网站,服务器故障 3 小时无法访问,引发舆论……
技术的不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击依然给生产带来极大风险。
场景二:政策引导IT系统稳定性建设平稳推进
随着数字化转型政策的推进,越来越多国民级应用诞生,大大方便了人们的日常生活,各个企业也相继推出自己的客户端。
然而,大多数企业没有经历过多年互联网发展的锤炼,应对线上风险能力不足,亟需以最短时间完成稳定性运维能力的积累,少走弯路。
场景三:传统运维手段已无法满足要求
传统运维存在运维工具割裂、面向基础设施而非业务、被动运维、缺乏规范化的流程机制体系等问题。
企业应遵循 SRE(Site Reliability Engineering)和平台运维(Platform Ops)的创新理念,通过软件来实现系统管理、问题发现、问题解决和自动化运维工作。
在现实生活中,无论建造摩天大楼还是家庭工程维护,在保证工程质量的同时,更重要的是避免出现安全事故,造成人员伤害,因此需要一套标准化的工艺流程、技术标准和验收手段等。在软件行业中,同样需要标准化的技术能力和方法论,来保障线上业务稳定性。
于是,从 2018 年起,阿里巴巴集团便致力于 IT 软件领域的安全生产建设:一方面加强高可用架构的基础建设,另一方面,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。
为此,数字化安全生产平台(DPS)应势而生。DPS 浓缩了阿里巴巴十年运维经验,以 PlatformOps 为理念,以保障业务连续性为目标的一站式管控 SRE 运维平台,具备场景化、数字化和云原生化三大典型特征。
- 场景化:DPS 以应急场景为中心,弱化组织架构带来的运维限制,同时,DPS 全面的监控和告警规则配置可以支持涵盖业务的各个场景。
- 数字化:DPS 提供数字化监控大屏、智能化告警、智能故障定位、白屏化故障快恢手段和数字化度量、人员管理等能力,为企业数字化进程添砖加瓦。
- 云原生化:DPS 以阿里云丰富的云原生产品作为技术支撑,且具备足够的开放性,可以与阿里云一方、二方和开源系统等进行关联。
数字化安全生产平台 (DPS) 作为阿里巴巴集团数十年互联网探索的沉淀,在平台的架构和演进方面主要关注以下几点:
- 明确目标和场景:安全生产是全局工程,其能力取决于木桶最短板。因此安全生产需要有明确的目标和场景,且保证主体框架的完整。
- 打通组织架构:安全生产不仅要解决人和系统、代码的问题,还需要解决人和人、人和制度的问题。因此安全生产需要阿里和行业的优秀技术在一个体系内集成和打通。
- 面向未来架构:安全生产同时关注成本和减少损失。因此,安全生产需具有一定的抗技术周期性,架构设计除了要兼容最新的技术栈,也要面向未来架构进行设计。
数字化安全生产 DPS 支持两大典型业务场景:“1-5-10”故障快恢和“变更三板斧”故障预防。
平台定位
浓缩阿里巴巴十年运维经验,以PlatformOps为理念,以保障业务连续性为目标的一站式管控SRE运维平台
行业方案
质效医保、数字化防疫、金融核心系统上云、新零售大促保障
业务场景
场景一:“1-5-10”故障快恢
重启、回滚、扩容、切流、限流、降级
事前准备:风险挖掘、故障等级定义、监控配置
事中应急:故障通告、故障响应、故障快恢
业务目标:1分钟发现,5分钟处置,10分钟恢复
场景二:“变更三板斧”故障预防
灰度发布、应用监控、应用回滚
变更准备:变更接入、变更规则设定、回滚预案
变更执行:变更灰度、变更观测、变更回滚
业务目标:可观测,可灰度,可回滚
方案能力
服务支撑
全链路监控服务、故障应急服务、演练评测服务、变更管控服务
产品能力
告警域、监控域、故障域、预案域、快恢域、变更域、演练域、工单域
“1-5-10”故障快恢
数字化安全生产平台提供对应急事件和故障的发现、响应和恢复的全生命周期管理。“1-5-10” 对应故障的“1 分钟发现 - 5 分钟响应- 10 分钟恢复”,是定义故障处理的时效性目标。
- 1 分钟发现:通过建立围绕业务应用的全链路监控能力,能够实时监控业务健康度,如发现稳定性问题将秒级通报至应急保障服务组进行排查,降低故障发生的可能性。
- 5 分钟响应:通过建立应急响应渠道和全链路故障定位能力,能够快速拉通故障排查人员,基于AIOps智能故障定位和基于ChatOps进行故障状态更新和通知流转,提升故障处理效率。
- 10 分钟恢复:通过建立完善的故障快恢体系,基于方案内置丰富的快恢能力,能够根据不同的故障类型智能化推荐合适的快恢预案,缩短故障恢复时长。
目标
提升故障1分钟发现,5分钟响应&定位,10分钟恢复能力,缩短故障恢复时长,降低故障影响面
风险
业务风险、应用风险、系统风险、历史故障
业务
业务特征、业务场景、业务架构、系统架构
组织
研发、运维、测试、产品、业务负责人
1-5-1 门户
我的工作台、故障单管理、业务监控大盘、安全生产运营大盘
故障发现
全链路监控、业务场景梳理、故障结构化定义、智能告警
故障响应&定位
故障通告、应急协同、ChatOps、业务初因定位、应用根因定位
故障恢复
快恢能力建设、快恢系统集成、快恢预案编排、快恢预案推荐
数据报表
故障报表、事件报表、团队报表、人员评价
结果
重大故障收敛、无重大故障时长(MTBF,MTTR)、业务可用性指标(SLO,SLI)
“变更三板斧”故障预防
数字化安全生产平台 DPS 将极易引发线上故障的变更操作纳入稳定性管控体系,做到对变更操作的“可观测、可灰度、可回滚”。
在“变更可管”方面,我们覆盖完善的变更系统,极大程度减少对变更系统的改造成本;在“变更可控”方面,我们提供基于时间、人员等维度的变更管控规则,预防可能出现的风险;在“变更可用”方面,我们可自动发现变更引发的故障,提供变更回滚等智能化快恢能力。
目标
业务全方位变更管控,可灰度、可回滚、可观测,避免因变更导致的重大故障
变更系统
应用发布、应用回滚、配置变更、数据库操作、实例操作、网络变更
监控中心
资源监控、应用监控、业务监控、告警、事件、故障、根因定位、智能分析
快恢中心
切流、降级、限流、扩容、回滚、重启、自定义预案
变更门户
我的工作台、故障单管理、业务监控大盘、运维日历
系统识别/接入
API 模式、SDK 模式
变更准入门槛
时间线规则、产品线规则、应用规则、规则编排/规则组、规则校验、变更阻断
变更智能风控
变更执行检测、变更观测配置、观测稳态度量引擎、灰度分批强管控、变更影响面感知及预案关联、可疑变更推荐
变更审批
自定义审批流、一键审批、自动化免批、审批策略定义、审批流可审计
接入网关
Check API、Query API、Create API、Update API、Recheck API
变更统一管控
白屏化、集中管控
发布统一管控
可灰度、可回滚、可观测