第二篇：稳定性之如何有条不紊地应对风险？

刘都都

已于 2022-01-22 22:53:23 修改

阅读量4.6k

点赞数 2

分类专栏：稳定性建设之道文章标签：微服务后端风险管理高可用稳定性

于 2022-01-05 22:07:10 首次发布

本文链接：https://blog.csdn.net/liu_dudu/article/details/122333156

版权

稳定性建设之道专栏收录该内容

32 篇文章

订阅专栏

上一节，我们讲到人为和自然因素会给系统带来不同程度的风险，进而影响系统稳定性，这一节，我们来说一下，要如何有条不紊地去应对这些风险。

首先要知道的是，所有的系统都会存在风险，它是所有系统中不可避免的一部分，无论是系统集成还是软件开发，风险都会一直存在的，不能全部消除。我们能够做的是检查并评估风险范围、严重性及可能性、风险接受程度，依据这些去优化风险，总体的目标是确保可能出现的风险均是可接受的，不可接受的风险要全部被优化掉。

那么如何得知哪些风险是业务侧可接受的、不可接受的呢？这部分需要我们能够对业务有足够的认识，了解业务系统哪些是核心功能、非核心功能，而不能单独从技术视角来评估，技术永远是为业务服务的，不要自嗨。

首先我们来通过一个案列，如何从业务和技术双层视角来评估风险。

如何从业务和技术双层视角来分析风险

下面这张图是某在线教育平台的架构（当然是简易版），首先讲下该平台核心价值：用户选择（购买）适合的课程套餐，可在该平台完成学习，以提升自我。

前奏大体就是这样，你觉得该平台最核心的业务价值是什么？为了便于理解，我以A和B代表两个核心价值。

A：核心价值用户可以随时选择适合的课程套餐。

B：用户可以随时在平台完成课程学习。

对于上述核心价值 A 和 B，出现故障都是不可接受的，如果用户无法下单，那么则影响企业的损失，如果用户无法在该平台进行课程学习，那么则用户的核心权益无法保证，最终带来的影响，还是对企业的损失。

知道了该平台的核心价值之后，我们需要开始梳理整条链路，确保该链路是稳定、可靠的，才能保证上层目标。这条链路上出现任何风险都是不可接受的，换句话说严重性高。

文章中，我们以A的链路为例来说明，如下：

这么长的链路，如何保证每个链路都是稳定、可靠的呢？这离不开我们架构的设计和落地，使这些环节面对故障时，服务能够自愈或能够尽最大努力提供有损服务，当然我们本章节不是讲述如何设计，而想要结合业务，发现影响稳定性因素的可能性。

注意：并不是所有的风险对我们都有威胁的，我们优化的大概率可能发生的因素，并且出现故障时不可接受的（严重性高）。

业务分析：

登录这块业务出现故障的可能性小，理由是业务相对来说比较简单，不太可能发生变更。

商品这块业务出现故障的可能性大，理由是为了更好的售卖课程套餐，频繁组合调配SKU，业务的频繁变更，技术侧也会随之发生调整，服务端故障十有八九都是由变更引起的。

订单这块业务出现故障的可能性大，理由是订单模式可能发生多变，如普通下单、拼团、加价购等等。

支付这块业务出现故障的可能性小，理由是支付业务单一，多个支付渠道（微信、支付宝）。

课程这块业务出现故障的可能性小，理由是根据下单购买的课程，给用户分配就是了。

至此，我们就识别出了这个系统核心价值一的链路中存在的各类风险，这些风险可以用我们熟悉的四象限图来归类。

对于可能性大、严重性高的风险因素，我们需要重点关注，一旦出现故障那将带来的损失将是我们无法接受的，在实际项目中，无论是业务还是架构设计，都可能存在诸多潜在的隐患，我们不要丢了西瓜，捡了芝麻，要搞清楚哪些才是真正的威胁。

现在我们已经会识别并归类风险，在实际的场景中，我们面对的可能是微服务架构、分布式架构，面对的场景要复杂的多，风险可以说是无处不在，我们该怎么办呢？

如何管理风险？

首先想的是风险管理，是通过某种形式记录存档，以标准化的格式、可对其进行审计和追踪，方便对风险进行识别、分析和应对。识别、分析在前面也有讲到过，接下来要讲的是如何描述风险。

描述风险的记录形式有很多种，比如word、excel 、wiki等，对此，只要我们内部团队认可且使用方便即可。不过，对风险的描述要尽可能概全，比如要包含：风险描述、风险预案、风险严重性、影响范围等等。

之前我也见过很多bad case，对于风险描述不够详细或者缺乏关键信息，这样会导致：

风险处理不彻底，或者处理风险的同时引进新的风险；

无法对后续的风险审计、追踪提供有价值的信息；

无法以史为镜，原因是风险描述信息缺乏有价值的信息；

……

因此，我认为良好的风险描述，至少要包括以下内容：

简要讲述下每列信息的含义：

风险编号（ID)：这个是风险的唯一标识，它可以是任意类型的，通常选择唯一的整数标识，这是最简单的方式，满足需要即可。

风险名称：这个是对风险概述，需要对风险起一个契合的名称，该名称尽可能简短，便于查看，可以通过风险名称知道该风险的一系列信息。

风险描述：该风险的描述，是风险的概述，简要的描述的风险内容。

归属人：该风险的归属人，标识该风险的责任人，便于了解该风险当前的责任人，通过该责任人可以了解该风险的情况，包括风险解决方案，状态等等。

风险类型：该风险的归类，比如：稳定性、扩展性等。

发生条件（临界条件）：风险发生的情况，当出现什么情况时可能会触发该风险，我们需要知道该风险的发生条件，才能应对针对性的解决方案。

后果（带来的影响）：风险发生之后带来的影响是什么，例如用户体验、稳定性、数据丢失、资金方面的影响。

优先级：针对该风险发生的可能性及发生之后带来的后果对该风险定级，确保该风险能够及时消灭掉。

状态：该风险的当前状态，该值可以是“修复中”、“已解决”、“待处理”等。

标识日期：该风险描述的时间点，可以是发现该风险的时间点。

ETA（预计解决时间）：表示该风险的预计解决时间点。

解决方案：表示对风险的解决方案，可以短、中、长期。

预案：当该风险提前发生时，有哪些应对的动作，这些动作是风险应对的方法。

备注：可以是对该风险的任意描述、对该风险的特殊描述。

我们以A为例，举个风险描述的例子，为了视觉方便，将表格颠倒了下：

风险编号（ID）	123456
风险名称	商品列表模块-SKU慢查询
风险描述	高并发情况下，商品列表无缓存列表要查询多个SKU、直接对数据库查询
归属人	张三
风险类型	稳定性
发生条件（临界条件）	晚高峰期20点时一旦QPS超过100，则响应速度明显下降一旦QPS超过200，则数据库超负荷、瘫痪
后果（带来的影响）	无法满足A的要求
优先级	高
状态	处理中
标识日期	2020.12.1，12点左右
ETA（预计解决时间）	2020.12.2
解决方案	短期方案：数据库索引优化、提升并发处理能力短期方案：重新预估临界阈值，对该接口QPS限流长期方案：优化商品列表架构、引入缓存
预案	2020.12.1，20点前要对该接口QPS限流完成，阈值：150
备注	短期方案将2020.12.2完成、长期方案预计2021.3.3