10种高可用架构设计方案，看你不知道的有哪些

最新推荐文章于 2025-03-29 14:57:23 发布

程序员齐戈

最新推荐文章于 2025-03-29 14:57:23 发布

阅读量3.8k

点赞数 20

分类专栏：架构设计文章标签：系统架构

本文链接：https://blog.csdn.net/ITqige/article/details/134588411

版权

架构设计专栏收录该内容

3 篇文章

订阅专栏

本文探讨了软件开发中系统高可用性的概念，包括衡量指标、设计原则（如解耦、异步、备份等）以及实现方法，重点介绍了微服务架构在高可用性中的应用和运维解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作为软件开发人员，特别是架构师，在系统设计初期，必须考虑如何保证系统的高可用性，高扩展性，高性能。当然最重要的要先保证高可用性，系统不支持高可用，再高的性能和可扩展性都是无源之水，无本之木。

那什么是系统的高可用性？用什么指标来衡量系统可用性？实现系统高可用性的设计原则和方案有哪些？

1 系统高可用性

1.1 什么是高可用性

高可用性：（High Availability）通常用来描述一个系统经过专门的设计，从而减少停工时间，保证其服务的高度可用性。也就是系统大部分时间都是可用的，可以为用户提供服务的，即使发生了硬件故障或系统在进行升级。

1.2 如何衡量系统可用性

1.2.1 系统可用性指标

业界通常用多少个9来描述一个系统的可用性，比如4个9，99.99%就叫系统的可用性指标，表示该系统在所有运行时间中只有0.01%的时间是不可用的。

计算公式：可用性指标=（1-年度不可用时间/年度总时间）X 100，反映系统的可用程度。

图1 系统可用性指标描述不同系统可用性指标及对应的故障时间

通过上图可以发现，1个九和两个九的系统年故障时间是按天算的，日故障时间是按小时算的，也就是每年总有那么几天或每天总有那么几个小时系统不可用，满足该指标的系统只能算基本可用，也是最容易达到的，基本上靠人工运维的方式就能实现。3个九的系统年故障时间从3天锐减为8小时，系统具有较高可用性。4个九的系统年故障时间为50多分钟，这种系统不能依靠人工运维方式实现高可用，而是需要系统具有自动恢复能力。5个9的系统年故障时间为5分钟，满足该指标的系统具有极高的可用性，不过实现的难度和代价也是非常大的，只有公司的核心业务系统或国家级基础设置才会确保满足5个9甚至6个9的指标，比如支付宝，微信支付，电信运营商，国家银行系统，其他非核心系统满足4个9的指标已经够用了。

可用性差异在于面对各种故障时，系统的高可用架构设计方案做的是否足够好。

2 高可用架构设计方案

2.1 解耦

解耦是用于解决系统耦合度过高的问题，耦合度过高会导致系统维护困难，任何一个小的改动都可能引入意想不到的bug和系统奔溃，导致系统不可用。

软件技术的进化离不开解耦，TCP/IP协议的分层将每层的职责做了明确区分，通过制定不同的协议解耦了标准与实现，软件与硬件的关系。MVC框架进一步将展示逻辑与控制逻辑解耦，方便前后端开发的分离。

两种低耦合设计原则：

组件的低耦合原则：

无循环依赖原则，即技术组件之间不能循环依赖，不能查权限的接口依赖于用户接口，用户接口又依赖权限接口；
稳定依赖原则，即被依赖的组件尽量稳定，尽量少因为业务变化而变化，不能今天因为某个业务改了接口定义，明天又因为另一个业务调整接口参数；
稳定抽象原则，即要想使组件稳定，组件就要更加抽象，组件发布出去之后非万不得已，不改变结构。

面向对象的低耦合原则：

开闭原则，即对修改封闭、对扩展开放，对象可以扩展新功能，但是不能修改代码；
依赖倒置原则，即高层对象不能依赖低层对象，而是要依赖抽象接口，而抽象接口属于高层；通常逻辑是上游对象直接依赖下游对象的接口或实现，依赖倒置原则是下游对象依赖上游对象的接口，并实现下游对象的接口，这样的好处是上游对象自身是稳定的，不需要关心下游对象接口的改变，下游对象也可以自己去单独演化，只需要保证上游接口的实现。
接口隔离原则，不要强迫使用者依赖它们不需要的方法，要用接口对方法进行隔离。

2.2 隔离

解耦是逻辑分隔，隔离是物理分隔，即将低耦合的组件进行独立部署，将不同组件在物理上隔离开来。每个组件有自己独立的代码仓库；每个组件可以独立发布，互不影响；每个组件有自己独立的容器进行部署，互不干扰。后端同学是不是很熟悉？这不是微服务架构吗！微服务将一个复杂的单体应用拆解成多个细粒度的微服务，这些微服务之间互相依赖，实现原来单体应用的功能。然后每个微服务可以独立开发和部署，微服务之间通过RPC框架进行调用，这就是微服务架构。

隔离使得系统间关系和边界更加清晰，同时也可以隔离开故障，更加快速的发现问题和解决问题，提高系统的可用性。

当然，隔离必须在低耦合的基础上进行才有意义。如果系统耦合度高，隔离只会让系统关系更混乱，更脆弱。

2.3 异步

异步是在隔离基础上的进一步解耦，将物理上已经分割的组件之间的依赖关系进一步切断，使故障无法扩散，提高系统可用性。异步在架构上的实现手段主要是使用消息队列。

图2 用户注册同步模式描述用户注册同步模式交互

图3 用户注册异步模式描述用户注册异步模式交互

2.4 备份

备份主要解决硬件故障下系统的可用性，即一个服务部署在多个服务器上，当某个服务器故障时，请求切换到其他服务器上继续处理，保证服务是可用的。所以，备份与失败转移（failover）总是成对出现的，共同构成一个高可用解决方案。

最常见的备份就是负载均衡，用户通过负载均衡服务器nginx访问应用服务时，nginx会判断应用服务器集群中每台机器是否可用，如果服务器宕机，则会停止分发请求到该服务器。

数据库或存储服务为了保证高可用，也会采用备份的手段，比如MySQL主备模式。

2.5 重试

系统业务多数情况下比较复杂，一般由多个步骤来组成完整的业务逻辑，每个步骤都可能因为某些原因而失败，特别是微服务架构时代，远程服务可能会由于线程阻塞、垃圾回收或者网络抖动，而无法及时返回响应，调用者可以通过重试的方式修复单次调用的故障。

需要注意的是，重试是有风险的。比如一个转账操作，由于网络请求超时，导致第一次请求转账后没有响应，如果这个时候进行重试，那么可能会导致重复转账，反而造成重大问题。所以，支持重试的服务必须是幂等的。所谓幂等，即服务重复调用和调用一次产生的结果是相同的。在做架构设计的时候，一定要注意服务如果要支持重试，必须考虑服务的幂等性。

2.6 熔断

重试主要解决偶发的因素导致的单次调用失败，但是如果某个服务器一直不稳定，甚至已经宕机，再请求这个服务器或者进行重试都没有意义了。所以为了保证系统整体的高可用，对于不稳定或宕机的服务器需要进行熔断。

熔断的主要方式是使用断路器阻断对故障服务器的调用，断路器状态图如下：
在这里插入图片描述
断路器有三种状态，关闭、打开、半开。断路器正常情况下是关闭状态，每次服务调用后都通知断路器。如果失败了，失败计数器就 +1，如果超过开关阈值，断路器就打开，这个时候就不再请求这个服务了。过一段时间，达到断路器预设的时间窗口后，断路器进入半开状态，发送一个请求到该服务，如果服务调用成功，那么说明服务恢复，断路器进入关闭状态，即正常状态；如果服务调用失败，那么说明服务故障还没修复，断路器继续进入到打开状态，服务不可用。

2.7 补偿

前面几种方案都是故障发生时如何处理，而补偿则是故障发生后，如何弥补错误或者避免损失扩大。比如将处理失败的请求放入一个专门的补偿队列，等待失败原因消除后进行补偿，重新处理。

补偿最典型的使用场景是事务补偿。在一个分布式应用中，多个相关事务操作可能分布在不同的服务器上，如果某个服务器处理失败，那么整个事务就是不完整的。按照传统的事务处理思路，需要进行事务回滚，即将已经成功的操作也恢复到事务以前的状态，保证事务的一致性。

传统的事务回滚主要依赖数据库的特性，当事务失败的时候，数据库执行自己的 undo日志，就可以将同一个事务的多条数据记录恢复到事务之初的状态。但是分布式服务没有undo日志，所以需要开发专门的事务补偿代码，当分布式事务失效的时候，调用事务补偿服务，将事务状态恢复如初。

2.8 限流

在高并发场景下，如果系统的访问量超过了系统的承受能力，可以通过限流对系统进行保护。限流是指对进入系统的用户请求进行流量限制，如果访问量超过了系统的最大处理能力，就会丢弃一部分用户请求，保证整个系统可用。这样虽然有一部分用户的请求被丢弃，但大部分用户还是可以访问系统的，总比整个系统崩溃，所有的用户都不可用要好。

2.9 降级

降级是保护系统高可用的另一种手段。有一些系统功能是非核心的，但是也给系统产生了非常大的压力，比如电商系统中有确认收货这个功能，即便用户不确认收货，系统也会超时自动确认。

但实际上确认收货是一个非常重的操作，因为它会对数据库产生很大的压力：它要进行更改订单状态，完成支付确认，并进行评价等一系列操作。如果在系统高并发的时候去完成这些操作，那么会对系统雪上加霜，使系统的处理能力更加恶化。

解决办法就是在系统高并发的时候（例如京东618，11.11大促），将确认收货、评价等非核心的功能关闭，也就是对系统进行降级，把宝贵的系统资源留下来，给正在购物的人，让他们去完成交易。

熔断和降级有什么区别呢？

熔断是部分服务器不可用，请求转移到其他服务器；降级是部分功能不可用，需要人为关闭这些功能的请求处理开关，降级是功能设计的一部分。

2.10 多活

多活，即异地多活，在多个地区建立数据中心，并都可以对用户提供服务，任何地区级的灾难都不会影响系统的可用。比如我们部署应用时，都会要求夸机房部署，这就是一种异地多活的方式。

异地多活的架构需要考虑的重点是，用户请求如何分发到不同的机房去。这个主要可以在域名解析的时候完成，也就是用户进行域名解析的时候，会根据就近原则或者其他一些策略，完成用户请求的分发。另一个至关重要的技术点是，因为是多个机房都可以独立对外提供服务，所以也就意味着每个机房都要有完整的数据记录。用户在任何一个机房完成的数据操作，都必须同步传输给其他的机房，进行数据实时同步。

数据库实时同步最需要关注的就是数据冲突问题。同一条数据，同时在两个数据中心被修改了，该如何解决？某些容易引起数据冲突的服务采用类似MySQL的主主模式，也就是说多个机房在某个时刻是有一个主机房的，某些请求只能到达主机房才能被处理，其他的机房不处理这一类请求，以此来避免关键数据的冲突。

除了以上的高可用架构方案，还有一些高可用的运维方案，比如通过自动化测试减少系统的Bug，通过自动化监控尽早发现系统的故障，通过预发布验证发现测试环境无法发现的Bug，通过灰度发布降低软件错误带来的影响等。