程序的高可用相关知识

最新推荐文章于 2024-08-17 20:11:39 发布

如月之恒-

最新推荐文章于 2024-08-17 20:11:39 发布

阅读量765

点赞数

分类专栏：琐碎知识点

本文链接：https://blog.csdn.net/nihaoa50/article/details/86527405

版权

系统高可用性是计算机领域中的重要概念，涉及硬件到服务的多个层面。文章详细介绍了服务的高可用性级别划分、架构分层设计（接入层、应用层、服务层、数据层）以及各层的高可用设计原则，如接入层的流量控制、应用层的无状态设计、服务层的分级管理和监控、数据层的容灾备份。同时，文章涵盖了保障高可用性的一系列技术方案，如扩展、隔离、解耦、限流、降级、熔断、自动化测试、灰度发布和回滚等。

摘要由CSDN通过智能技术生成

文章目录

含义
典型架构分层设计及各层实现高可用的原则
保障高可用系统的技术方案
- - 扩展
  - 隔离
  - 解耦
  - 限流
  - 降级
  - 熔断
  - 自动化测试
  - 灰度发布&回滚
  - 背景监控&报警
  - 拆分
  - 缓存
  - 容灾备份
注
参考文献（侵删）：

含义

系统高可用，或者说系统的可用性，在计算机领域是一个相当久远并且重要的概念。小到CPU芯片、内存、硬盘等硬件组件，大到支付宝、微信等日常互联网服务，在设计、开发、维护的时候，都离不开对它的考量。

可用性度量和考核
所谓业务可用性(availability)也即系统正常运行时间的百分比，架构组最主要的 KPI (Key Performance Indicators ，关键业绩指标)。对于我们提供的服务（web，api）来说，更倾向用 N 个9 来量化可用性，最常说的就是类似 “4个9(也就是99.99%)” 的可用性。
可用性的高低是使用不可用时间占总时间的比例来衡量。不可用时间是从故障发生到故障恢复的时间。比如，可用性 4 个 9 的系统（99.99%），它一年宕机时间不能超过53分钟。做到高可用系统，需要尽可能的降低故障发生的次数和减少故障持续的时间。

描述	可用性级别	年度停机时间
极高可用性	99.999%	5分钟
具有故障自动恢复能里的可用性	99.99%	53分钟
较高可用性	99.9%	8.8小时
基本可用性	99%	87.6小时

故障时间=故障修复时间点-故障发现（报告）时间点
服务年度可用时间%=（1-故障时间/年度时间）× 100%。
可用性KPI：以99.99%为例→53m=365*24*60*(1-0.9999)

服务可用性的级别划分
如果是一个分布式架构设计，系统由很多微服务组成，所有的服务可用性不可能都是统一的标准。如果所有服务都实现高等级可用性的话，那么成本就会增加，所以要根据服务的重要程度来进行可用性级别区分。
为了提高我们服务可用性，我们需要对服务进行分类管理并明确每个服务级别的可用性要求。

类别	可用性最低要求	描述
一级__核心服务	99.999%（全年5分钟不可用）	系统引擎部分：一旦出现故障，整个系统瘫痪
二级__重要服务	99.99%（全年53分钟不可用）	如外卖系统中的门店基础数据服务
三级__一般服务	99.9%（全年8.8小时不可用）	如外卖系统中的智能推荐
四级__工具服务	99%	非业务功能：比如后台管理系统、运维工具