文章目录
1、系统可靠性概述
1.1 系统故障类型
- 逻辑级的故障
- 数据结构级的故障
- 软件故障和软件差错
- 系统级的故障
1.2 系统可靠性指标
- 平均无故障时间
- 平均故障修复时间
- 平均故障间隔时间
- 系统可用性
2、系统可靠性分析
- 串联系统
- 并联系统
- 模冗余系统
3、冗余技术
3.1 冗余技术的分类
主要的冗余技术有:结构冗余、信息冗余、时间冗余 和 冗余附加 四种。
3.2 冗余系统
一般来说,一个较完整的冗余系统,在处理运行中出现的故障时,有以下10个步骤:
- 故障检测
- 故障屏蔽
- 故障限制
- 复执
- 故障诊断
- 系统重配置
- 系统恢复
- 系统重新启动
- 修复
- 系统重组合
4、软件容错技术
非重点
- N版本程序设计
- 恢复块方法
- 防卫式程序设计
5、双机容错技术
课本19章
6、集群技术
6.1 集群技术概述
典型的集群系统 的 特征
- 可伸缩性
- 高可用性
- 可管理性
- 高性价比
- 高透明性
集群的分类
- 高性能计算集群
- 负载均衡集群
- 高可用集群
6.2 高性能计算集群
主要特点
和传统的并行处理系统相比:
- 系统开发周期短;
- 用户投资风险小;
- 系统价格低;
- 节约系统资源;
- 系统扩展性好;
- 用户编程方面。
6.3 负载均衡集群
非重点,待补充
6.4 高可用集群
企业利用计算机提供及时、可靠的信息和服务是必不可少的,特别是一些关键领域,其基本业务特点是:实时性强、瞬间数据流量大、交易业务不宜停机。如果出现服务器停机或数据丢失,无论是在声誉还是经济上都会造成巨大损失,因此,必须有适当的措施来确保计算机系统提供不间断的服务,以维护系统的可用性。
6.5 负载均衡技术
6.5.1 调度算法
- 轮转算法:轮流将服务请求调度给不同的节点。
- 加权轮转算法:考虑不同节点的处理能力,再进行轮转算法~
- 最小连接数算法:新请求分配给当前活动请求数量最少得节点
- 加权最小连接数算法:基于最小连接数来加权
- 基于局部性的最小连接数算法:在节点负载基本均衡的情况下,将相同目标IP地址的请求调度到同一个节点上,提高各节点的访问局部性和主存命中率。维护从一个目标IP地址到一个节点的映射。
- 带复制的基于局部性的最小连接数算法:针对目标IP地址进行负载均衡调度,它要维护的是从一个目标IP地址到一组节点的映射。
- 目标地址哈希散列算法:通过一个散列函数将目标IP地址映射到一个节点。
- 源地址哈希散列算法:以源IP地址,进行散列。
- 随机分配算法 :随机选择一个节点,为请求提供服务。
- 加权百分比算法:考虑节点的利用率、内存利用率、硬盘速度、进程个数、分配的任务数等,使用利用率来表现剩余处理能力,通过对每个因素选择一个影响系数来表现对节点整体工作性能产生的作用。
6.5.2 技术实现
在实际应用中,比较常用的负载均衡技术主要有以下几种:
- 基于特定软件的负载均衡
- 基于DNS的负载均衡
- 基于NAT的负载均衡
- 反向代理负载均衡
- 混合型负载均衡
6.6 进程迁移技术
进程迁移的作用
利用进程迁移,可实现以下功能
- 负载共享
- 提高通信性能
- 可用性
- 重新配置
- 使集群中某些节点的特殊能力
进程迁移算法
- 贪婪复制算法
- 惰性复制算法
- 预复制算法
- 基于检查点的迁移算法