容错计算和恢复

1.容错的基础概念:

(1).容错的三个阶段
错误检测–评估损坏程度–错误恢复以消除错误并重新启动

(2).前向错误恢复:
当前正在执行的进程从某一点继续,并对损坏和丢失的数据进行补偿

  • 可以准确评估导致检测和造成损害的精确错误条件
  • 可以消除流程(系统)状态中的错误
  • 流程可以向前推进

(3).后向错误恢复:
当前进程被回滚到某个无错误的点,并重新执行进程的损坏部分,从而继续相同的请求服务

  • 故障的性质是无法预见的,流程(系统)状态中的错误在不重新执行的情况下无法消除
  • 可以恢复到系统的先前无错误状态

2.前向和后向错误恢复的比较:

前向:
a.优势:开销比较低
b.劣势:无法为特定系统的恢复设计提供通用机制,并且需要损伤评估和预测

后向:
a.优势:独立于损害评估,即能够从任意损害中恢复
b.劣势:

  • 性能损失-恢复进程状态的开销可能相当大
  • 不保证重复处理时错误不会持续,例如永久性故障、软件设计错误
  • 系统状态的某些组件可能不可恢复

3.检查点(Checkpoint)和回滚(Rollback)

适用条件

  • 允许时间冗余
  • 针对瞬态硬件和许多软件设计故障
  • 适用于非冗余和冗余体系结构
  • 保证检查点是可行的

检查点

定义:定期维护\保存精确的系统状态或“快照”

  • 快照间隔可以小到一条指令
  • 通常,检查点间隔包括多条指令
  • 当存在大量错误检测延迟时,可能不理想

回滚恢复

  • 将进程回滚(或恢复)到保存状态,即检查点
  • 重新启动计算

4.Checkpoint和Rollback必须的条件

适当的错误检测机制

  • 应用程序内部:各种自检机制(如数据完整性、控制流检查、验收测试)
  • 应用程序外部:信号(如异常终止)、丢失心跳、监视器计时器

确定要检查的数据-进程状态

(1).易失性状态:

  • 程序堆栈(局部变量、函数调用返回指针)
  • 程序计数器、堆栈指针、打开文件描述符、信号处理程序
  • 静态和动态数据段

(2).持久状态:
与当前程序执行相关的用户文件(是否在进程状态中包含持久状态取决于应用程序,例如,持久状态通常是长期运行应用程序的重要部分)

(3).将检查点数据存储在稳定的存储器中

(4).确定要记录和重播的事件:

  • 消息Messages
  • 事件Events
  • 事务Transactions

(5).Checkpoint的确定

  • 消逝时间
  • 接收或发送的消息,例如并行或分布式应用程序
  • 脏状态的数量,例如数据库应用程序
  • 关键函数调用

(6).提供重新启动计算的程序
(7).提供处理持久性错误的方法

5.分布式系统中的恢复

(1).流程通过交换信息来协作完成任务:

  • 消息传递
  • 共享内存

(2).一个进程的回滚可能需要其他进程也回滚到较早的状态

(3).所有合作进程都需要建立恢复点

6.网络化/分布式系统:本地状态

1.对于站点(计算机、进程) S i S_i Si,其在给定时间的本地状态 L S i LS_i LSi由分布式应用程序的本地上下文定义:

s e n d ( m i j ) send(m_{ij}) send(mij) - 对应“将消息 m i j m_{ij} mij S i S_i Si 传送到 S j S_j Sj”这一事件
r e c ( m i j ) rec(m_{ij}) rec(mij) - 对应 " S j S_j Sj收到从 S i S_i Si传送的消息 m i j m_{ij} mij"这一事件
t i m e ( x ) time(x) time(x) - 记录状态x的时间

2.transit和inconsistent消息:
(1)当 t i m e ( s e n d ( m i j ) ) < t i m e ( L S i ) time(send(m_{ij})) < time(LS_i) time(send(mij))<time(LSi)时, s e n d ( m i j ) ∈ L S i send(m_{ij}) \in LS_i send(mij)LSi
(2)当 t i m e ( r e c ( m i j ) ) < t i m e ( L S j ) time(rec(m_{ij})) < time(LS_j) time(rec(mij))<time(LSj)时, r e c ( m i j ) ∈ L S j rec(m_{ij}) \in LS_j rec(mij)LSj

即在LS状态之前发生的send和rec,都属于状态LS,不是一个点,而是从开始到LS这一段时间

(3)为站点 S i S_i Si S j S_j Sj定义了两组消息:

  • t r a n s i t ( L S i , L S j ) = { m i j ∣ s e n d ( m i j ) ∈ L S i ∧ r e c ( m i j ) ∉ L S j } transit(LS_i, LS_j) = \lbrace m_{ij} | send(m_{ij}) \in LS_i \wedge rec(m_{ij}) \notin LS_j \rbrace transit(LSi,LSj)={mijsend(mij)LSirec(mij)/LSj}
    在这里插入图片描述

  • i n c o n s i s t e n t ( L S i , L S j ) = { m i j ∣ s e n d ( m i j ) ∉ L S i ∧ r e c ( m i j ) ∈ L S j } inconsistent(LS_i, LS_j) = \lbrace m_{ij} | send(m_{ij}) \notin LS_i \wedge rec(m_{ij}) \in LS_j \rbrace inconsistent(LSi,LSj)={mijsend(mij)/LSirec(mij)LSj}

在这里插入图片描述

7.网络化/分布式系统:全局状态

(1)系统的全局状态(GS)是其站点的局部状态的集合,即 G S = { L S 1 , L S 2 , … , L S n } GS=\lbrace LS_1,LS_2,…,LS_n \rbrace GS={LS1LS2LSn},其中n是系统中站点的数量

(2)三种全局状态:

  • 一致全局状态(Consistent global state): ∀ i , ∀ j : 1 ≤ i , j ≤ n : : i n c o n s i s t e n t ( L S i , L S j ) = Φ \forall i,\forall j: 1 \leq i,j \leq n :: inconsistent(LS_i, LS_j) = \Phi i,j:1i,jn::inconsistent(LSi,LSj)=Φ

  • 无传输全局状态(Transitless globle state): ∀ i , ∀ j : 1 ≤ i , j ≤ n : : t r a n s i t ( L S i , L S j ) = Φ \forall i,\forall j: 1 \leq i,j \leq n :: transit(LS_i, LS_j) = \Phi i,j:1i,jn::transit(LSi,LSj)=Φ

  • 强一致全局状态(Strongly consistent global state):一致且无传输的全局状态

…待更新

整理自Fault-Tolerant Computer System Design

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值