fault tolerance
文章平均质量分 54
刘秋杉
区块链资深研究者
展开
-
Transient Fault基本概念介绍和一种基于watchdog的容灾策略
这里的介绍来自IEEE论文A Watchdog Processor to Detect Data and Control Flow Errors,由于本人能力有限,在翻译过程中可能会出错,希望大家指正。由于辐射和电磁干扰(Radiations and electromagnetic interferences)的存在,出现的短暂而且偶尔的faults会暂时改变系统的运行状态,这种fault成为原创 2014-03-29 22:16:24 · 2278 阅读 · 0 评论 -
在低电压下稳定运行的cache(一)
这篇文章是根据IEEE论文Trading off Cache Capacity for Reliability to Enable Low Voltage Operation展开论述的:cache(包括电路)能稳定运行的最低电压称为Vccmin,当实际电压Vcc低于Vccmin时,就会影响微处理器的稳定性。论文首次运用架构级的技术来使cache在低于500mV电压下稳定运行。cache原创 2014-04-02 01:43:09 · 2469 阅读 · 0 评论 -
Recovery from Fault(故障恢复策略)
在fault tolerance中有两种方法进行故障恢复,error handling(错误处理)和fault handling(故障处理),前者消除出现的错误但不能根除故障(fault)的根源,后者旨在去除fault。原创 2014-03-31 21:28:55 · 2996 阅读 · 0 评论 -
Algirdas Avizienis提出的高可信系统(High-confidence Systems)概念模型
Algirdas Avizienis是fault tolerance概念的创始者,他为了让人们更好的去理解高可信系统(High-confidence Systems),提出了一个基于人类免疫系统(the immune system)的概念模型。这里的介绍来自他的一篇论文 Toward Systematic Design of FaultTolerant Systems, 希望能在一种随意的氛围原创 2014-03-27 00:58:25 · 2215 阅读 · 0 评论 -
在低电压下稳定运行的cache(二)
接下来介绍两种处理缺陷位的机制Cache word-disable和Cache bit-fix原创 2014-04-02 20:17:51 · 1568 阅读 · 0 评论 -
fault tolerance中的错误和故障检测(Error and Fault Detection Mechanisms)
这里的介绍来自论文Survey of Error and Fault Detection Mechanisms:下面这张图来自论文,反映了当今关于错误检测机制(Error Detection Mechanisms)的研究方向和分类:ERROR:error分为hard error(硬错误)和soft error(软错误)。hard error一般为制造和设计缺陷,原创 2014-04-01 00:08:44 · 3603 阅读 · 0 评论