目录
前言:
可靠性工程是研究产品生命周期中故障的发生、发展规律,达到:预防故障,消灭故障,提高产品可用性的工程技术。
信息系统的可靠性是指系统在满足一定条件的应用环境中能够正常工作的能力,可以按一般工程系统的可靠性标准进行定性评价,也可以通过平均无故障运行时间等指标来进行定景分析。
系统可靠性是系统分析、设计和实施过程中釆用一定的技术措施才能获得的。也就是说,系统的可靠性不是信息系统天生具备的特性,而不需要采取必要的设计、措施才能获得的。
可靠性分析与设计的重要内容是建立可靠性模型,以及可靠性指标的预计与分配。
在系统分析与设计过程中,系统分析师及相关人员要反复地进行可靠性预计与分配,并不断深化,其目的是为了选择合适的方案,预测系统可靠性水平,找出薄弱环节,逐步地将可靠性指标分配到系统各个层次中,这是一个迭代的过程。
1 9 . 1 系统可靠性概述
系统可靠性是系统在规定的时间内及规定的环境条件下,完成规定功能的能力,也就是系统无故障运行的概率。
根据国家标准《软件工程产品质量第1 部分:质量模型》( G B A T 16260.1 —2006)的规定,系统可靠性包括成熟性、容错性、易恢复性和可靠性的依从性4 个子特性。即4种能力!!!
- 依从性:守规矩的能力:是指系统依附于与可靠性相关的标准、约定或规定的能力。
- 成熟性:不犯错的能力:是指系统避免“因错误的发生而导致失效”的能力;
- 容错性:容错的能力:是指在系统发生故障或违反指定接口的情况下,系统维持规定的性能级别的能力;
- 易恢复性:犯错后的恢复能力:是指在系统发生失效的后,重建规定的性能级别并恢复受直接影响的数据的能力;
19.1.1 系统故障模型
系统故障模型:就是对系统各种故障的抽象与总结!!!
系统故障是指由于部件的失效、环境的物理干扰、操作错误或不正确的设计所引起的硬件或软件中的错误(或差错)状态,其中错误是指故障在系统中的具体位置。
1. 在信息系统中,故障或错误有如下儿种表现形式:
(1) 永久性。
永久性是指连续稳定的失效、故障或错误。
在计算机硬件中,永久性失效反映了不可恢复的物理改变。
(2) 间歇性。
间歇性是指那些由于不稳定的硬件或软件状态所引起的、仅仅是偶然出现的故障或错误。
(3) 瞬时性。
瞬时性是指那些由于暂时的环境条件而引起的故障或错误。
2. 故障的缘由
一个故障可能由:
- 物理器件失效
- 错误的系统设计和实现
- 环境条件变化
- 用户的错误操作所引起。
永久性失效会导致永久性故障,间歇性故障可能由不稳定、临界稳定或不正确的设计所引起,环境条件变化会造成瞬时性故障。所有这些故障都可能引起系统错误。
不正确的设计和用户失误会直接引起错误。
由硬件的物理条件、不正确的软硬件设计,或不稳定伹重复出现的环境条件所引起的故障可能是可检测的,并且可以通过替换或重新设计来修复;
然而,由于暂时的环境条件所引起的故障是不能修复的,因为其硬件本身实际上并没有损坏。
瞬时和间歇故障己经成为系统中的一个主要错误源。
3. 故障模型
故障的表现形式千差万别,可以利用故障模型对千差万别的故障表现进行抽象。
故障模型可以在系统的各个级别上建立。
一般来说,故障模型建立的级别越低,进行故障处理的代价也就越低,但故障模型覆盖的故障也就越少。
(1)逻辑电路级的故障
逻辑级的故障是指硬件逻辑上出现的故障,一般是指电路中元器件的输入或输出固定为0 (或 1)。例如,某线接地、电源短路或元件失效等都可能造成逻辑级的故障。
逻辑级的故障又可分为:短路故障、开路故障和桥接故障。
- 短路故障:是指一个元件的输出线的逻辑值恒等于输入线的逻辑值;
- 开路故障:是指元件的输出线悬空,逻辑值可根据具体电路来决定;
- 桥接故障:是指两条不应相连的线连接在一起而发生的故障。
(2) 数据结构级的故障
故障在数据结构上的表现称为差错。常见的差错有以下三种:
- 独立差错。一个故障的影响表现为使一个二进制位发生改变。
- 算术差错 。 一 个故障的影响表现为使一个数据的值增加或减少/(—(^二 …)。
- 单向差错 。 一 个故障的影响表现为使一个二进制向量中的某些位朝一个方向(〇或 1 ) 改变。
(3)软件逻辑代码/语句故障和软件差错
软件故障是指软件设计过程造成的与设计说明的不一致,软件故障在数据结构或程序输出中的表现称为软件差错。与硬件不同,软件不会因为环境应力而疲劳,也+会因为时间的推移而衰老。因此,软件故障只与设计有关。
常见的软件差错有以下几种:
- ( 1 ) 非法转移:程序执行了说明中不存在的转移。
- (2) 误转移:程序执行了尽管说明中存在,但依据当前控制数据不应进行的转移。
- (3) 死循环:程序执行时间超过了规定界限。
- ( 4 ) 空间溢出:程序使用的空间超过了规定的界限。
- ( 5 ) 数据执行:指令计数器指向数据单元。
- (6) 无理数据:程序输出的数据不合理。
(4)系统级的故障
故障在系统级上的表现为功能错误,即系统输出与系统设计说明的不一致。
如果系统输出无故障保护机构,则故障在系统级上的表现就会造成系统失效。
19.1.2 系统可靠性指标
19.1.3 系统可靠性模型
与系统故障模型对应的就是系统可靠性模型。
常用的可靠性模型主要有时间模型、故障植入模型和数据模型。
1 9 . 2 系统可靠性分析模型
计算机系统是•一个复杂的系统,而且影响其可靠性的因素也非常繁琐,很难直接对其进行可靠性分析。
但通过建立适当的数学模型,把大系统分割成若干子系统,可以简化其分析过程。
组合模型是分析系统可靠性最常用的方法。一个系统只要满足以下4 个条件,就可以用组合模型来计算其可靠性:
( 1 ) 系统只有两种状态:运行状态和失效状态。
( 2 ) 系统可以划分成若干个不重叠的子系统(部件),每个子系统也只有运行和失效两种状态。
(3) 子系统的失效是独立的。
(4) 系统的状态只依赖于子系统的状态。系统失效当且仅当系统中的剩余资源不满足系统运行的最低资源要求时。