1. 计算机可靠性概述
计算机系统的硬件故障通常是由元器件的失效引起的。
- 可靠性:是指从它开始运行(t=0)到某时刻 t 这段时间内能正常运行的概率,用R(t)表示。
- 失效率:是指单位时间内失效的元件数与元件总数的比例,用 λ \lambda λ 表示。
- 当
λ
\lambda
λ为常数时,可靠性与失效率的关系为:
R ( t ) = e − λ ∗ t R(t)=e^{-\lambda*t} R(t)=e−λ∗t
失效率特征如下图:
-
平均无故障时间(MTBF):
M T B F = 1 λ MTBF=\dfrac {1}{\lambda } MTBF=λ1 -
通常用平均修复时间(MTRF,也成为计算机的维修效率):
指从故障发生到机器修复平均所需要时间。 -
可用性 A :
A = E T B F M T B F + M T R T A=\dfrac {ETBF}{MTBF+MTRT} A=MTBF+MTRTETBF -
RAS :是指用可靠性 R 、可用性 A 和可维修性S这3个指衡量一个计算机系统。
2. 计算机可靠性模型
2-1 串联系统
且仅当所欲的子系统都能正常工作时,系统才正常工作。
-
可靠性( R R R):( R 1 R 2 R_{1}R_{2} R1R2 表示子系统)
R = R 1 R 2 … R N R=R_{1}R_{2}\ldots R_{N} R=R1R2…RN -
失效率( λ \lambda λ):( λ 1 λ 2 \lambda _{1}\lambda _{2} λ1λ2 表示子系统的失效率)
λ = λ 1 + λ 2 + … + λ N \lambda =\lambda _{1}+\lambda _{2}+\ldots +\lambda _{N} λ=λ1+λ2+…+λN
2-2 并联系统
只要有一个子系统正常工作,系统就能正常运行。
-
可靠性( R R R):( R 1 R 2 R_{1}R_{2} R1R2 表示子系统)
R = 1 − ( 1 − R 1 ) ( 1 − R 2 ) … ( 1 − R N ) R=1-\left( 1-R_{1}\right) \left( 1-R_{2}\right) \ldots \left( 1-R_{N}\right) R=1−(1−R1)(1−R2)…(1−RN) -
子系统的失效率均为 λ \lambda λ,则系统的失效率 μ \mu μ为:
μ = 1 1 λ ∑ j = 1 N 1 j \mu =\dfrac {1}{\dfrac {1}{\lambda }\sum ^{N}_{j=1}\dfrac {1}{j}} μ=λ1∑j=1Nj11 -
案例:
2-3 N 模冗余系统
由N个(N=2n+1)相同的子系统和一个表决器组成。
只要有 n+1 个或 n+1 个以上的子系统能正常工作,系统就正常工作。
-
每个子系统的可靠性为 R 0 R_0 R0,则 N N N模冗余系统的可靠性为:
R = ∑ i = n + 1 N ( j N ) × R 0 i ( 1 − R 0 ) N − i R=\sum ^{N}_{i=n+1}\begin{pmatrix} j \\ N \end{pmatrix}\times R^{i}_{0}( 1-R_{0}) ^{N-i} R=i=n+1∑N(jN)×R0i(1−R0)N−i
其中, ( j N ) \begin{pmatrix} j \\ N \end{pmatrix} (jN) 表示从 N 个元素中取 i 个元素的组合数。 -
提高可靠性:提高元器件数量;发展容错技术。