11.3 计算机系统的可靠性、可用性、可维护性技术和容错技术
计算机的可靠性、可用性和可维护性(computer reliability, availability and serviceability, RAS)技术和容错技术是研究、设计、生产、评价计算机系统的重要内容,尤其是由于超大规模集成电路的发展和计算机应用的普及,人们对 RAS 的要求越来越高,军事、航天和金融等部门对计算机的 RAS 要求更高。
对于实用的计算机系统,由于受系统规模、应用范围、环境条件和成本价格等因素的影响,其RAS的投入强度和实现方法是不同的。
11.3.1 计算机系统的可靠性
11.3.1.1 计算机系统的可靠性指标
计算机系统的可靠性是指在规定的条件下和规定的时间内计算机系统能正确运行的概率。"规定的条 件"包括环境、使用、维修等条件和操作技术。"规定的时间"通常用平均故障间隔时间MTBF来表示。
提高系统可靠性一般有两类技术方法,即避错法和容错法。
硬件避错技术的作用是减少系统失效的可能性,主要包括:
· 系统可靠性预计。计算机系统由各类元、部件组成,系统可靠性预计即根据各类元、部件的可靠性 以及各元、部件之间的连接关系构成的可靠性模型作系统可靠性的预先分析计算,以预测系统是否可达到 可靠性指标,为改进可靠性设计提供依据。
· 可靠性分配。根据系统总的可靠性指标,将系统分解,并对各分系统直至器件、工艺提出相应的可 靠性指标。
· 元件的优选及老化筛选。
· 使用可靠的连接组装工艺,严格生产过程中的质量控制。
· 在设计时对元器件的额定参数留有足够余量(例如电压、功耗等),考虑元器件参数的离散性以及负 载、温度变化而引起的参数变化(例如延迟时间)。
· 降低系统内部的电磁干扰,屏蔽外界电磁干扰。
· 合理布局热源,制定冷却方案,控制元器件工作环境的温度和湿度。
. 采取防震、防冲击、防盐雾等机械结构措施。
容错技术主要采用硬件冗余、软件冗余、信息冗余和时间冗余等方法,将在 11.3.4 节介绍。
对系统可靠性的估算方法是先求出分系统的失效率,再求出系统的失效率,最后计算出 MTBF.