基础概念
硬件的失效分为硬失效和软失效,硬失效由于器件老化、应力损伤等一种或几种退化机理综合作用导致局部电路在随机时间里发生功能性的丧失,是持续性、破坏性、可预测性;软失效是由于高能粒子与芯片撞击产生的大量电子空穴对,当带电粒子的带电量和芯片存储单元的阈值电荷量相当时引起比特翻转的随机故障,是非破坏性、瞬时性、不可预测性。
FMEDA技术可以量化和评估复杂硬件中的安全能力。该技术的出现,解决了具有大量元器件和复杂结构的硬件板卡,按照功能安全理论要求进行失效率分配和归类的根本难题。
SPFM(Single-Point Fault Metric)和LFM(Latent Fault Metric),分别表示单点故障度量和潜伏故障度量,用于证明相关项硬件架构设计在安全相关的随机硬件失效探测和控制方面的适用性。
PMHF(Probabilistic Metric for random Hardware Failures),即硬件随机失效概率,需要同时考虑单点故障和潜伏故障。该指标表示的是安全系统整体残余的风险值,和失效率单位一致
分析步骤
第一部分的重点工作是根据系统的安全目标和系统架构的功能组件定义确定FMEDA分析的边界,确定分析的工作量,排除非安全相关的硬件要素
第二部分的重点工作是结合原理图进行失效模式的影响分析,根据标准或供应商芯片安全手册定义失效分类以及分配安全机制
安全机制覆盖率可参考标准附录或供应商安全手册
-
如果该安全机制在上电时进行检测,对应只能检测潜在故障,不能检测单点;
-
如果该安全机制不是上电时检测,而是程序检测,对应能检测单点和瞬态,不能检测潜在;
-
如果该安全机制不是上电时检测,而是硬件冗余,对应可以检测单点、瞬态、潜在;
第三部分就是计算和评估的工作。可以根据每个功能单元的计算结果发现设计薄弱点,通过优化安全机制提升诊断覆盖率或者增加安全机制等方式进行改进。
基础失效率
BFR(Base Failure Rate,基础失效率)是可靠性工程中用于描述电子/机械组件在标准条件下单位时间内的固有故障概率,通常以 FIT(Failures in Time,1 FIT = 10⁻⁹ failures/hour) 或 %/1000小时 为单位
-
行业标准:
-
IEC 62380:电子元器件可靠性数据。IEC(TR)62380主要用于芯片类的预计失效率分析,将芯片故障率建模为裸片(Die)、封装(Package)和电气过应力 (EOS) 相关故障率的总和。发布于2004年,后来被废除。但是,ISO26262标准2018版本已将IEC 62380标准纳入其新发布的11部分-ISO26262应用于半导体的指南。
-
SN 29500(西门子标准):涵盖电阻、电容、IC等。该标准是上世纪90年代提出的,该标准使用查表的方式来确定各种元件类型的时基故障率参考值和温度值。失效率的计算思路是一个基础的失效率,再将环境因素与基础失效率的差异考虑成影响因子,计算在环境因素下的失效率。
-
MIL-HDBK-217F(美军标):军用电子设备故障率。
-
OREDA:石油化工领域机械组件数据。
-
-
制造商数据:部分厂商(如TI、Infineon)会提供特定器件的BFR。
-
现场数据:通过历史维修/替换记录统计得出
根据实际分析对象和分析要求的不同,会选择不同的路线。
例如针对一些被动类器件(passive component),如电容、电阻、二极管等,可以使用西门子标准SN 29500;针对ASIC集成芯片如SoC,MCU,FPGA等器件,通常选择IEC(TR)62380;相比于传统失效率数据库提供的较为保守的数据,美军标MIL-HDBK 217F中提供的元器件失效率数据更为严格和精准。
SN29500 | IEC TR 62380 | |
---|---|---|
计算公式 | 简单 | 复杂 |
参数 | 与任务剖面联系不紧密,需要参数较少 | 详细的任务剖面要求用到更多的参数,实际计算中获取具有局限性 |
package | 不区分die和package失效,且不包含pin和PCB板之间的失效 | 考虑pin脚在芯片自身层面与die的链接失效以及pin脚与PCB板之间的失效 |
上电下电时间 | πw | τon和τoff |
产品级FMEDA中对于I类器件使用SN 29500,II类 III类器件使用制造商数据,结合基础失效率相关修正因子(温度,电压,应力等)进行评估计算
失效率计算
硬件要素失效率λ=λSPF+λRF+λMPF+λS
λSPF ———与硬件要素单点故障相关联的失效率;(没有安全机制覆盖)
λRF ———与硬件要素残余故障相关联的失效率;(没有被安全机制覆盖的%)
λMPF ———与硬件要素多点故障相关联的失效率;
λS ———与硬件要素安全故障相关联的失效率。
件要素多点故障失效率λMPF=λMPF,DP+λMPF,L
λMPF,DP ———与硬件要素可察觉或者可探测的多点故障相关联的失效率;
λMPF,L ———与硬件要素潜伏故障相关联的失效率。(没有被安全机制覆盖的%)
SPFM计算
单点故障度量(未被安全机制覆盖的单点故障的%)
高的单点故障度量值意味着相关项硬件的单点故障和残余故障所占的比 例低
SPFM = 1 - Σ (λSPF+λRF)/Σ λ=Σ(λMPF+λS)/Σ λ
LFM计算
潜伏故障度量(未被安全机制覆盖的多点故障的%,剔除单点和残余故障)
高的潜伏故障度量值意味着硬件的潜伏故障所占的 比例低
LFM = 1 - λMPF,L /(Σ λ-(λSPF+λRF))=λMPF,DP /(Σ λ-(λSPF+λRF))
PMHF计算
随机硬件失效概率的度量值(整体残余的风险值)
PMHF=λSPF+λRF+λMPF,DP*λMPF,L*Tlifetime,Tlifetime(8000/1000000000)详细的可参考GB/T34590.10—2022中关于PMHF计算的相关章节
或使用影响因子换算,PMHF=λSPF+λRF+βλMPF,L在最坏情况下,可以选择β=0.47