6.6 FMEA分析
1.概念
FMEA(Failure Mode and Effects Analysis,失效模式与影响分析)是一种可靠性设计的重要方法。它实际上是FMA(故障模式分析)和FEA(故障影响分析)的组合。它对各种可能的风险进行评价、分析,以便在现有技术的基础上消除这些风险或将这些风险减小到可接受的水平。
下面简述FMEA的发展历史。
20世纪50年代初,美国第一次将FMEA思想用于一种战斗机操作系统的设计分析;
20世纪60年代中期,FMEA技术正式用于航天工业(Apollo计划);
1976年,美国国防部颁布了FMEA的军用标准,但仅限于设计方面;
20世纪70年代末,FMEA技术开始进入汽车工业和医疗设备工业;
20世纪80年代初,FMEA进入微电子工业;
20世纪80年代中期,汽车工业开始应用过程FMEA确认其制造过程;
1988年,美国联邦航空局发布咨询通报,要求所有航空系统的设计及分析都必须使用FMEA;
1991年,ISO-9000推荐使用FMEA提高产品和过程的设计;
1994年,FMEA又成为QS-9000的认证要求。
我们做FMEA的目的是能够容易、低成本地对产品或过程进行修改,从而减轻事后危机的修改;找到能够避免或减少这些潜在失效发生的措施。益处显而易见:
(1)可指出设计上可靠性的弱点,提出对策。
(2)针对要求规格、环境条件等,利用实验设计或模拟分析,对不适当的设计实时加以改善,减少无谓的损失。
(3)有效地实施FMEA,可缩短开发时间及开发费用。
(4)FMEA发展初期,以设计技术为考虑重点,但发展到后来,除设计时使用外,制造工程及检查工程亦可适用。
(5)改进产品的质量、可靠性与安全性。
2.质量是设计出来的,不是测试出来的
在我看来,FMEA不单纯是一种故障后果防范的工具,更是一种设计理念。也就是说,在你设计电路或设计软件的时候,就需要考虑某个部件如果损坏了,可能对系统的影响,并且在设计的时候就能够预见,并制定对策。
可靠性不是靠测试出来问题、解决问题实现的,而是设计出来的,也就是我们经常说的“质量是设计出来的”。在设计概念阶段就介入可靠性的设计,而在计划阶段和开发阶段的起始,就需要完成FMEA的分析报告。这样做有以下几点意义。
(1)帮助决策者从各种方案中选择满足可靠性要求的最佳方案。
(2)通过系统级FEMA分析并确定系统最合理的可靠性架构、功能模块划分、冗余策略、复位策略、集中式/分散式控制策略等。
(3)通过板级/器件级FEMA保证所有单元的各种故障模式及其影响都被周密考虑。
(4)找出系统的可靠性薄弱环节,分析每个单元故障后对系统功能影响及其影响程度,为进一步改进产品可靠性设计及可靠性定量计算提供资料。
产品的可靠性可以理解为三个规定,即规定条件下、规定时间内、产品完成规定功能的能力。
从用户的角度考虑,可简单地理解为几个层面的要求:
(1)硬件不出故障。
(2)硬件故障,仅对性能有部分影响,设备的功能不受损。
(3)硬件故障,设备部分或全部功能受损,但能尽快恢复业务。
3. FMEA的基本思想:遍历性、系统性
我们可以在很多FMEA的教材上面看到这两个概念:遍历性、系统性。那么这两点在硬件设计的过程中是如何体现的呢?
FMEA的分析方法:
(1)硬件法,从硬件的角度,对每个器件管脚输出分别去考虑故障模式、故障影响、检测补偿措施。(因为我们遍历了每一个器件、每一个器件的每一个管脚,所以这里体现了遍历性。)
(2)功能法,每个产品可以完成若干功能,而功能可以按输出分类。这种方法将输出一一列出,并对它们的故障模式进行分析,对应系统级、单板级分析。(此处按照功能和场景,对故障模式分别进行遍历和分析。)
4. FMEA分析操作步骤
首先确定严重等级,从严到轻依次如下:
(1)这种故障会导致整个系统崩溃或主要功能受到严重影响。
(2)这种故障会导致系统主要功能受到影响、任务延误的系统轻度损坏或存在较大的故障隐患。
(3)系统次要功能丧失或下降,须立即修理,但不影响系统主要功能实现的故障。
(4)部分次要功能下降,只须一般维护的,不对功能实现造成影响(一般告警或指示灯故障等)。
然后描述结构图,清晰功能模块之间的相互关系和主要输入/输出信号。
接着设计FMEA表格。我曾经在开发过程中,也非常急于出成果。
但是真做成硬件产品后,往往忽略一些功能设计之外的考虑,最后导致返工。
可靠性设计,包含FMEA的设计是很重要的。磨刀不误砍柴工,从设计阶段就要融入可靠性、预防失效的思考,让你的设计上升一个台阶。
然后是降额审查。关于“降额”的概念,有些工程师可能没有涉及过这样的概念。我讲个故事,大家就都理解了。我上初中时,自行车失窃的现象比较普遍。所以家里人都把自行车扛上楼,然后用软锁锁在楼道里面,以防止自行车失窃。我家住在六楼,每天骑车放学回家,就自己把一辆大自行车扛到六楼。邻居看到了,就跟我父母说:“小孩子扛自行车上楼,小心压伤了,以后身高不长了。”后来我们家人就想办法搞了个储藏室存放自行车。其实我是能扛得动自行车的,也就是我的额定负载能力是大于自行车重量的,但是家人为了提高我的使用可靠性,所以对我进行降额使用,不让我接近负荷地使用。这个就是降额使用的思路。
降额设计的定义:设计时元器件或设备工作时承受的工作应力适
当低于元器件或设备规定的额定值,从而达到降低基本失效率,提高使用可靠性的目的。
降额为什么能提高可靠性?
(1)减小处于应力边缘状态的元器件在系统寿命期内失效的可能性。
(2)降低元器件参数初始容差的影响(如器件个体之间的差异、批次波动、工艺更改)。
(3)减小元器件参数值的长期漂移带来的影响。
(4)为应力计算中的不确定性提供裕量。
(5)针对意外事故提供裕量,比如机房空调故障、电压峰值瞬变应力等。
降额涉及的阶段如下。
(1)器件选型阶段:应该参考降额规范,选型应该符合降额要求的器件。
(2)电路设计阶段:包括相应的热设计和热仿真,应该遵循降额规范进行降额设计。
(3)电路测试阶段:测试工程师对电路进行实测审查,判定是否符合降额规范,有产品可靠性工程师在,对降额审查和测试这一活动的执行情况及问题解决情况进行把关。
降额的原则:
(1)禁止器件超规格应用。
(2)严格按照器件降额要求应用器件。
降额是多方面因素综合分析的结果或经验累积的传承,在实际应用中必须满足该规格要求,否则将影响产品的使用可靠性。对于完全按照本规格降额要求执行的,都应该在降额审查与测试中解决,不解决的问题视为产品风险。
(3)器件降额幅度要适合,避免降额不足及过降额。
降额幅度应能达到提高器件使用可靠性的目的,重点考虑“不降额”和“降额不足”导致的器件质量问题,“过降额”导致器件选型成本增加、热设计等工程实践的可行性。
降额的指标来源:
①不降额或降额不足导致的实际产品的质量问题;
②“过降额”导致器件选型成本增加,热设计等工程实践的可行性分析、行业标准、优秀厂家的指标、器件质量现状(质量情况、批次离散度等)、经验。
(4)此规范给出的降额要求,在产品规格要求的最恶劣环境条件下皆应满足。产品热测试条件为产品最大功耗配置、高温条件。
(5)热测试的环境温度,应使用被测试设备的规格最高温度。例如某产品规格温度0-50℃,则测试的环境温度应该涵盖0-50℃的范围。
(6)部分器件温度下限也有要求,比如晶振、二极管的工作温度参数。
(7)部分器件的降额要求,根据应用场合、条件的不同,其降额要求也不同,例如,电磁继电器的连续触电电流参数的降额要求,根据其负载类型的不同而有所不同。
(8)若厂家同时提供结温、壳温、环境温度,原则上这几个温度参数皆应满足器件手册的要求。器件温度参数是否满足规格和降额的判据,根据实际数据的可获得性等情况,首选壳温,次选结温,最后选环境温度。
(9)温度参数的测量、计算、评估方法应遵从的顺序。优先遵从厂家正式提供的温度测量、计算、评估方法。其次遵从各类器件相应公开的、权威的、广泛接受的应用和标准。最后遵从降
额规范中各类器件的温度测量、计算评估方法。
(10)降额分析,需要分别考虑“稳态”和“瞬态”。分别按照“稳态”和“瞬态”进行分析电阻的功耗降额。电阻的瞬态降额:电阻的功率降额是在相应的工作温度下的降额,即是在元器件符合曲线所在规定环境温度下的功率的进一步降额。为了保证电阻器正常工作,各种型号的电阻厂家都通过试验确定了相应的降功耗曲线。因此在使用过程中,必须严格按照降功耗曲线设计。
厂家额定环境温度为70℃,低于这个温度的时候,直接按照60%进行降额。当超过这个温度的时候,额定曲线是一个斜线。最大温度的降额为121℃,然后绘制一条红色的斜线,按照斜线进行降额。瞬态降额只要时间足够短,电阻可以承受比额定功率大得多的瞬态功率。要参考厂家资料中的最高过负荷电压参数,再在此基础上降额。
瞬态功耗,又要按照单脉冲和多脉冲分别进行讨论和分析。具体的原理本节不赘述,本节重点强调降额设计的思路。
(1)设计人员在器件的选型中,主要在功耗、温度、耐压这几个维度进行重点的降额设计。
(2)有些器件,应注意一定条件下的额定值,需要将这些内容写入设计文档并进行跟踪。例如, DDR3内存的工作额定温度有两个值,对应着不同的刷新率。相关设计需要协同软硬件和热设计,并建立专题分析或写入详细设计文档。
(3)测试人员在设计阶段对降额设计进行核查,在测试阶段进行有针对性的测试。
(4)器件可靠性工程师在产品的转测试阶段和转生产阶段,都需要对产品的降额设计进行审查。
(5)定期进行可靠性相关的活动和持续改进,并形成持续完善《降额设计规范》的工作,定期刷新,不定期事件触发式刷新降额规范。
降额是“可靠性设计的一部分”,但是也是非常重要的一部分。