目录
《可靠性 维修性*保障性 概论》 秦英孝 主编 国防工业出版社 2002年10月第一版
《可靠性工程》第二版 ELSAYED A. ELSAYED 【美】
《可靠性工程师手册》第二版 中国质量协会CAQ组织编写 李良巧 主编【中】
《注册可靠性工程师手册》第2版 Donald W.Benbow & HugW.Broome 著【美】,上海市质量协会&上海质量管理科学研究院 译【中】2023年8月20日注
第一章:概念与定义
注:本章罗列了所有机电设备可靠性相关的概念和定义,用于统一语言。
数字特征:由随机变量的分布所确定的,能刻画随机变量某一方面的特征的常数统称为数字特征。
数学期望:简称期望,也叫均值。有离散随机变量和连续随机变量两种计算方法。
第二章:前言
如果你时间有限,可以只看前言,这里是作者多年可靠性工作的一些感悟,并且会不断刷新。内容没有很好的组织,但贵在真实,基础理论来自参考资料,重点在理论以外的总结,案例和感悟,任何错漏都在所难免,欢迎留言指正,谢谢您的驻足。
本文最初是读参考资料一的基础笔记,后来随着内容的扩展,改名为理论与实践,无它,只是觉得民品的机电领域,可以参考的书确实不太多,看过后,对于民品机电设备的可靠性,还是几乎没有说到操作层面。作者利用业余时间,不断的刷新这个文章,希望对自己的知识做个记录,如果有幸对同行有所提醒或借鉴,便是意外之喜了。
军工是可靠性最初的起点行业,后发展到航空航天,油气煤电,工矿企业,医疗设备,家居家电,军品的内涵外延可能都大于民品,不同于民品一旦投产,长期使用,修整和存储都是小概率事件,而军工产品的设计,验收,存储,维护,修整,等等都是大概率要考虑的,比如存储,不可能天天都打仗,每天扔炮弹吧,比如维修,坦克放几年,不可能就丢掉卖废铁吧。所以,军工要考虑的范畴,涵盖了一些民品不曾重视的领域。但是,单就设计,生产,验收,使用数据反馈和改进等方面,还是与民品一致的思路。这就是为什么参考资料一还是可以参考的原因了。 同时,对于民品里的机电设备,由于其复杂程度高,包含的专业领域通常有声光电机热等,彼此交错,相互影响,可靠性尤其难以达成。作者认为,机电设备的可靠性,是民品领域的难点,搞定机电设备,其他的很多行业,其他的民品,会相对容易些。
2.1 可靠性的范围和机电可靠性的范围
可靠性的定义在第一章将详细阐述,在这里,需要先聊聊可靠性的范围和相关的领域。在机电设备行业,作者没有找到权威的机电设备行业可靠性领域确切范围。翻看可靠性权威著作,如参考资料三,它认为可靠性是"六性"的概念,这个源于军工的实际需要,因为资料三来源于美军标和国军标。而对于美国的质量协会,参考资料四则认为可靠性是相对小的范围,它与安全,质量,维修性/可用性相关。从本人的工作经历来看,机电设备可靠性可以包含为:(可以肯定的说,六个方面的内容,缺一都会对机电设备的可靠性带来巨大影响。)
- 环境适应性与寿命
- 安全性(安规与认证)
- 电磁兼容性
- 可生产性
- 可维修性
- 可保障性(相比于军品,保障性要求简单);
与机电设备可靠性工程密切相关领域有:
- 质量QA/QC
- 可测试性
- 机电项目管理PM
- 生产管理manufacture/production
- 现场服务service
- 采购buyer
- 供应商
与机电设备可靠性工程相关的概念还有:
- 精益生产
- 六西格玛
2.2 可靠性部门在组织里的作用
在参考资料四里指出了可靠性部门以下几个关键工作项目:
- 确定和提高产品的使用寿命
- 收集元件和产品的失效数据,包括供应商提供的产品的失效数据
- 竞争产品的可靠性试验和分析
- 帮助内部组织内部其他部门
- 可靠性预测提供筛选指南(QC,QA,采购部,生产部)
- 降额技术增加产品寿命(设计部)
- 可靠性数据支撑保修(或失效/退化件更换),客户期望与舆情控制 (service,品牌形象)
- 生产部的生产参数和工艺流程选择
- 预测安全性
- 评估供应商和供货的优劣
参考资料四第六页:“组织机构的每一部分,包括采购、质保、包装、现场服务、物流等部门都可以从可靠性工程知识中收益”。从作者的工作经历看,也确实如此。有点遗憾的两方面:
- 绝大部分的组织里,从最高层到最基层,很难相信可靠性本身与每个环节和部门都有关系,很难给可靠性部门和从事可靠性的人足够的资源和时间。
- 太多可靠性工作者的工作浮于表面,没有从根本上帮助组织,也没有理解可靠性工程的系统性和严密的逻辑性,很多场合都是生搬硬套书本知识,照猫画虎的复制成功经验,浪费了组织太多资源和耐心,参考上一条,这些资源和耐心很珍贵。
怎么办呢?作者没有标准答案,但是,可以说的是,可靠性工作者要有足够的决心和毅力获取资源和组织对可靠性的信心,这需要大量的学习和时间的积累,甚至于在一家公司做很久的弱相关工作,拿到一定的话语权作为前提。另外,如果你是一个有话语权的人,请珍视手中的资源,合理有序的投入到可靠性中。这是细水长流的事,也是在关键时刻力挽狂澜的事,严谨和耐心是第一位的。
2.3 失效后果与保修
根据 参考资料四 第八页,可靠性工程师的一个职责是核算失效的后果。失效会对最终客户造成不同程度的影响,但是,客户会通过不同的手段和产品供应商分担这种影响,可能是双输的局面。预测可能发生的失效和可以接受的的目标,可以让组织内部看到失效的成本,进而推动可靠性工作。当失效没有办法避免时,现场可以用维修处理,对于公司而言,保修清单就很关键,保修的条款越全面,对于出现的维修的成本和客户体验就越好。保修的详细记录还可以作为可靠性数据和产品改进方向的重要依据。
2.4 客户需求与QFD
所有产品都是为了满足内部或外部客户的需求,最基本的收集客户需求和愿望的是顾客满意度调查表,或者有一定成本和时间门槛的快速样机(通过比标准化生产过程更短时间制造出来的样机,例如3D打印,等效材料等)在客户端使用,又或者是质量功能展开(QFD)。利用QFD等工具识别客户需求,理解里面蕴含的可靠性需求是主要工作。
2.5 供应商的可靠性
供应商的可靠性非常重要,难以控制和提升,且容易被忽视。 对于机电设备,复杂度通常会需要大量不同领域和行业的供应商参与协同设计和生产,任何最终用于机电设备的材料,零件,组件,部件,模块,小系统,大系统(以上都称为单元),直到最终的机电设备整体。由于不同协同方式和对应的合同方式存在,各个单元都可能从供应商处获得。在较为复杂的情况下,会出现单元在供应商,运输商,设备供应商,甚至客户和政府质检/海关等机构间来回传递和组合。任何一个环节的引入,都会增加可靠性的风险,哪怕是做可靠性试验本身,也会带来可靠性的风险。最为机电设备行业的可靠性工程师,必须有全局的试验和敏感度。空运和海运不同,陆运的应力尤其高,每次拆装外壳会动那些单元,下雨刮风,交通事故等等,都有可能在意想不到的地方给设备的可靠性沉重的一击。后面有专门的章节讲如何控制供应商的可靠性。
第三章:可靠性的数学基础
理论基础先行,第三章讲可靠性的数学基础,也正好是理工类本科或专科的数学课程,罗列一下可能用到的知识点:先来一张网上截取的图,吓唬一下大家,正视数学的重要性,图片来源还未找到。
3.1 概率论与数理统计
3.1.1 概率论(待完善)
数学期望(也叫均值,也是一种中心趋势的测度,另外两个是中位数和众数)
方差(是一种散度的测度,另外两个是极差/也叫全矩 和 标准差)
注意如果要比较不同类别数据离散程度,可以用离散系数CV,也称为变异系数或标准差系数,即标准差与均值的比值,离散系数消除了测度单位和观测值水平不同的影响,可以直接用来比较变量的离散程度。标准差的大小不仅与数据的测度单位有关,也与观测值的均值大小有关,不能直接用标准差比较不同变量的离散程度。
样本方差和总体的方差,是差一个自由度的,表达式也不一样
总体,样本,抽样,统计量,估计量的定义(对于统计量和估计量的区别,可以看统计量与估计量 - 言非 - 博客园 (cnblogs.com))
3.1.2 数理统计
数理统计是数学的一个分支,不属于概率论。概率论研究的是分布已知的情况,而数理统计是研究分布未知的情况。数理统计以概率论为理论基础,根据试验或观察得到的数据,来研究随机现象,对于被研究的随机现象的客观规律做出种种合理的估计和判断。例如,某种产品上市前,抽取一部分样品做寿命试验,用得到的失效时间数据估计产品的平均寿命是否达标,就是数理统计在可靠性上的应用。
数理统计事实上包含两大部分,第一是收集整理数据,第二部分是对所得数据的分析研究与估计和推断。与可靠性相关的,我们关注第二部分。
3.1.2.1 样本和抽样分布
样本和抽样分布,属于数理统计的范畴里的开篇基础章节。
数理统计中,我们研究对象的某一项数量指标(定性的也可以用1234等来定量),对这个数量指标做试验或观察,试验的全部称为总体,每一个可能的观察值称为个体。总体可能有限也可能无限,个体可能不同也可能相同。(注意区分随机试验的样本空间,样本空间里没有重复的样本)
总体中的每一个个体就是随机试验的和一个观察值,所以总体对应与一个随机变量X,对于这个总体的研究就是对这个随机变量X的研究。总体的分布通常是未知的,或者知道分布的类型而对其中的参数不清楚。数理统计就是要从总体中抽取一部分样本来做对总体的研究。
简单随机样本的概念请留意参考资料5的129页第20行至页末。
直方图的画法请留意参考资料5的130至131页,注意,直方图的每个矩形的高度是频数除以n再除以组距,这样矩形的面积才是这个组的频率。另外在131页的最下面的注释详细写了画直方图的方法。
箱线图的基础是样本分位数,这个分位数的概念在以后的可靠性工具中使用极为频繁(百分位数与百分位),务必理解透彻。留意参考资料5的132至135页。比第一四分位数小超过1.5倍的四分位数间距,是疑似异常值。由此推出了修正箱线图的概念,但是实际中,是否是异常,要根据实际情况定。随意舍弃疑似异常点,是有风险的,尤其是可靠性的专业,异常代表了产品的不稳定,或者可能是测试系统的不完善。不能简单的舍弃。另外,异常大/小值对于平均数的影响大过中位数,这个要留意。
抽样分布:样本是进行统计推断的依据,往往不是使用样本本身,而是针对不同的问题构造样本的函数,这种不包含未知参数的关于样本的函数,就是统计量,统计量的分布就是抽样分布。与总体分布函数对应的统计量(样本的函数)就是经验分布函数。
3.1.2.2 参数估计
3.1.2.3 假设检验
3.1.2.4 方差分析
3.1.2.5 回归分析
3.2 微积分
3.3 线性代数(矩阵论的一部分)
第四章 可靠性的数学指标(特征量)
作者犹豫过很久,这一章究竟写到什么样的深度才合理,如果你是一个可靠性专业的学生且刚毕业不久,对于数学指标还是有一定深度的理解的;对于绝大部分可靠性工作者,现实中的遇到的大部分故障和失效都是近似等效指数分布的(常失效率)。但是就像参考资料四的第14页说的那样:“可靠性工程师应该非常小心的使用术语MTTF和MTBF,这些术语常在基本失效分布是指数分布,失效率是恒定的场合使用”,对于参考资料三,几乎很少提到这个关键点,如果基本失效分布是不是指数分布,失效率不是恒定,哪些结论和推导会变化?这个对于希望刨根问底的同学,建议你努力看看参考书二。对于参考书一,三和四里很多的结论,都犹如牛顿力学,而参考书二,是爱因斯坦相对论。
4.1 可靠性基础的基础
可靠性数学基础的基础是四大公式,它们分别是(参考资料二第4页)
- 可靠度与失效率的关系1:
- 可靠度与失效率的关系2
- 可靠度与故障密度函数的关系
- 失效率与故障密度函数和可靠度的关系
可靠性的数学指标(特征量)通常用于
- 在工程中:设计,预计,分配,评定,比较
- 在生产中:管理和落实
- 在验收中:进行验证
- 在使用中:进行可靠性评价,分清楚责任,向供应商反馈可靠性信息,
- 帮助用户:确定备份器材(spare part),估计有效性(on time、USDT)
第一节 可靠度函数
1.1 可靠度的定义
产品在规定的条件下规定的时间内完成规定功能的概率叫做产品的可靠度。
1.2 为什么用概率的观点定义可靠度
研究产品的可靠性是从不可靠即故障入手的。同一个型号的产品由于元器件,生产,包装运输,存储,使用,维护,在工作中的条件和损耗都不尽相同,使得每一个产品个体发生故障的时间不同且无法预知。但是同一批次,或同一型号的产品的故障时间是有统计规律的。从数学角度看就是故障发生的时间(长度)服从某个分布的随机变量。所以,可靠度指的是大批产品的可靠性统计的特性,而不是单独只某个产品个体!
例子:拿出一个灯泡问可否确定可以用多久?严谨的说是无法回答的,使用的下一秒就爆从概率上讲是有可能的!
1.3 可靠度的数学表示
产品的可靠度是时间的函数,个体的寿命 T 大于等于规定时间 t,则可以完成功能,个体的寿命T小于t,则无法完成功能。所以,关键点就是那个规定时间 t 了。t 越长可靠度越低。
- 可靠度函数 R(t) = P(T>=t) (P表示概率)
- 故障分布函数(故障概率,不可靠度) F(t) = P(T<t)
- R(t) + F(t) = 1
思考题:频率在什么情况下接近概率?
答案:样本数足够大且具有代表性的时候,频率约等于概率
1.4 条件概率与无记忆性
工程中还有类似这样的问题,产品已经工作的 a 小时,还能正常工作 b 小时的概率是多少。实际上这是一个条件概率,在工作了a小时后(条件)下再工作b小时的概率。
根据概率知识可知道 P(A|B) = P(AB) / P(B)
则上述问题就是
R(a+b | a) = P(T>a+b) / P(T>a) = R(a+b) / R(a)
如果故障时间服从指数分布
说明从任何时刻开始的工作一段时间的可靠度相等,所以又叫做无记忆系统
思考题:N个产品,88个工作到了2400小时,再继