可靠可用性基本知识

1. 基本概念

1.1 可靠性

  • 举例1:
    例如我想用一个锤子捶钉子,这个锤子捶钉子的功能正常,能达到我想捶钉子的目的,说明是可靠的,如果捶钉子功能异常,说明可靠性差。可靠性更多从功能的角度出发,能否达到用户的目的。
  • 举例2
    如果锤子坏的频次比较高,说明可靠性差,锤子坏的频次低,说明可靠性高,可靠性有频率属性。
  • 举例3
    如果锤子被弄坏了左边的锤头,虽然左边坏了,用的时候右边能很快顶上,照常能用,说明锤子是可靠的。说明可靠性具备一定的冗余,能抗部分风险

关键字:功能相关、频率属性、有抗一定风险的措施。

1.2 可用性

  • 举例1
    例如我想用一个锤子捶钉子的时候,这个锤子是处于正常可用状态的,说明是可用的,如果正在处于维修状态、故障状态,那锤子就是不可用的。可用性更多关注使用某项功能时,功能是否处于可用状态,具有时间属性。
  • 举例2
    如果锤子一年的时间,半年都是坏的,说明可用性差,如果锤子一年只有1min是坏的,说明可用性高。
  • 举例3
    如果锤子坏了,短时间就能恢复,可维修性高,说明可用性高。

关键字:可用状态、时间属性、恢复

2. 可靠和可用性指标

  • MTBF: mean time between failure
  • MTTR: mean time to recovery
  • SLA: Service Level Agreement
  • 失效率:λ = 1/MTBF
  • 返修率:λt,t的单位是h,t=36524时值为年返修率。
  • 返修率:失效数/发货数
  • 修复率:μ = 1/MTTR
  • 可用度:A(availability) = MTBF/(MTTR+MTBF)
  • 危害性分析CA(Criticality Analysis):可以用Risk Priority Number(RPN)来表示 RPN = SPD,解释:S-严酷度参考值:40(I)\20(II)\5(III)\1(IV),P-出现的概率FITs,D-客户发现的概率参考值5(esay)\1(hard)\0.2(not))
  • 故障模式和失效分析和危害性分析:FMECA = FMEA+CA
  • 故障树分析:详情见链接。

例如:
1、网易云音乐网站可用度要达4个9
2、5G服务一般要达5个9

3. 可靠性工程实践相关概念

  • 流程: 可靠性需求分析-可靠性目标\指标-故障建模-FAT\FMEA-故障执行-可靠性评估。
  • 可靠性评估:测试能力评估+产品可靠性评估。
  • 故障处理流程:检测-隔离(故障只影响本故障域)-诊断and定位-恢复or修复(尝试恢复的操作影响应该由小到大,线程-进程-应用-系统(DC重启-AC重启))。
  • 故障隔离:ITU-T有介绍
  • 业务过载处理:检测、限流、降级、熔断or扩容。
  • 冗余(锦上添花):冷热备份。
  • 灾备(另起炉灶):贵州内蒙数据中心灾备。业务灾备>应用灾备>数据灾备
  • 故障预测方式:基于故障机理的故障预测,基于数据驱动的故障预测
  • 故障注入工程技术:混沌工程

4. FEMA相关知识

4.1 基本概念

  • FMEA: Failure Mode and Effects Analysis
  • 分为设计FMEA和过程FMEA
  • 设计FMEA与产品的本省有关,是对产品的组成可能出现的故障模式和故障后可能带来的影响进行分析,并把影响可以分级,从而对影响较高的部分采取防范措施,提升产品啊可靠性。
  • 过程FMEA与流程相关,例如加工流程中可能出现故障,分析其影响,提出改进措施。
  • 对单板来说:FMEA分析是分层的,可分为器件级、信号级、系统级,器件级主要针对单板上的各种芯片、mos管、核心器件等,信号级主要针对信号类型,例如IIC\SPI\JTAG等,系统级主要是指主从系统,灾备系统等。

4.2 FEMA分析流程

这里拿单板的FMEA分析进行举例。

功能或失效器件bom编码器件或功能描述故障模式故障原因故障发生的可能性对单元的影响对系统的影响故障等级检测方式故障应对措施
电源芯片U12345将24V转化成12V芯片使能管脚失效使能管脚失效导致芯片不能正常工作供电单元失效单板下电致命电源灯不亮多路电源供电
  • 功能或失效器件:单板的电子元器件。
  • 故障模式:导致功能或器件失效的模式:芯片电压脚电压偏低\偏高\时钟频率异常\使能管脚与其它管脚连锡。
  • 故障发生可能性:与失效率相关.
  • 故障等级:致命、严重、一般、提示。
  • 检测方式:通过何种手段观察到故障现象。

5. 产品开发流程中可靠可用性测试如何开展

5.1 测试可靠可用性输入\输出

输入1:通过反复实验、或者加压等措施增大故障发生的可能性。
输入2:通过外部直接注入故障,代替生产或者实际使用过程中去触发。
输出1:观察系统的检测\定位故障、承受\控制故障、恢复故障是否符合预期的能力。
输出2:故障注入时,通过对系统内部指标监控,通过积累指标的形成的数据经验模型,可以预估故障,帮助用户或者开发人员预防故障。

  • 定义:通过故障注入措施,给被测系统注入故障,观察系统检测\定位故障、承受\控制故障、恢复故障的能力进行评估,判断是否满足设计预期,推动减少产品失效率。

5.2 可靠可用性开展流程

  • 开发流程
概念计划开发测试发布
需求与计划测试方案设计用例设计&迭代验收&①&②③&发布测试版本产品测试关闭

① SDV:(System design Verify)系统设计验证
② SIT:(System Integration Testing) 系统集成测试,也叫做集成测试
③ SVT:(System Verification Test)系统确认测试(系统模拟测试)

链接1:专业名词参考
链接2:IPD流程参考

  • 测试活动
设计执行评估
分析需求测试执行方法评估指标
分析测试对象测试观察点确定评估
结合测试模式库分析测试工具利用
  • 测试输出
设计输出执行输出评估输出
测试方案&测试用例执行结果&指标数据测试报告

5.3 测试设计

  • 分析被测对象,分析可以是多个角度,开发视角(从系统架构角度)、部署视图角度(组网)、用例视角(操作)等,即可得到被测对象。

开发视角:系统与外部接口、系统组件、组件间接口。
部署视角:物理连线图、部署节点拓扑。
用例视角:登录、登出、购买、退货、开机、关机等。

  • 依赖测试模式库:测试模式库设计是一门学问,来源包括网上问题、历史模式库、新特性分析产品的故障模式、还有发散性思维得出来的故障模式;故障模式一般是开发中不能或者不好解决的故障,或者需要一定冗余和容错能力才能解决的故障,如果可以在开发中可以解决,就直接落到开发流程,例如PCB链路开路导致温度检测功能失效,PCB链路开路就是难以在开发中解决的问题,就可以提取出开路的故障模式;模式库有编号、名称、来源、测试方法(目的\环境搭建\步骤)、预期结果(defense-detect-sustain-expect)。
  • 测试对象和测试模式库分析匹配,等到测试对象关联的故障模式,结合具体产品,即可得到可靠性测试用例集。

5.4 测试执行

5.4.1 执行前准备

  • 包括:物料准备、固件准备、网络准备、部署准备、配置准备、工具准备、用例准备等。

5.4.2 故障注入方法

  1. 故障注入测试:
  • 手工注入、自动化注入
  • 工具注入、命令行注入
  • 硬件注入(上电前注入故障+运行中注入故障)、软件注入(寄存器注入、冷补丁注入)
  1. 压力测试:负载测试、CPU\内存\高并发测试,观察系统检测、承受\响应,恢复的能力。
  2. 长稳测试:通过冷启动反复上下点、通过热启动反复上下电,观测时间可以是7*24小时

5.4.3 故障现象\结果记录

  • 观察点:linux日志、管理系统日志、查询状态回显、灯态、告警、黑匣子、网络日志、系统工作状态(正常、降级、挂死)等。
    在这里插入图片描述

①:故障注入时间点
②:故障暴露时间点
③:业务恢复时间点
④:故障恢复时间点
⑤:智能分析总结or备份时间点
②-①:检测时长:不考虑成本,检测时长越短越好。
③-最小SLA\access时间点:业务中断时长。
③-①:业务恢复时长。
④-①:故障恢复时长。
⑤-④:总结时间or备份时长。

5.5 测试评估

  • 可靠性完整性,需求覆盖度。
  • 可靠性策略完整完备情况,测试对象覆盖度。
  • 可靠性策略有效性,TOP问题缺陷覆盖度。
  • 可靠性设计完整性:模式覆盖度
  • 可靠性用例覆盖度
  • 可靠性用例执行率
  • 可靠性用例通过率
NA测试需求测试策略测试设计测试执行测试评估
可追溯全部需求都有对应设计①全部设计都有对应用例、②测试对象都有测试设计①测试用例有执行记录、②问题单关联用例评估模型明确、无疑义
完备性测试策略目的明确、范围明确、主次分明测试对象涉及的模式库都有覆盖评估维度齐全
有效性关键问题全覆盖评估模型科学
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
服务器基本知识全文共3页,当前为第1页。服务器基本知识全文共3页,当前为第1页。服务器基本知识 服务器基本知识全文共3页,当前为第1页。 服务器基本知识全文共3页,当前为第1页。 服务器的硬件服务 是一种高性能计算机,作为网络的节点,存储、处理网络上80%的数据、信息,因此也被称为网络的灵魂。做一个形象的比喻:服务器就像是邮局的交换机,而微机、笔记本、PDA、手机等固定或移动的网络终端,就如散落在家庭、各种办公场所、公共场所等处的电话机。与外界日常的生活、工作中的电话交流、沟通,必须经过交换机,才能到达目标电话;同样如此,网络终端设备如家庭、企业中的微机上网,获取资讯,与外界沟通、娱乐等,也必须经过服务器,因此也可以说是服务器在"组织"和"领导"这些设备。 服务器的构成与微机基本相似,有处理器、硬盘、内存、系统总线等,它们是针对具体的网络应用特别制定的,因而服务器与微机在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面存在差异很大。尤其是随着信息技术的进步,网络的作用越来越明显,对自己信息系统的数据处理能力、安全性等的要求也越来越高,如果您在进行电子商务的过程中被黑客窃走密码、损失关键商业数据;如果您在自动取款机上不能正常的存取,您应该考虑在这些设备系统的幕后指挥者————服务器,而不是埋怨工作人员的素质和其他客观条件的限制。 服务器是用来帮助大量用户访问同一数据或资源。服务器可以是高效率的电脑、专用超级服务器、中档服务器、甚至还可以是大型机。但是,它们有着对其各自正确操作都至关重要的相似要求和特性。 可以非常绝对的说,服务器必须具备以下特性,以便在当今的公司环境中发挥作用:服务器必须具有出色的可靠性,必须具备可用性和可扩充性。企业越来越依赖于服务器运营。这种依赖使大多数服务器功能变成了"关键任务"型。企业可以计算出某台服务器在发生故障时的生产效率损失小时数,并将其转化为金额。 服务器的软件服务 服务器端软件是相对于客户端 Client 软件而言的。所谓服务器端软件,是指能够开放网络端口,接受其他的客户端软件建立连接,并且通过此连接与客户端软件之间交换数据的软件。这一开放特定端口,接受客户端软件连接,并通过此连接与客户端软件交换数据的行为称为"服务"service。 服务器端软件的种类很多,随其所提供的服务的不同而分类。常见的有http server,ftp server,pop3 server,smtp server,irc server,proxy server等等,每种类型里都有不同的版本,可以运行在不同的硬件及软件平台上。这些软件可以单独运行在某一台计算机上,也可以共同运行在同一台计算机上。它们各自服务器基本知识全文共3页,当前为第2页。服务器基本知识全文共3页,当前为第2页。开放不同的端口等待不同的客户端软件连接。比如http server通常开放80端口,ftp server通常开放21端口等等。 服务器基本知识全文共3页,当前为第2页。 服务器基本知识全文共3页,当前为第2页。 除常用的服务器端软件之外,还有一种服务器端软件,可能是人们日常所忽略的,那就是许多的后门木马。它们潜入系统后,暗自打开某些非常用的端口,当该端口受到特定类型的网络数据扫描后并接受其登陆之后,即跟控制端客户端建立连接。著名的灰鸽子木马,植入在受侵机器里的,也就是一个服务器端软件。当然,并非所有的木马都是通过放置服务器端软件而实现。 服务器的特性 1、可靠性能 物理上的可靠可靠性是保持可靠而一致的特性,数据完整性和在发生之前对硬件故障做出警告是可靠性的两个方面。冗余电源和风扇、可预报的硬盘和风扇故障以及RAID独立磁盘冗余阵列系统是常见的可靠性特性例子。 服务器端软件的可靠性 软件上的可靠性主要表现为令服务service更加稳定,不易于发生系统崩溃,不易于导致系统数据丢失,不易于导致连接被中断或者重置。从某种角上说,软件的可靠性,同时也是系统稳定性Stablity的另一说法。 2、高可用性可用性是指随时存在并且可以立即使用的特性。它既可以指系统本身,也可以指用户实时访问其所需内容的能力。高可用性的另一主要方面就是从系统故障中迅速恢复的能力。高可用性系统可能使用、也可能不使用冗余组件,但是它们应该具备运行关键热插拔组件的能力。热插拔是指在电源仍然接通且系统处于正常运行之中的情况下,用新组件替换故障组件的能力。 高可用性的典型范例是检测潜在故障并透明地重定向或将故障程序切换给其它地区或系统。例如,一些SCSI设备科研自动地将数据从难以读取的扇区传输到备用扇区,而且操作系统和用户都不会察觉到这一变化。 3、可扩充性 可扩充性是指增加服务器容量在合理范围内的能力。不论服务器最初的容量有多大,您都可以放心,可以迅速实现容量的增加。由
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。
Go语言(也称为Golang)是由Google开发的一种静态强类型、编译型的编程语言。它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如继承、重载等,转而采用组合和接口来实现代码的复用和扩展。 高性能:Go语言具有出色的性能,可以媲美C和C++。它使用静态类型系统和编译型语言的优势,能够生成高效的机器码。 并发性:Go语言内置了对并发的支持,通过轻量级的goroutine和channel机制,可以轻松实现并发编程。这使得Go语言在构建高性能的服务器和分布式系统时具有天然的优势。 安全性:Go语言具有强大的类型系统和内存管理机制,能够减少运行时错误和内存泄漏等问题。它还支持编译时检查,可以在编译阶段就发现潜在的问题。 标准库:Go语言的标准库非常丰富,包含了大量的实用功能和工具,如网络编程、文件操作、加密解密等。这使得开发者可以更加专注于业务逻辑的实现,而无需花费太多时间在底层功能的实现上。 跨平台:Go语言支持多种操作系统和平台,包括Windows、Linux、macOS等。它使用统一的构建系统(如Go Modules),可以轻松地跨平台编译和运行代码。 开源和社区支持:Go语言是开源的,具有庞大的社区支持和丰富的资源。开发者可以通过社区获取帮助、分享经验和学习资料。 总之,Go语言是一种简单、高效、安全、并发的编程语言,特别适用于构建高性能的服务器和分布式系统。如果你正在寻找一种易于学习和使用的编程语言,并且需要处理大量的并发请求和数据,那么Go语言可能是一个不错的选择。
### 回答1: 可靠性工程基础第四版pdf是一本关于可靠性工程的经典教材。这本书主要介绍了可靠性工程的基本原理和方法,涵盖了可靠性设计、可靠性分析、可靠性试验等核心内容。这本书对于学习和从事可靠性工程的人员来说非常有参考价值。 在书中,作者通过具体的案例和实例,深入浅出地介绍了可靠性工程的基本概念和思路,让读者更容易理解和掌握。同时,书中也介绍了现代可靠性工程中常用的一些工具和技术,如故障树分析、可靠性块图等,帮助读者更好地应用可靠性工程进行实际工作。 此外,该书的第四版还增加了一些新的内容,如“可靠性,可用性和安全性”、“人因可靠性”等,更贴近现代可靠性工程的发展趋势和实际需要,为读者提供了更加全面和深入的学习体验。 总之,可靠性工程基础第四版pdf是一本非常优秀的可靠性工程教材,内容丰富、深入浅出、实用性强,可以帮助读者更好地理解和应用可靠性工程原理和方法,是可靠性工程领域的一本经典之作。 ### 回答2: 可靠性工程基础第四版pdf是一本重要的工程学参考书籍,它系统地介绍了可靠性工程的概念、方法和应用,并针对现代工程的需求进行了更新和修改。 通过阅读可靠性工程基础第四版pdf,读者可以了解可靠性工程学中的基本概念和原理,包括可靠性、故障率、可靠性增长、故障模式与影响分析等等。此外,该书还详细介绍了各种可靠性评估方法,如可靠性试验、可靠性建模、故障树分析、事件树分析等等。 值得注意的是,可靠性工程基础第四版pdf加入了新的内容和实例,如机械原理、电子和计算机系统等,这些都是现代工程中非常重要的领域。由于内容详实,该书适合各个层次的读者,包括学术界和工业界的专业人士,以及各种专业的工程师和科学家。 总之,可靠性工程基础第四版pdf是一本信息丰富、全面、实用的工程学参考书,它对于实现可靠性设计和提高产品质量具有很大的帮助作用。 ### 回答3: 《可靠性工程基础第四版pdf》是一本介绍可靠性相关理论和方法的经典教材。本书通过对可靠性基本概念和可靠性分析方法的介绍,帮助读者了解如何设计和开发更加可靠的产品和系统。同时,本书也介绍了一系列常用的可靠性工具和技术,如FMEA,FTA等,以及如何使用这些工具进行可靠性设计和验证。 本书包含了可靠性理论和应用方面的丰富知识,如贝叶斯概率、失效率曲线、加速寿命试验等。同时,本书还详细介绍了可靠性测试和评估方法,包括可靠性指标的定义和计算,如平均无故障时间(MTBF)、失效率等。此外,本书也介绍了一些实际案例,以及如何将可靠性工程应用于产品开发和生产过程中。 本书适合可靠性工程师和相关工作者学习和参考,尤其是对于想要深入学习可靠性工程理论和方法的人来说,是一本必备的参考书。但是,对于初学者来说,由于本书的内容比较深入和专业,需要一定的数学和统计基础,初学者可能需要先学习相关基础知识才能更好地理解和应用本书中的内容。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值