Small data challenges for intelligent prognostics and health management 智能故障预测和健康管理的小样本数据挑战：综述

qq_53632869

已于 2024-08-11 10:35:25 修改

阅读量806

点赞数 30

文章标签：算法人工智能大数据

于 2024-08-11 10:34:02 首次发布

本文链接：https://blog.csdn.net/qq_53632869/article/details/141101903

版权

本文是对智能故障预测和健康管理领域最新综述文章：Small data challenges for intelligent prognostics and health management : a review的部分翻译，欢迎各位同行前来交流!

原文作者与出处：Li, C., Li, S., Feng, Y. et al. Small data challenges for intelligent prognostics and health management: a review. Artif Intell Rev 57, 214 (2024). https://link.springer.com/article/10.1007/s10462-024-10820-4

Abstract

故障预测与健康管理（PHM）对于提高设备可靠性和降低维护成本至关重要，近年来，在大数据和深度学习技术的推动下，智能PHM研究取得了重大进展。然而，现实工业场景中固有的复杂工况和高成本数据收集对这些方法的应用带来了小样本数据挑战。鉴于学术界和工业界对数据高效PHM技术的迫切需求，本文旨在探索PHM领域小样本数据挑战的基本概念、当前研究和未来发展趋势。本文首先阐明了小样本数据的定义、成因和对PHM任务的影响，然后分析了当前解决小样本数据问题的主流方法及其优缺点，包括数据增强、迁移学习和小样本学习技术。此外，本综述还总结了基准数据集和实验范式，以便在小样本数据条件下对各种方法进行公平评估。最后，指出一些有前景的方向以启发未来研究。

关键词：故障预测与健康管理（PHM）、小样本数据、数据增强、小样本学习、迁移学习| Prognostics and Health Management (PHM), small data, data augmentation, few-shot learning, transfer learning

1. Introduction

故障预测与健康管理（PHM）是通过分析收集到的监测数据来实现机械设备状态感知和智能维护的一个日益重要的框架，正在越来越多的行业中得到应用，如航空航天（Randall 2021）、交通运输（Li 等人 2023a）和风力涡轮机（Han 等人 2023）。根据美国国家科学基金会（NSF）进行的一项调查（Gray 等人，2012 年），PHM 技术在过去十年中创造了 8.55 亿美元的经济效益。正是由于 PHM 具有如此巨大的应用潜力，它不断吸引着不同学术界的持续关注和研究，包括但不限于可靠性分析、机械工程和计算机科学。

从功能上讲，PHM 涵盖设备的整个监控生命周期，在四个关键方面发挥作用：异常检测 (AD)、故障诊断 (FD)、剩余使用寿命 (RUL) 预测和维护执行 (ME)（Zio 2022）。首先，异常检测旨在发现明显偏离标准模式的罕见事件，关键在于从大量正常数据中准确区分出少数异常数据（Li 等人，2022a）。FD 的重点是对各种故障进行分类，难点是在复杂的工作条件下提取有效的故障特征。RUL 预测侧重于估算组件或系统发生故障前的剩余时间，其主要挑战在于构建能够描述健康状况恶化趋势的综合健康指标。最后，ME 根据诊断和预测结果优化维护决策（Lee 和 Mitici，2023 年）。

从方法论上讲，用于执行 AD、FD 和 RUL 预测等 PHM 任务的技术可分为基于物理模型的方法、数据驱动的方法和混合方法（Lei 等人，2018 年）。基于物理模型的方法利用数学模型来描述故障机制和信号关系，代表性技术包括状态观测器（Choi 等人，2020 年）、参数估计（Schmid 等人，2020 年）和一些信号处理方法（Gangsar 和 Tiwari，2020 年）。然而，数据驱动方法涉及从传感器信号中手动或自适应提取特征，包括统计方法（Wang 等人，2022 年）、机器学习（ML）（Huang 等人，2021 年）和深度学习（DL）（Fink 等人，2020 年）。混合方法（Zhou 等人，2023a）结合了基于物理模型和数据驱动技术的元素。在这些方法中，基于深度学习的技术在从 AD 到 ME 的 PHM 任务中获得了广泛关注，这归功于它们在自动特征提取和模式识别方面相对于传统技术的明显优势。

图1描述了基于深度学习模型的智能PHM框架(Omri et al. 2020)，其中步骤包括数据收集和处理、模型构建、特征提取、任务执行和模型部署。显然，状态数据是这一循环的基础，其数量和质量对DL模型在工业环境中的最终性能有着决定性的影响。然而，不同的工况下收集由各种异常和故障模式组成并带有精确标签的大量数据集既耗时又危险，而且成本高昂，这就导致了小样本数据问题，对模型在PHM任务中的性能提出了挑战。Dimensional Research最近进行的一项调查强调了这一窘境，调查显示96%的公司在实施工业ML和DL项目时遇到了小样本数据问题(D. Research 2019)。

Fig. 1. The intelligent PHM cycle based on DL models (Omri et al. 2020)

值得注意的是，现有研究提供了有价值的指导，但它们尚未深入研究小样本数据的基本概念，在分析中表现出一定的局限性。例如，一些综述从宏观角度研究了小样本数据问题，而没有考虑 PHM 任务的应用特点（Chahal 等人，2021 年；Adadi，2021 年；Cao 等人，2023 年）。然而，有些研究仅仅集中于用于解决 FD 任务中的小样本数据难题的特定方法（Pan 等人，2022；Zhang 等人，2022a；Li 等人，2022b），缺乏对 AD 和 RUL 预测任务解决方案的系统研究，严重限制了智能 PHM 的发展和工业应用。因此，有必要对 PHM 领域的小样本数据挑战进行深入探讨，为智能模型在工业领域的成功应用提供指导。

本综述是对解决PHM领域中的小样本数据挑战这一需求的直接回应，旨在澄清以下三个关键问题：1）什么是PHM中的小样本数据？2）为什么要解决小样本数据挑战？3）如何有效解决小样本数据挑战？这些基本问题将我们的工作与现有调查区分开来，并展示了我们的主要贡献：

（1）首次研究了智能PHM所面临的小样本数据挑战，并详细分析了其定义、原因和影响；

（2）概述了解决小样本数据问题的各种先进方法，并讨论了每类PHM任务的具体问题和剩余挑战；

（3）总结了常用的基准数据集和实验设置，为开发和评估PHM中的数据高效模型提供参考；

（4）最后，指出了未来小样本数据研究的发展方向。

因此，本文按照图3所示的层次结构进行组织。第2节讨论了PHM领域小样本数据的定义，并分析了相应的原因和影响。第3节全面概述了具有代表性的方法，包括数据增强（DA）方法（第3.1节）、迁移学习（TL）方法（第 3.2 节）和少样本学习（FSL）方法（第 3.3 节）。第4节讨论了PHM应用中的问题。第5 节总结了用于模型评估的数据集和实验设置。最后，第6节给出了潜在的研究方向，第7节得出结论。此外，表2总结了本文中使用的缩略语。

Fig. 3. The hierarchical architecture of this review.

2. Analysis of small data challenges in PHM

DL模型在执行PHM任务时的出色表现与丰富而高质量的标注数据这一前提密不可分。然而，这一假设在工业领域不太可能得到满足，因为小样本数据往往是常态，它具有独特的数据分布，可能导致模型学习困难。因此，本节首先分析了小样本数据在 PHM 中的定义、原因和影响。

2.1. What is “small data”?

在回答“什么是小样本数据”问题之前，让我们先回顾一下“大数据”这个相对的术语，自2012年诞生以来，学者们对它具有各种不同的解释。Ward等人认为大数据是一个“描述使用一系列技术存储和分析大型或复杂数据集”的短语。另一种观点，如文献Suthaharan (2014)所述，侧重于数据的数量、连续性和复杂性。在各种定义中，被广泛接受的是“5V”属性：数量、种类、价值、速度和真实性(Jin et al. 2015)。

经过长期研究，一些专家发现，大数据并非无处不在，小样本数据范式已成为人工智能领域值得深入研究的新领域(Vapnik 2013; Berman 2013; Baeza-Yates 2024; Kavis 2015)。Vapnik (2013) 是这一领域的先驱之一，他将小样本数据定义为“训练样本数与学习机的Vapnik-Chervonenkis（VC）维数之比小于20”的情况。J. Berman (2013) 认为，小样本数据用于解决基于来自一个机构的有限和结构化数据的离散问题。另一项研究将小样本数据定义为“数据的数量和格式使其可访问、可提供信息和可操作”(Baeza-Yates 2024)。在工业背景下，Kavis (2015)将小样本数据描述为“物联网产生的一小批特定属性，这些属性通常是一小批传感器数据，如温度、风速、振动和状态”。

考虑到各行业设备信号的独特属性，这里给出了PHM中小样本数据的新定义：小样本数据指的是由传感器采集的设备或系统状态信息组成的数据集，其特点是样本的数量或质量有限。以FD任务为例，相应的数学表达式为：给定数据集 $D=\left\{F_I(x_i^I,y_i^I)_{i=1}^{n_I}\right\}_{I=1}^N$ ， $(x_i^I,y_i^I)$ 是第 $I^{th}$ 个故障 $F_{I}$ 的样本和标签（如有）。 $N$ 表示 $D$ 中故障类别的数量，每个故障集的样本大小为 $n_I$ 。值得注意的是，“小”一词有两种含义：（i）从数量上看，“小”表示数据集数量有限、样本量 $n_I$ 有限或故障类型总数 $N$ 最小；（ii）从质量上看，“小”表示由于 $(x_i^I,y_i^I)$ 中存在大量异常、缺失、未标记或噪声标记的数据，因此缺乏有价值的信息。在数量和质量方面，“小”的定义没有固定的阈值，这是一个开放的问题，取决于要执行的具体PHM任务、分析的设备、选择的方法和期望的性能。

2.2. Causes of small data problems in PHM

传感器和工业互联网技术的飞速发展简化了收集设备监控数据的过程。然而，目前只有大型企业才有能力大规模采集数据。由于收集到的数据大多是正常样本，异常或故障数据有限，因此无法为模型训练提供足够的信息。如图4所示，分析了PHM面临小样本数据挑战的四个主要原因。

Fig. 4. Four main causes of small data challenges in PHM.

2.2.1 Heavy investment

在部署智能 PHM 系统时，投资回报率（ROI）是企业最关心的问题。如图 4 第一象限所示，大量投资主要来自两个方面：首先，(i)工厂需要对现有的旧设备进行数字化升级，以收集监控数据。(ii) 其次，数据标注和处理需要人工操作和领域专业知识。虽然目前传感器和标注外包的成本相对较低，但在众多机器上安装传感器和处理 TB 级数据仍超出了大多数制造商的能力范围。

2.2.2 Data accessibility restrictions

在第二象限中，这一因素突出表现在以下方面： (i) 数据的敏感性、安全性或私密性通常会导致严格的访问控制，例如数据收集军事装备。(ii) 在数据传输和数据共享方面，个人、企业和国家都需要遵守法律和监督条例，尤其是在发布《通用数据保护条例》（Zarsky 2016）之后。

2.2.3 Complex working conditions

图 4 第三象限描述的内容包括 (i) PHM 中的数据分布本身在不同的生产任务、机器和操作条件下显示出显著的可变性（Zhang 等，2023 年），因此不可能在所有潜在条件下收集数据。(ii) 在高辐射等特殊服务环境中采集数据具有固有风险。(iii) 设备从健康状态发展到最终失效需要经历一个漫长的过程。

2.2.4 Multi-factor coupling

随着设备的集成度越来越高，相关性和耦合效应不断增强。如图 4 第四象限所示：耦合存在于 (i) 多个组件、(ii) 多个系统和 (iii) 不同过程之间。这种相互作用通常具有非线性、时间可变性和属性不确定性等特点，进一步增加了数据采集的复杂性。

2.3. Impacts of small data on PHM tasks

标注的高质量数据的可用性仍然有限，这对执行 PHM 任务产生了一些影响，尤其是涉及数据和模型的任务（Wang 等，2020a）。如图 5 左侧所示，数据层面的影响主要包括数据不完整和分布不平衡，进而导致模型层面的泛化效果不佳。本节将以 FD 任务为例，通过相应的评价指标分析这些影响。