本期给大家推荐北航吕琛教授投稿的最新文章“基于大语言模型的轴承故障诊断框架”。
-
这是北航 PHM 实验室在健康管理大模型领域的成功尝试,研究团队提出了基于大语言模型的轴承故障诊断框架,提升预训练大模型对振动数据的解析与泛化能力。
-
以轴承为例,他们探索并打通了基于预训练大语言模型解决泛化故障诊断难题的技术路线,初步展现了对跨工况、小样本、跨对象等泛化诊断任务的综合解决能力。
-
北航 PHM 实验室为业界学者应对故障诊断领域泛化痛点问题提供了新思路,也是深入开展大模型与健康管理交叉研究并建立健康管理大模型的重要基础与参考。
论文链接:通过点击本文左下角的阅读****原文进行在线阅读及下载。
论文基本信息
论文题目:LLM-based framework for bearing fault diagnosis
论文链接:
https://doi.org/10.1016/j.ymssp.2024.112127
1 摘要
准确诊断轴承故障对于保持旋转机械的高效运行至关重要。然而,由于应用环境的多样性,包括跨工况适应能力、小样本学习困难和跨数据集泛化能力,传统的诊断方法面临挑战。这些挑战阻碍了现有方法的有效性,并限制了它们的应用。大型语言模型(LLMs)为提高诊断模型的泛化能力提供了新的可能性。然而,将LLMs与传统诊断技术相结合以实现最佳泛化仍然是一个未被充分探索的领域。本文提出了一种基于LLMs的轴承故障诊断框架,以解决这些挑战。
首先,提出了一种信号特征量化方法,用于解决从振动数据中提取语义信息的问题,该方法结合了基于统计分析框架的时域和频域特征提取。该方法将时间序列数据文本化,旨在通过简洁的特征选择高效地学习跨工况和小样本的共同特征。基于LoRA和QLoRA的微调方法被用来增强LLMs在分析振动数据特征方面的泛化能力。此外,这两项创新(文本化振动特征和微调预训练模型)通过全量和少量数据的单数据集跨工况和跨数据集迁移实验进行了验证。
结果表明,所提出的框架能够同时执行三种类型的泛化任务。训练后的跨数据集模型在准确性上大约提高了10%,证明了LLMs对输入模式的适应性。最终这些结果有效地增强了泛化能力,并填补了使用LLMs进行轴承故障诊断的研究空白。
关键词:大语言模型,轴承故障诊断,微调,特征提取,泛化
2 引言
轴承作为旋转机械中的通用部件,在运行过程中不可避免地会出现故障。因此,轴承故障诊断对于检测和隔离故障至关重要。它对于旋转机械的健康监测和寿命管理至关重要,并显著影响现代工业系统的可靠性和安全性[1]。目前,轴承故障诊断在推广中面临三个方面的挑战。
首先,在实际操作中,工况会影响旋转机械。随着技术的进步,轴承的工况变得越来越复杂,导致跨工况数据分布多样化[2]。然而,在实际工况下进行全面的工况分析具有挑战性。在变工况下进行有效和准确的知识迁移和故障诊断是必要的。例如,风速、温度、载荷和运行时间都会影响风力涡轮机中的轴承性能。轴承的运行工况在低温、高风速下的高负载与低温、低风速下的低负载之间差异很大。在实际应用中,复杂环境造成的多工况也给故障数据的收集带来了挑战。因此,使用已知工况下的数据在未知工况下进行轴承故障诊断至关重要[3]。
其次,由于工业系统对可靠性的高要求,故障发生随机且不频繁,导致故障样本比正常情况少[4]。例如,以可靠性闻名的商用飞机发动机在数千小时的飞行中可能只记录到少数故障,导致轴承故障诊断中的故障样本不平衡问题。这种不平衡可能导致分类偏差,即模型倾向于将故障样本误分类为正常[5]。实现小样本和不平衡故障样本的高精度诊断仍然是广泛的研究焦点[6]。
第三,在实际应用中,各种类型的轴承被用于设备中,如滑动轴承、滚动轴承、深沟球轴承、角接触球轴承和自动调心球轴承。即使在同一类型的轴承中,根据特定的安装位置和使用情况,也会选择不同制造商的不同型号。例如,适用于潜艇中旋转机械的故障诊断方法可能不适用于航空机械,而适用的技术通常会在两种应用场景中分别讨论。以往的研究往往需要针对不同轴承数据****重新调整特征提取和分类方法或重新训练神经网络,导致在实际工程中操作复杂且泛化能力弱。因此,迫切需要能够快速适应不同类型轴承的智能技术,以提高产品开发和交付效率,同时减少重复工作和开发成本,从而提高工业生产力。因此,这些都对跨数据集故障诊断提出了要求。总之,轴承故障诊断必须提高其在复杂场景下的泛化能力,如跨工况、小样本和跨数据集应用。
目前的研究主要集中在两个主要领域来改善轴承故障诊断的泛化能力:
跨工况和小样本挑战:研究人员广泛采用迁移学习方法,以实现知识从源工况到目标工况的迁移,该领域的模型包括多尺度深子域适应网络(MS-DSACNN)[7],时频域适应网络(TSDAN)[8],和条件加权迁移Wasserstein 自动编码器[9]。此外,数据扩充模型已被用于弥合理想和现实条件之间的差距,例如将数字孪生与生成对抗网络(GANs)结合起来[10],结合自注意力机制和频谱归一化(DCGAN)[11]结合辅助分类器GAN和Transformer网络[12]。此外,元学习策略,如迭代重采样深度解耦域适应(IRDDDA)[4]和数据重建分层递归元学习(DRHRML)[4]已经采用了增强模型适应性的方法。尽管这些方法在解决跨工况和小样本问题方面取得了成功,但它们仍然严重依赖于数据,使得它们在零样本故障诊断方面效果较差。此外大多数验证仅限于特定数据集,限制了泛化性。未来研究仍需进一步探索如何在零样本情景下使用现有模型对新样本进行故障诊断。
跨数据集的挑战:表示跨数据集模型特征很困难,特别是那些由标记数据不足和实际测量中数据分布不一致引起的特征。对抗性自适应网络和域适应方法已成功地在同一设备或不同设备中的不同轴承类型之间实现了通用诊断。例如,动态多对抗性自适应网络(DMAAN)[13]。和深度卷积多对抗域适应(DCMADA)[14]模型使用动态调整和多对抗策略进行有效的知识迁移和跨数据集故障诊断。一些方法,如多分支域适应网络(MBDAN)[15]和多尺度注意力机制迁移模型(MSATM)[16],专注于学习高质量的领域不变特征,以处理数据的多样性和稀缺性。然而,这些方法专注于提高跨数据集故障诊断的准确性,并依赖于特征密集型数据,因此它们自主分析离散、未标记和未结构化数据的能力受到限制。它们也无法充分利用在设备或领域之间积累的丰富知识,限制了它们的适用性。
总之,当前的轴承故障诊断模型在跨工况、小样本和跨数据集场景下的泛化能力仍有改进空间。大型语言模型(LLMs)的出现为解决这些挑战提供了潜在解决方案。通过大规模参数微调、强化学习和奖励机制对LLMs进行优化后,它们在处理序列数据方面表现出强大的能力[17,18],这与故障诊断所需的输入形式相吻合[19]。例如,通过LLM进行时间序列预测的研究表明,这些模型在通用时间序列分析任务中具有潜力:纽约大学和阿里巴巴的研究分别探索了LLMs在时间序列预测和多时间序列任务中的应用[20,21]。此外,国立交通大学的研究通过将时间序列补丁和时间编码相结合,增强了LLMs处理时间序列数据的能力[22]。在方法层面上,微调LLMs可以改善它们在未见过的任务上的泛化能力,使它们适应特定领域的特定推理任务[23]。这些进展表明,通过提高模型的适应性和效率,LLMs可以显著支持故障诊断。然而,将LLMs与故障诊断模型相结合以增强泛化能力的研究有限。本研究旨在利用LLMs的优势,提高故障诊断模型在跨工况、小样本和跨数据集场景下的性能。
本研究构建了一个故障诊断特征系统,并提出了基于LoRA和QLoRA的振动数据模型微调框架。故障诊断特征系统系统地识别和集成了关键故障指标和参数,构建了综合特征系统,有效地捕捉设备运行状态和潜在故障信号。模型微调框架引入了一种基于时间序列数据的新的LLM微调策略,通过优化超参数来平衡时间效率和预测准确性。因此,模型在实际应用中的性能和适应性得到提高。最后,进行了单数据集、跨工况和跨数据集的诊断实验,比较了全量数据迁移和少量数据迁移的效果。结果表明,基于LLM的故障诊断方法可以增强故障诊断的泛化能力,满足跨工况、小样本和跨数据集的实际工程需求。本研究的主要贡献包括:
● 提出了一种轴承故障诊断特征系统,该系统将振动数据矢量化为文本,扩展了传统的故障诊断方法,并支持与LLMs的集成。
● 引入了一个高效的振动数据模型微调框架,在轴承数据集上通过跨工况、小样本和跨数据集的案例研究进行了验证,展示了该研究对各种轴承故障模式的综合诊断能力。
本文的结构如下:
● 第1部分介绍了研究背景和内容;
● 第2部分提供了相关工作的概述;
● 第3部分提出了基于特征和数据的LLM轴承诊断方法;
● 第4部分展示了验证所提出的方法的案例研究;
● 第5部分总结了工作和创新。
3 相关工作
3.1 轴承故障诊断
工业应用中的轴承故障诊断面临跨工况、小样本和跨数据集适应等挑战。提高故障诊断模型的泛化能力至关重要。通常,故障诊断依赖于在具有多个工况的复杂环境中分析振动信号。模型改进的需求主要集中在三个主要领域:
(1) 保留振动信号的长期知识:长期智能记忆的能力使模型能够更敏感地应对跨工况和小样本的挑战。因此,它们可以捕捉到细微的振动、温度变化和其他关键指标异常,并有效地预测潜在的故障。这一特性尤为重要,因为在跨工况场景中,故障性能可能随环境和工况而变化,而小样本问题意味着可用于训练的数据非常有限。即使从少数故障案例中不断学习,也能提高模型对新或罕见故障类型的敏感性,支持持续的健康监控和智能维护策略[24]。因此,系统维护策略的自动化和智能化得到了提高,以应对跨工况和小样本的挑战。这种深度知识积累和灵活应用是确保有效和准确故障预测的关键。在这方面,An等人提出了一种基于LSTM的滚动轴承故障诊断方法,该方法可以利用循环神经网络(RNN)的结构来学习和记忆历史数据中的故障模式,从而有效地处理和记忆时间序列数据中的长期依赖性。
(2) 从振动信号中提取元知识:元知识是从多个数据源或任务中抽象出来的,使模型能够适应新或罕见的环境。机械设备在跨工况场景下运行,往往缺乏故障数据。使用元知识减少了再训练的需求,更好地利用了有限的数据,降低了成本和时间。例如,L.M.Wang讨论了敏感IMF的包络解调分析,以获得故障诊断特征频率策略,该策略可以应用于从多个数据源中提取更稳健的故障度量元知识,以增强跨工况泛化能力[25]。J. Li 开发了一种经验小波变换(EWT),通过在正交基上将信号分解为单个分量来提取内在调制信息[26]。因此,可以使用从小波分解中获得的元知识自动识别和适应各种动态变化的环境,从而提高模型的泛化能力。H.Li提出了一种方法来减少数据分布的方差,设计算法来识别和抽象跨数据集和跨工况的共同特征,并提高模型在新环境中的适应性和预测能力[27]。
(3) 振动信号诊断模型的快速参数调整:减少参数调整的时间和资源,提高实时故障响应效率。Qian和Qin提出了一种改进的条件分布对齐机制,用于有效的跨工况故障诊断[28]。增强跨领域的自适应能力该机制允许进行有效的迁移学习,使模型能够快速适应新环境和故障类型。因此,减少了重新训练和手动调整。
尽管有这些进步,传统的故障诊断模型往往难以保持长期依赖性和复杂模式,因为特征学习更简单,参数更少。许多模型优先考虑稳定性而不是灵活性。因此,它们对新工况的适应缓慢,需要重新训练或人工干预。为了解决这些问题,本文提出了一种基于LLMs的轴承故障诊断框架,将LLMs的长期记忆能力与微调技术相结合。该框架利用了LLMs在处理复杂数据模式方面的优势,增强了在各种故障模式下的学习和记忆能力。通过微调几个参数,该框架可以快速适应新的条件和故障类型。因此,克服了传统模型在灵活性和适应速度方面的局限性。
这些改进可以显著提高轴承故障诊断系统的效率和准确性,稳定旋转机械的整体运行。
3.2 基于LLM的序列分析
LLMs拥有使用数十亿参数存储大量非结构化知识的能力,有效地形成长期记忆[29]。利用注意力机制和神经网络,LLMs可以从序列中提取关键信息。它在语音、视频和异常检测等时间序列分析应用中取得了初步成功。例如,圣何塞州立大学的Shruthi Hassan Sathish结合CNN-RNN和Transformer模型对图像(视频)和声音(音频)序列中的多模态情感进行分类[30]。南方电网的Mi Zhou和同事们将元学习与LLMs结合起来,对电力时间序列数据进行分类[31]。在贝尔格莱德天文台,叶夫根尼·A·斯米尔诺夫使用GPT-4视觉预训练模型来分类小行星振动状态[32]。
轴承故障诊断涉及识别振动时间序列数据中的异常,这是一个典型的时间序列分类问题。鉴于轴承的复杂运行工况,诊断方法必须在跨工况和小样本情况下表现良好。因此,将LLMs应用于轴承故障诊断是可行和有前景的。
3.3 监督微调
为了方便预训练模型在特定领域快速应用,通常采用监督微调。这种方法简化了训练过程,并允许快速更新[34]。Hu等人[35]介绍了LoRA方法,该方法通过保持部分层的固定权重并添加可训练的低级分解矩阵来提高训练效率。T.Dettmers 等人[36]提出了QLoRA监督微调方法,该方法减少了内存使用,并在小型、高质量的数据集上取得了更好的结果。Muhammad Najam Dar等人[37]演示了使用预训练模型和微调进行跨数据集学习,验证了在实际应用中的鲁棒性。有监督的微调可以提高预训练模型的适应性和准确性,同时降低训练成本,并能够实现快速参数更新和将预训练模型的一般知识应用于下游任务。因此,它在跨工况、跨数据集和小样本任务中取得了良好的性能。在轴承故障诊断中,数据收集成本高昂且故障很少发生[38],这导致故障样本稀缺和模型训练样本量小[39]。这要求模型具有高度泛化能力使得监督微调成为将预训练模型应用于轴承故障诊断的合适方法[11]。通过用少量数据微调目标网络的较低层,以适应新任务,减轻了在轴承故障诊断中对大量原始数据的需求。Chuanjiang Li 等人[40]设计了一种缩放和翻译微调策略,以快速适应故障诊断任务不断变化的要求。
3.4 差距分析
面对跨工况、小样本和跨数据集适应等挑战,本研究将LLMs与微调技术相结合,以解决当前技术的局限性,特别是在知识保留和适应性方面。目标是满足故障诊断模型中长期知识记忆、元知识提取和快速参数调优的实际要求。首先,我们开发了一个基于振动数据的故障诊断特征系统,并在该数据内进行了元知识的深度解耦。其次,考虑到LLMs在处理序列数据、记忆保持和知识泛化方面的强大能力,以及它们在各种特定领域的成功监督微调应用,我们将LLMs应用于故障诊断领域。最后,设计了一个微调框架,以实现故障诊断LLM模型的快速参数调整。该框架旨在提高跨工况故障诊断的效率和准确性(参见图1)。
图1 所提出方法的总体过程
4 所提方法
使用LLMs进行轴承故障诊断的所提框架概述如下。在基于振动数据的故障诊断特征构建中,提取振动信号的时域和频域特征可以为LLMs创建微调数据集。使用LoRA和QLoRA方法,对LLMs进行故障诊断的微调。微调框架涉及将振动信号分割成片段,使用值和Token嵌入层将这些片段转换为LLMs输入维度。最后,对 LLM 进行了微调,以实现故障诊断。
4.1 基于振动数据的故障诊断特征构建
4.1.1 特征提取
该方法利用了传感器采集的轴承振动信号的时域离散数据点,有别于传统的LLM框架。为了利用LLM 处理语义信息的能力,从原始振动信号中提取可解释的成分。提出了一种基于特征的LLM故障诊断方法,从原始振动数据中提取时域和频域特征。此外,作为一个框架,特征还可以从其他方法获得,例如基于排列熵的二维特征提取[41]。
常用的时域特征包括均值、标准差、均方根值、绝对均值、峰值、偏度、峭度、方差、峭度指数、峰值指数、波形指数和脉冲指数。一般来说,频率分析是指对一个信号进行傅里叶变换后的分析。常用的频域分析方法包括频谱、功率谱和倒频谱。常用的振动信号频域特征有:频率均值、频率方差、频率偏度、频率峭度、频率重心、标准差、频率均方根、平均频率、正则度、变异参数、八阶矩、十六阶矩。
我们选择了12个时域特征和12个频域特征,共计24个特征,如表1所示。这些是简单的参数,没有使用像EMD分解或小波包分析这样的复杂时频分析方法来提取振动信号的复杂或局部特征。原因有两个:首先,提取复杂特征很繁琐,可能需要为振动数据的特征进行设计;其次,我们希望充分利用LLM的学习、提取和分类能力,基于易于获取的时域和频域特征进行故障诊断。
表1 时域和频域特性
4.1.2 微调
数据集的构建和微调在提取时域和频域特征后,我们使用语言描述而不是直接数值将它们转换为 LLM 能够理解的形式。如图2所示,我们将上述提取的时频域特征值与它们的文本描述相结合,同时使用故障模式作为监督学习的标签,输入形式为问答对,目的是使模型能够在输入指令和新任务时给出正确的输出。这种方法避免了对特征的规范化,保留了它们的物理意义。
图2 文本化模型输入示例
值得一提的是,为了使模型尽可能少依赖于专家知识,我们把文本部分的语言描述,除了特征外,只作为个说明性的例子。其主要目的是使LLM能够理解要执行的任务和输入数据的含义。
微调有助于LLM学习特定特征参数的相关关系和知识。如图3所示,借助LoRA和QLoRA微调方法使LLM能够学习故障诊断分类中微调数据内的模式。
图3 基于特征的LLM故障诊断框架
4.2 基于LLM的故障诊断模型微调框架
基于LLM的故障诊断模型如下图4所示。在对振动数据进行实例归一化后,我们将信号分割成块,并使用值和位置嵌入将每个块转换为LLM输入维度向量,然后将这些向量输入到LLM中。我们通过微调LLM的Add&Layer Norm层来提取特征,并通过Layer normalization和Linear层对数据进行分类。
图4 基于数据的LLM故障诊断框架
4.2.1 补丁(Patching)
振动数据的高采样频率造成了信息冗余。为了解决这个问题,我们使用 PatchTST 中的修补方法来聚合相邻的数据点。该算法提取局部语义信息,使LLM能够关注聚集斑块的特征和模式,减少冗余,提高局部信息处理能力。补丁还减少了LLM中的Token计数,增加了更多信息的输入数据长度,并减少了计算负载和内存使用。
4.2.2 嵌入(Embedding)
Token嵌入:通过Token嵌入,将输入文本中的每个Token转换为LLM输入维度的向量。为了将振动数据输入到LLM中,我们还需要对振动数据进行Token嵌入,将其转换为LLM输入维度。由于轴承振动数据的拼接,我们使用一维卷积层将每个合并的补丁转换为LLM输入维度。
位置嵌入:对于位置嵌入,我们使用了Transformer的标准正弦位置嵌入,直接将位置信息嵌入到序列的表示中。正弦位置嵌入的公式如下所示。
因此,在对轴承振动数据进行Token嵌入和位置嵌入后,嵌入值被加总为最终输入嵌入值,以传递给LLM。
4.2.3 冻结注意力层
在我们的GPT-2模型中,我们冻结了多头注意力层和FFN层,只训练层范数和位置嵌入层。模型的多头注意力和FFN层包含了模型在预训练阶段学到的大部分知识。因此,该模块被冻结,以便:
-
- 充分利用模型学到的知识,帮助实现轴承振动数据的故障诊断;
-
- 减少可训练参数的数量,加速训练过程,因为它包含了模型的绝大多数参数。
4.2.4 归一化
我们通过使用均值和方差对输入振动数据进行归一化,并在gpt2模型的LayerNorm层中添加仿射变换,通过训练其可学习的仿射变换参数,进一步促进知识迁移。可学习的仿射变换通过学习参数来调整数据的偏移和缩放,从而增加模型的表达能力,使模型能够学习更复杂的数据分布和模式。同时,通过仿射变换,模型能够更好地适应不同的数据分布和任务,提高模型的泛化能力,从而在不同数据集上获得更好的任务性能。
仿射变换公式如下图所示:
其中 和 是可学习的仿射变换参数, 是一个非常小的值,以避免在方差为0的情况下分母为0。
4.2.5 损失函数
使用交叉熵损失函数来测量预测标签和实际标签之间的差异:
5 案例研究
基于上述提出的基于LLM的轴承故障诊断框架,分别进行了基于特征的LLM故障诊断和基于数据的LLM的验证实验。通过单数据集实验、单数据集跨工况实验、全量数据和少量数据跨数据集迁移实验(如表2所示),证明了所提出的框架可以跨工况、小样本和跨数据集诊断故障。
表2 案例研究的内容和已验证的功能
5.1 数据集介绍
在案例研究中,使用CWRU、MFPT、JNU和 PU四个公共轴承故障诊断数据集进行了基于特征的 LLM 故障诊断和基于数据的 LLM 故障诊断实验。
在CWRU数据集中,我们使用的故障数据从驱动端轴承的采样率为12kHz。故障缺陷深度分别为0.007英寸、0.014英寸和0.021英寸,涵盖了四种不同负荷和速度的工况。故障模式有四种:正常、内圈故障、外圈故障和滚动体故障。
在MFPT数据集上,使用了3个正常轴承、3+7个外圈故障轴承和7个内圈故障轴承的数据。该数据集包括3个外圈故障轴承,输入轴转速为25 Hz,负载为270磅,采样频率为97656Hz。七个外圈故障轴承的输入轴转速为25 Hz、采样频率为48828 Hz,负载为25、50、100、150、200、250和300磅。七个内圈故障轴承的输入轴转速也为25 Hz,采样频率为48828Hz,负载为0、50、100、150、200、250和300磅(见图6)。
江南大学(JNU)数据集的采样频率为50kHz,包括三种转速:600rpm、800rpm和1000rpm。它涵盖了四种故障模式:正常、内圈故障、外圈故障和滚动体故障。
在PU数据集,我们使用了来自12个人为损坏的轴承(7个有外圈故障,5个有内圈故障)和6个正常轴承的数据。振动信号的采样频率为64kHz,具有3种故障模式。
案例研究中使用的数据的STFT时频图像显示,四个数据集的振动数据之间存在显著差异,如下图5所示。
图5 用于不同故障模式的四个数据集的STFT图像
图6 基于特征的单数据集实验结果
5.2 数据预处理
轴承振动数据通过滑动窗口方法划分为2048点的样本,步长小于窗口长度以保留窗口边缘的潜在故障信息并最小化信息损失。
对于基于特征的LLM故障诊断实验,使用第二部分提到的公式从这些样本中提取时域和频域特征,以构建微调数据集。训练集和测试集按8:2分开。对于基于数据的LLM故障诊断实验,训练、验证和测试集被分成8:1:1。为了利用LLM从大型数据集中学习的能力,我们确保每个数据集中的每个故障模式都有相同数量的样本,旨在最大限度地减少类失衡的影响并最大限度地利用从数据中学到的知识。
对于后续在不同数据集上使用组合和交叉训练进行模型泛化的实验,我们根据故障模式(正常、内圈故障、外圈故障和滚动体故障)对每个轴承数据集进行分类,而没有进一步根据工况或故障严重程度进行标签区分,因为这些跨数据集因素可能存在很大差异(参见图7)。
图7 全量数据跨数据集实验结果
5.3 实验环境
实验设置如下:英伟达GeForce RTX4090 GPU,内存24GB;开发工具为 VScode和 torch 2.1.0;CUDA版本 12.2。
5.4 基于特征的LLM故障诊断案例研究
在基于特征的LLM轴承故障诊断案例研究中,我们使用了ChatGLM2-6B-chat模型,这是清华大学THUDM开发的开源双语对话模型。该模型的权重完全开放供学术研究使用,其双语训练有助于用中文数据进行微调以进行故障诊断。由于故障诊断任务对稳定性要求高,我们设置了温度系数为0.01,以确保LLM提供一致的结果。
5.4.1 单数据集实验
单个数据集的诊断结果如表3所示。结果表明,LLM有效地识别和识别了轴承振动信号的特征进行故障诊断,其准确性随着训练周期的增加而提高。可以看出,其故障诊断能力是稳健的。
表3 基于特征的单数据集实验结果
5.4.2 单数据集跨工况实验
为了评估所提出的方法在未知工况下的泛化能力,使用CWRU数据集进行了跨工况诊断实验。10个训练周期的结果如表4和表5所示。基于特征的LLM故障诊断方法能够诊断跨工况故障,在相同工况下诊断的准确性高于跨工况诊断的准确性。更多的工况数据也提高了对新工况的诊断准确性。
表4 CWRU数据集的工况
表5 CWRU数据集的跨工况实验结果
5.4.3 跨数据集实验
5.4.3.1 全量数据迁移实验。跨数据集的实验使用CWRU,MFPT,JNU,和PU的数据集。该模型在其中三个数据集中进行了训练,并在第四个数据集中进行了测试。这些实验的设计和结果如表6所示。与单个数据集训练相比,多数据集训练提高了 LLM 对新数据集的知识迁移。在epoch=1的迁移训练中,这四个数据集的诊断效果与单数据集训练相比有很大提高。对于PU和 CWRU数据集,在对其他三个数据集进行10次训练后,诊断准确度分别提高了0.077和0.0235。相比之下,MFPT和JNU的数据集的提升较小。
5.4.3.2 少量数据迁移实验。考虑到工程应用的实际需求和使用工况,新设备可能没有足够的故障数据。为了用少量的故障数据模拟实际工程工况,我们对模型进行了微调,使用了10%的新数据集,并将结果与仅基于10%的新数据集进行训练的结果进行了比较,以验证模型对基于旧知识的新小样本数据的辅助诊断性能的影响。实验设计和结果如表7和表8所示。
表6 全量数据跨数据集实验结果
表7 少量数据跨数据集实验结果
表8 少量数据实验结果
5.5 基于数据的LLM故障诊断案例研究
5.5.1 超参数选择实验
为了确定轴承故障诊断的最佳超参数,我们优化了基于JNU数据集的Patch大小和步长。实验设计和结果如表9所示。结果表明,较大的Patch尺寸和较小的步长参数可以实现更高的诊断精度。然而,由于训练时间较长,步幅较小,我们选择了一块Patch大小为128和8的步长,以平衡准确性和训练时间。
表9 超参数选择实验结果
5.5.2 单数据集实验
单数据集实验的主要超参数是Patch=128,Stride=8,lr=0.001,epoch=50。每个训练阶段后,使用验证集对模型进行验证,选出表现最佳的模型作为最终模型,实验结果如表10所示。
表10 单数据集实验结果
5.5.3 单数据集跨工况实验
为了验证所提出的方法在未知工况下的泛化能力,针对基于数据的LLM故障诊断方法,还设计了一个单数据集跨工况故障诊断实验。具体的实验设计和结果见下表。CWRU数据集的特定运行工况在第5.1节中描述。
从实验结果可以看出,所提出的方法对于单数据集的案例诊断具有较好的诊断性能。具体来说,工况干扰案例的诊断准确性高于外推案例,而更多的工况数据也对诊断准确性有一定的提高作用。这表明LLM可以学习不同工况下故障模式的分布,并将其应用于新的工况下,从而实现跨工况故障诊断(表11)
表11 CWRU数据集的跨工况实验结果
在JNU轴承数据集上进行了交叉实验。江南大学的数据集包含三个工况,如下表12所示。
表12 江南大学数据集的工况
具体的实验设计如表13所示,实验结果用t-SNE和混淆矩阵可视化,如图8和图9所示。
表13 江南大学数据集跨工况实验结果
图8 基于t-SNE的江南大学跨工况特征可视化实验
图9 江南大学跨工况实验的测试混淆矩阵
PU数据集的具体工况,以及PU数据跨工况故障诊断结果如表14和表15所示。
表14 PU数据集的工况
表15 PU数据集的跨工况实验结果
5.5.4 跨数据集实验
5.5.4.1 全量数据迁移实验。为了充分利用 LLM 的能力,并验证多数据集训练对基于 LLM 诊断的影响,我们设计了一个多数据集训练诊断实验。实验设计和结果如表16所示。与单数据集全量数据实验的比较如图10所示。对于PU数据集,多数据集训练显著提高了约1%的诊断准确率。对于CWRU,MFPT和JNU数据集,多数据集训练的影响是最小的。
表16 全量数据跨数据集实验结果
图10 与单数据集全量数据实验的比较
5.5.4.2 少量数据迁移实验。针对基于数据的LLM故障诊断方法进行了少量数据迁移实验。在多个数据集上进行训练后,模型通过使用10%的新数据集进行微调。将结果与模型仅在新数据集的10%上进行训练的情况进行了比较。测试数据集是全量的测试集,而不是小量数据的子集。同时进行了多次试验,并取平均诊断准确性以减少实验误差。实验设计和结果如表17所示。通过与图11的实验结果进行比较,发现多数据集训练提高了精度,降低了小数据集的标准差,这表明LLMs可以将学习到的知识迁移到新的数据集上,并提高了模型在新数据集上的泛化能力和稳定性。观察PU,MFPT,和JNU数据集可以看出显著的提升,准确性分别增加了0.0396、0.0376和0.0327,而CWRU数据集增加了最少为0.0028。
表17 少量数据跨数据集实验结果
图11 少量数据跨数据集实验结果
6 结论
为了解决跨工况适应性、小样本学习困难和跨数据集泛化在轴承故障诊断中的挑战,本文将LLMs的长期记忆特性与微调技术相结合。我们提出了一种基于LLMs的轴承故障诊断框架,其中包括一种结合时域和频域特征提取的信号特征量化方法,以及基于LoRA和QLoRA的振动数据微调方法。该方法有效提高了故障诊断的准确性,并增强了模型的泛化能力。案例研究证明了所提出的框架在三个泛化任务中的适应性。因此,跨数据集学习后,准确性提高了约10%。
本文的创新贡献包括:提出了使用LLMs在故障诊断特定领域执行各种任务的基本框架。它展示了所提出的框架在泛化任务中的优越性能,并填补了将LLMs应用于轴承故障诊断的研究空白。进行了初步的探索并取得了某些结果,但仍有很大的改进空间,例如进行的实验代表了部分泛化场景,并且没有讨论特征量化的替代方法。未来的研究可以在这个基本框架上进行,例如设计针对不同泛化任务的模型结构,以及使用实际诊断任务来探索框架的有效性、准确性和泛化能力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。