本期荐读论文:
Self-Supervised-Enabled Open-Set Cross-Domain Fault Diagnosis Method for Rotating Machinery
本期推文的内容概要
本期推文概述一种基于自监督学习的开放集跨域故障诊断方法(SEOC),用于解决旋转机械在不同工况下存在未知故障类别时的诊断问题。
问题的背景
旋转机械在工业中应用广泛,但其关键部件在恶劣条件下易出现故障,可能造成巨大损失。振动信号分析是故障诊断的重要手段,但现有基于深度学习的方法大多假设训练和测试数据分布相同,而实际中不同工作条件会导致数据分布差异,影响诊断性能。此外,现有方法大多未考虑可能出现的未知故障类别(开集故障诊断场景),导致诊断性能下降。
该方法解决的主要问题包括:
-
跨域故障诊断中的数据分布差异问题
传统的故障诊断方法通常假设训练和测试数据中包含的故障类别是相同的,但在实际应用中,目标域中可能出现源域中未见过的未知故障类别。这种开集故障诊断场景会导致传统方法对未知故障的识别能力不足,进而影响整体诊断性能
-
开集故障诊断中的未知故障类别识别问题
传统的故障诊断方法通常假设训练和测试数据中包含的故障类别是相同的,但在实际应用中,目标域中可能出现源域中未见过的未知故障类别。这种开集故障诊断场景会导致传统方法对未知故障的识别能力不足,进而影响整体诊断性能。
-
特征重叠和特征表示能力不足问题
在复杂的故障诊断场景中,不同故障类别的特征可能会出现重叠,导致分类器难以准确区分。此外,传统的特征提取方法可能无法充分挖掘数据中的结构信息,从而影响诊断性能。
针对这些挑战,荐读的论文提出的SEOC方法通过自监督对比学习、开集风险最小化和伪标签一致性自训练等技术,有效解决了跨域故障诊断中的数据分布差异、开集故障诊断中的未知故障类别识别以及特征重叠和特征表示能力不足等问题。这些改进显著提高了在面对未知故障类别和不同工作条件时故障诊断的准确性和鲁棒性。
方法的概述
SEOC方法的整体框架包括三个主要模块:样本增强模块(Sample Augmentation Module);判别特征提取模块(Discriminative Feature Extraction Module)开集学习模块(Open-Set Learning Module)。这些模块协同工作,实现从数据增强到特征提取,再到故障识别的全流程优化。所提出的SEOC方法的框架如图1所示。
图1.拟议的SEOC框架。样本增强、判别特征提取和开集学习模块分别用于样本增强、故障特征表示、故障识别和域对齐。
该框架由样本增强模块、判别特征提取模块和开放集学习模块组成。
(一)样本增强模块
样本增强模块:目的是通过数据增强技术增加样本的多样性,提高模型的泛化能力。其具体包括:
强增强(Strong Augmentation):包括归一化、随机添加高斯噪声、缩放、拉伸和裁剪等操作,用于生成严重扭曲的样本。
弱增强(Weak Augmentation):仅包括归一化和随机裁剪,用于生成轻微变化的样本。
通过强弱增强策略,目标域的样本可以生成两种不同视角的信号,用于后续的对比学习。
(二)判别特征提取模块:
判别特征提取模块的核心任务是从源域和目标域的信号中提取鲁棒的故障特征,具体包括:源域监督学习、目标域自监督对比学习、开集风险最小化。
源域监督学习:源域监督学习:利用监督学习策略挖掘源域中的故障特征。为了计算预测概率和真实标签之间的差异,应用了交叉熵,可以写成:
是源域振动信号
的真实概率分布,
表示弱增强样本的预测概率分布。为了进一步降低经验分类风险,引入了倒易点这与已知类别的原型相反。假设第k个倒数样本是
其中表示样本来自未知类。开集空间中的样本应该比闭集空间中样本更靠近倒易点;
从而可以写为:
其中ψ表示两组样本之间的距离。根据上述公式,样本可以通过倒易点与相应已知类别之间的距离差来识别。给定样本x和倒易点;
可以计算为:
通过计算样本与互斥点的距离,将已知类和未知类的特征分离。
目标域无监督学习:提出了一种基于自监督对比学习的目标域特征学习方法。
利用正样本和负样本之间的差异来指导获得故障特征表示。如图1所示,判别特征学习模块包含特征编码器和对比估计损失。故障特征编码器用于获得具有不同视图的混合增广样本的故障特征表示。利用余弦相似性度量来计算所构建的样本对之间的差异。考虑到弱增强样本和强增强样本
的特征,相似性度量可以表示为
利用相似性度量,修改后的收缩损失函数可以重写为
为了降低开集空间风险并有效地分离已知和未知特征,应增加未知类与小于预定义裕度参数R的倒数样本之间的最大距离。因此,裕度约束可以表示为
由于开集空间和闭集空间是互补的,因此约束开集空间可以转化为:
将已知样本和小于R的倒数样本之间的距离限制为:
通过最小化经验分类风险损失,将每个未知类推送到未知类特征空间,并远离已知类空间。
特征学习模块最大化目标域混合增强信号的互信息,以学习故障判别特征。该模块可以使用自监督学习策略挖掘潜在的类结构信息。同时,类结构信息可以从标记的源域转移到未标记的目标域。为了保证未知类和已知类的准确识别,特征学习模块在开集识别模块之前进行了训练,以避免不稳定的情况。
(三)开集学习模块
开集学习模块:描述了已知故障识别、未知故障识别和伪标签一致性学习。
未知故障识别:为了识别未知故障,根据未知故障预测概率和目标域中整个故障预测概率的分布构建挤压置信度规则。
由于弱增强样本与原始信号相似,因此弱增强样本的分类器输出概率被用作故障预测概率。当未知c+1类故障信号的预测概率
大于或等于预设阈值时,该故障信号将被视为候选未知故障类。因此,挤压置信度规则的下限可以定义为
其中是候选未知故障样本。T1∈[0,0.1]是预定义的阈值。由于未知故障样本不包含在标记的源域中,阈值T1将是一个较小的值。遵循此规则,特征提取模块将为未知类别分配较小的值,并为已知故障样本分配较大的值。
挤压置信规则的上限是根据整个故障类别的预测概率构建的。如果在未标记的目标域中为每个故障类别分配了相似的概率值,则确定故障样本类别将变得困难。为了有效地分离未知和已知的类故障样本,应限制概率最大值,使其更容易区分。
当故障概率最大值低于或等于特定边界时,候选信号将被判断为未知故障类别。相反,样品将被丢弃。挤压置信规则的上限可以设计为:
已知故障识别:类似类别的信号样本将倾向于同一集群中心。因此,选择聚类中心的样本来生成高置信度的伪标签。当弱增强故障样本中每个类别的概率最大值大于或等于预设边界
时,信号将被判断为已知故障;否则,样本将被判断为未知故障。因此,伪标签可以写成
在协同训练过程中,源域中的已知类故障对目标域中的未知类故障具有一定的指导作用,阈值Tknown的值应该设置得更大一些。在给定的高置信度伪标签下,相应的样本将被视为下一个训练周期中的新训练样本。
伪标签一致性学习:不同工作条件下存在差异;决策边界不能有效地捕获目标域中未知的类故障判别信息和类间故障特征。该方法利用高置信度伪标签作为目标域训练的监督信息,以提高识别精度。通过伪标签一致性学习,所提出的SEOC方法可以自适应地将决策边界调整到未标记故障信号的稀疏分布区域。伪标签一致性学习损失可以定义为
其中是交叉熵函数,
是强增强样本中拾取的已知故障的故障预测概率,
表示强增强样本中拾取的未知故障的故障预报概率,N是训练历元中的振动信号数量。通过伪标签一致性训练,该模型可以在目标域中尽可能多地使用未标记数据的信息,减少对真实标记样本的依赖,克服目标域中缺乏标签的问题。经过伪标签一致性训练后,该模型可以在目标域信号上反向传播和优化伪标签,以减少不同工作条件下的分布差异,从而缓解域偏移问题。该策略可以有效地利用目标域中未标记数据的信息,提高模型的泛化能力。
如上所述,所提出的方法利用了交叉熵函数、收缩学习损失、伪标签一致性损失和开集风险最小化损失;总损失可以写成
其中γ和μ是折衷参数。在训练阶段,通过优化源域的对比损失和交叉熵损失,并在目标域中进行伪标签一致性训练来进行域对齐。该算法在算法1中进行了总结。
实验验证
SEOC方法在多个数据集上进行了验证,包括三相电机、轴承和直齿轮故障数据集。
三相电机故障数据集:在我们的实验台上收集了三相电机故障的原始振动信号,如图2所示。实验台包含三相电机、电机控制器、旋转轴、轴承模块和变速箱。使用DYTRAN 3093压电加速度计和CMSONE-DAQ数据采集器采样频率为25.6kHz。
在两种不同的速度工作条件下(20和25 Hz)设计了六种故障类型的实验台。
图2.实验台和电机拆卸图
图3.轴承故障和故障轴承实验台
图4.正齿轮的装配和正齿轮的健康状况。
总结与思考
在推荐的论文中,SEOC方法通过结合自监督对比学习、开集风险最小化和伪标签一致性自训练,有效解决了旋转机械在不同工作条件下的开集跨域故障诊断问题。该方法不仅提高了故障诊断的准确性,还显著增强了对未知故障类别的识别能力。未来的研究将聚焦于探索复杂机械设备中不同部件的开集故障诊断方法,并解决数据不平衡和小样本等问题。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。