用于少样本故障诊断的半监督元学习网络(有SE模块)

Semi-supervised meta-learning networks with squeeze-and-excitation attention for few-shot fault diagnosis
用于少样本故障诊断的半监督元学习网络之阅读笔记

摘要:在工程实践中,数据尤其是标注数据的缺乏阻碍了深度学习在机械故障诊断中的广泛应用。然而,收集和标记数据通常既昂贵又耗时。针对这一问题,本文提出了一种用于少样本故障诊断的半监督元学习网络(SSMN)。SSMN由一个参数化编码器、一个非参数化原型精化过程和一个距离函数组成。基于注意机制,编码器能够提取不同的特征生成原型,提高识别精度。通过半监督的少镜头学习,SSMN利用未标记的数据来提炼原始原型,以便更好地识别故障。设计了一种组合学习优化器来有效地优化SSMN。通过三个轴承振动数据集验证了该方法的有效性,结果表明该方法在不同情况下具有良好的适应性。实验结果证明了该方法在少拍故障诊断中的优越性。

创新点:
(1)为了在数据稀缺的情况下实现故障诊断,提出了具有挤压-激励注意的半监督元学习网络(SSMN)。设计了半监督元学习算法来细化原型,编码器采用了注意机制来提取更有效的特征。
(2)将经典随机梯度下降优化器和自适应矩估计器集成为一个组合优化器,快速收敛SSMN的训练损失。讨论了它的实用性,并探讨了它的潜力。
(3)通过轴承振动数据集进行了大量的实验,以评价其有效性。在不同的诊断场景下,将SSMN性能与相关方法进行了比较,给出了定量结果和定性分析。

在这里插入图片描述
输入数据-编码器提取特征-SE模块提高提取特征的能力-模型细化

在这里插入图片描述

SE模块
在这里插入图片描述
Prototype refinement
在这里插入图片描述

半监督元学习
利用未标记样本解决小样本问题,通过计算未标记样本与标记样本的欧几里得距离,来对未标记样本进行归类,然后用于修正每个类的初始原型。

实验:本文实验部分较多
1.CWRU
四种工作状态(NC、IF、OF和RF)下的四种负载(0、1、2和3hp)。对每个负载下的每个轴承工况选取50个采样频率为12khz的样本.50×4×4 = 800。轴承故障直径为0.007英寸
4way故障诊断
30次迭代 (每个类2到10个样本) 未标记样本个数与支持集一致,即每个类的未标记样本个数为{1,5} 用1way和5way验证
在这里插入图片描述
模拟案例2: SQ数据集
正常状态(NC)、轻微内圈故障(IF)和外圈故障(OF)。IF-1, IF-2, IF-3, of -1, of -2, of -3。旋转频率为39 Hz的轴承数据
3way故障识别
我们从SQ数据集生成了四种转速下的承载条件NC、IF-3和of -3的数据。在每个速度下,每个条件选取100个样本,总共产生100 * 4*4个样本。在每次实验中,每个速度选取1 - 4个样本,因此每个类选取4 - 16个样本。训练的4个模型与4路分类实验相同,故障识别结果如表5所示。在这里插入图片描述
Seven-way故障识别
在七类分类中,使用了SQ数据集的所有类型的方位数据。在每个轴承条件下,以39 Hz的转速采样200个样本,生成7类数据集。ssn的未标记样本个数遵循支持集,即每个类的未标记样本个数为{1,5}。经过30次迭代训练后,在测试数据集上测试比较模型。
在这里插入图片描述
EB数据集
四种轴承故障,并将每种故障类别细分为三种不同的故障严重程度。因此,在EB数据集上加入常规条件(NC),得到了13种轴承条件。采样频率为12.8 kHz
Thirteen-way故障识别
13way1shot数据集和一个13way5shot数据集用于故障分类
在这里插入图片描述
在这里插入图片描述
案例4:跨域故障诊断
NC、IF和OF。IF和OF分别为SQ的IF-3和OF-3数据。采用CWRU数据集的训练数据训练模型,SQ数据集的测试数据对模型进行测试,实现了三向跨域故障诊断
在这里插入图片描述
讨论:
1.样本长度
在这里插入图片描述
随着样本长度的增加,ssmn能够从长信号中提取更多的信息,而当样本长度较小时,ssmn无法提取足够的特征来进行故障识别。除跨域情况外,ssmn至少能达到85%的识别准确率

2.未标记数据的样本量
未标记数据的样本大小与优化后原型质量密切相关。如果给定非常少的未标记样本,起不到优化作用,并且将增加计算时间。相比之下,如果我们给出大量的未标记样本,原型可能会被过度调整,过多的未标记数据可能会导致模型的不收敛甚至在训练中崩溃
在这里插入图片描述

带有不确定性的未标记数据会增加原型的不确定性。分布在边界B附近的数据很可能被原型A误分类,导致原型A的无效调整,因此样本量的适中值要通过实验来确定。如图27所示,当未标记样本的数量接近支持集的数量时,SSMN表现更好。虽然这三种情况不能代表所有的实际诊断情况,但该值可以作为初始值,并为扩展应用提供参考。
在这里插入图片描述
3.优化迭代
给定未标记的样本,优化后模型是否能够代表相关类的平均特征取决于迭代。理论上,如果我们采用硬聚类,原型在一些迭代后将保持不变,但这种方案将使模型推理不可微[36]。我们为未标记的数据分配软标签,这可能导致不稳定的训练。因此,我们仍然通过实验来确定迭代次数的值。三个对比实验结果显示在图28中。如果我们不对原型进行改进,精度会降低,尤其是对于情况2。细化次数太多,分类性能不是最佳的,计算时间也会急剧增加。权衡一下,我们选择1到3的迭代次数作为精化的经验值。
在这里插入图片描述
4.注意模块数
注意机制的滥用可能导致提取的特征质量差。此外,强特征提取能力可能导致过拟合,如果它不匹配的泛化能力的模型。总之,嵌入SE模块的数量有待商榷。文章设计了4个卷积块,然后是注意模块,其数量从{0,1,2,3,4}中选。不同设置的SSMN的性能如图29所示。
在这里插入图片描述

通常,更多的块可以提高模型性能,但同时增加计算时间。更多的注意块提高了编码器的特征提取能力,而模型在少量样本下容易过度拟合。对于case3,SSMN在跨域故障识别中表现不佳,超过2个块,这可以解释为更多的注意模块使得源域中的编码器得到加强,从而导致过拟合现象。最重要的是,我们将两个块合并到编码器中进行权衡。

5.组合优化器(SGD+Adam)
在初期使用SGD,损失值迅速下降,在后期使用Adam,损失值逐渐变小。指数衰减 减缓了损耗的衰减速率。有一个超参数lskip,它决定何时转换优化器。如图所示,我们在case1上进行了四次实验来寻找lskip的最优值。可以看出,组合优化器的平均训练损失曲线优于SGD。
在这里插入图片描述

优点:
1.半监督元学习。所有可学习的参数都存在于编码器中,简化了结构,减少了参数的数量。且训练采用少镜头的情景范式,通过任务的随机组合来挖掘有限标记数据的潜力,提高对每个任务的泛化能力。
2.利用未标记的数据解决小样本问题。一方面,原始原型的标定由未标记数据在多次迭代中完成,提高了每个类的原型的代表性。另一方面,使用未标记的数据也有助于减少在现实环境中对标记数据的需求。
3.应用注意机制,能够从原始数据中提取有用的特征,提高了原型的质量,稳定了精炼过程。最后,用组合优化器SGD和Adam对ssn进行优化。这种优化方法可以快速地将损失降低到足够理想的最小值。
缺点:
1.度量函数不够复杂,无法在嵌入空间中度量最佳距离。设计的欧氏距离在训练和测试时是固定的,但它应该自动选择点之间的最佳距离,特别是当数据服从不同的分布时。
2.未标记的数据可能不属于给定的标记数据的任何类。在真实场景中,未标记的数据是随机收集的,无需手动标记。因此,如果出现外部类点,未标记的数据可能会影响原型的细化。因此,在今后的工作中,原型细化方法有待进一步改进。
最后,阈值lskip、SGD的初始学习率、CB的核大小几个超参数的值由经验或实验决定。为了改进,可以将一些自适应技术应用于所提出的方法。

  • 11
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 22
    评论
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值