用于智能机械故障诊断的鲁棒权值共享胶囊网络（学习记录）

本文链接：https://blog.csdn.net/qq_45549605/article/details/126886334

一、摘要

在实际工业应用中，机械的工作条件随着长期运行而变化，健康状况随着关键部件的退化而下降。当工作条件发生变化时，先前的诊断模型不能从一种情况推广到另一种情况。为了解决这一挑战性问题，提出了一种鲁棒权重共享胶囊网络（WSCN），用于在不同工作条件下的机械智能故障诊断。首先，以原始加速度计信号为输入，构造1D卷积神经网络（1D CNN）以提取鉴别特征。第二，开发了基于多堆叠权重共享胶囊的各种胶囊层，以增强进一步故障分类的泛化性能。最后，采用边际损失函数和基于协议的动态路由算法对无线传感器网络进行优化。两个诊断案例证明了WSCN的泛化性能，与其他最先进的方法相比，它在不同的工作条件下获得了更高的精度。

二、鲁棒权重共享胶囊网络（WSCN）

2.1WSCN原理

下图为WSCN的结构图

WSCN中的局部特征检测器应用1D CNN直接从各种1D原始信号学习特征表示。1D CNN可以充分利用深度学习的特征学习能力，消除依赖高级信号处理技术的传统智能方法的局限性。由多个卷积池化层学习的特征被重塑为矩阵，该矩阵可用作下一个胶囊层的输入。

在建立一维CNN后，引入了基于多堆叠权重共享胶囊的各种胶囊层，以增强故障诊断模型的泛化性能。然而，随着多层胶囊层数量的增加，深度全连接架构的可训练参数呈指数增长。因此，难以训练难以收敛到最优最小值的深度框架，并且训练过程不仅耗时而且浪费计算资源。受CNN和完全连接网络之间差异的启发，CNN的共享权重结构意味着更少的参数进行优化，更快地收敛到最小值，并避免过拟合。为了获得具有鲁棒泛化性能的故障诊断模型，探索了一种改进的胶囊网络WSCN。

FCCN和WSCN之间的关键区别在于胶囊网络的架构，前者是完全连接的，后者是权重共享的。如图b所示，WSCN共享相同的变换矩阵来转换所有胶囊的隐藏表示前胶囊层。数学上，对于前胶囊层中的所有输出胶囊 $y_{i}^{FCaps}$ 可以写为:

假设n和c分别是两个连续胶囊层中的胶囊数。如下图所示，WSCN中的可训练变换矩阵的数目为c，而FCCN的可训练矩阵的数目是nxc。WSCN中其他程序的理论与FCCN中的相同。

在最终的胶囊层中，在基于协议的动态路由算法之后，应用L2范数来计算胶囊分类器的输出向量的长度并将其转换为预测向量， $y^{Pred}=[y_{1}^{Pred},...,y_{c}^{Pred}]$ , 其每个元素表示对应类别的概率。然后，选择置信阈值φ，以确定分类器是否应输出标签。具有L2范数和置信阈值的最终胶囊层可以被定义为胶囊分类器。

2.2胶囊分类器的算法：

2.3Margin Loss Function损失函数

通过基于欧几里德距离的边际损失函数计算不同健康状况之间的相似性。在数学上，通过最小化成本函数（即边际损失函数）优化WSCN的参数：

其中 $Y_{c}$ 表示样本标签的指示符， $Y_{c}$ =1表示样本属于第c类，否则， $Y_{c}$ =0表示不属于。正则参数λ是缺失类别损失的加权惩罚因子。m− 、m+分别是最终预测的上下边缘，这意味着如果样本属于第c类，则 $y_{c}^{Pred}$ 应不小于m+，如果不是， $y_{c}^{Pred}$ 应不大于m− 。取m+=0.9,m-=0.1,λ=0.25。

2.3WSCN的一般程序

WSCN的流程图如图所示：

过程总结如下：

1）采用带加速度计的BBM-PAK数据采集系统，测量了不同工况下RM的时间序列振动数据；

2）为了验证WSCN的鲁棒泛化性能，选择在一种工况（如工况i）下采集的时间序列振动数据作为训练数据集，并选择在其他工况下采集的数据作为测试数据集；

3）在没有任何时域或频域特征提取的情况下，训练数据集中的正常和故障数据被分割成多个训练样本，每个样本具有长度为N，重叠比为0.5。此外，测试样本以相同的方式从测试数据集中获得，具有相同的长度和重叠率；

4）利用1D CNN、权重共享胶囊层、基于协议的动态路由算法以及余量损失函数，构建1D CNN和胶囊层以形成WSCN，该WSCN可以在离线训练阶段在一种条件下通过训练样本进行训练；

5）对其他工况下的测试样本进行了测试，以证明WSCN的鲁棒泛化性能，并可以自动报告故障诊断结果；

6）实验数据和工程应用将用于在线测试阶段验证WSCN的鲁棒泛化性能。

三、实验验证

3.1WSCN的参数设置

WSCN的超参数是使用Scikit Learn中称为网格搜索的超参数优化技术确定的。CWRU中使用的WSCN架构包含4个卷积池块、一个整形层和3个权重共享胶囊层。算法和程序使用Keras框架实现。批量大小为64，最大训练周期为50。为了最小化边际损失函数并减少训练时间，采用学习率为0.0005的Adam优化器[43]优化WSCN。