加入Inception结构的胶囊网络在轴承故障中的应用（学习笔记）

最新推荐文章于 2022-09-22 14:14:25 发布

哦我就想贝佳斯

最新推荐文章于 2022-09-22 14:14:25 发布

阅读量997

点赞数 1

分类专栏：胶囊网络故障诊断文章标签：人工智能神经网络深度学习 cnn

本文链接：https://blog.csdn.net/qq_45549605/article/details/126814713

版权

胶囊网络同时被 2 个专栏收录

8 篇文章 3 订阅

订阅专栏

故障诊断

8 篇文章 1 订阅

订阅专栏

应用一（参考文献：A Convolution Meural Network Based on a Capsule Network with Strong Generalization for Bearing Fault Diagnosis）

在传统的卷积神经网络应用中因其最大池化层的处理方式可能会忽略特征之间的位置关系，因此将胶囊网络引入到深度学习中。受胶囊网络中动态路由的启发，提出了一种具有初始块（Inception结构）和回归分析的额新型胶囊网络。首先，在预处理阶段，将一维信号转换为时频图。其次，将图形数据馈入网络，并应用两个卷积层来提取更高的信息；随后，将初始块应用于输出特征映射，以改善胶囊的非线性。然后，在动态路由之后，使用胶囊的长度来分类故障类别。还有两个分支：一个分支使用最长的胶囊来回归胶囊的损伤大小，另一个分支重建输入图。

文章中主要阐述了以下几个方面：

1.提出了一种新的胶囊网络，该胶囊网络具有相对简单的结构和相对较少的参数，以提高泛化能力。

2.所提出的ICN具有良好的泛化性，在轴承故障诊断领域，其性能优于其他最先进的CNN模型，如WDCNN[18]和ACDIN。

3.通过添加回归分支，所提出的模型将故障大小问题作为回归问题而不是分类问题。

4.本文对初始块和回归分支进行了分析，以表明它们在模型中起作用

为了获得一种具有良好泛化能力的鲁棒方法，用于分类不同负载中的故障，文章介绍了一种新方法。提出的方法分为两部分：预处理和提出的胶囊网络。输入数据首先经过预处理，然后输入神经网络进行分类。

1数据的预处理

在预处理中，原始数据从一维信号变为二维图形。采用短时傅立叶变换（STFT）对信号进行预处理，然后对输出进行零均值归一化。该架构如图所示：

1）短时傅里叶变换

短时傅里叶变换广泛用于一维时域信号，如音频信号和振动信号。STFT应用于同一步幅信号的滑动窗口，在窗口中复制信号并应用傅里叶变换；重复上述步骤，从而将一系列时域信号改变为融合时间和频率特征的图。在STFT之后，我们可以获得时频图（TFG），图像的亮度表示频域的振幅。

STFT有两个重要参数：时间步长和窗口长度。这两个参数的选择值必须同时考虑保持高输出分辨率（其优选长窗口长度和保持输入原始数据长度较短），这在实践中可以使其对故障信号更敏感；选择的时间步长为0.813毫秒，窗口长度为128×128，这意味着对于128×128 TFG的尺寸，电机在该时间步长内旋转一圈。因此，滑动窗口的步长为0.813×10−3 × 48000 = 39.一旦确定了这些重要参数，数据就可以转换为TFG，然后发送到下一步进行归一化。

2）归一化。零均值归一化用于减少偶然噪声的影响，保证原始信号的分布。它消除了维度的影响，将数据转换为相同的分布。公式如下：

2.改进的胶囊网络

我们发现胶囊网的性能在实践中没有得到很好的应用。为了确定原因，我们分析了胶囊网络的体系结构。在主帽中，不同的胶囊代表不同的特征；然而，它们以相同的内核大小提取，这意味着它们集中在相同大小的特征上，这是不恰当的处理方式，因为不同的特征在大小上可能有很大的差异。知道初始块可以通过卷积不同的内核大小来专门化不同的层，我们将初始块应用于主CAP，并引入初始胶囊网络（ICN）。

1）ICN的体系结构

输入TFG形状为128×128，但原始胶囊网络在MNIST上进行测试，MNIST的形状只有28×28。为了使特征映射和网络架构与原始胶囊网络一致，第一卷积层内核大小为9×9，步长为1，第一卷绕层的输出大小为20×20×256。我们放大了原始卷积层，并使用了一个具有30×30内核大小和步长为5的卷积层。

然后，应用初始卷积cap（PICC）。首先，应用一个卷积层，核大小为9×9，步长为2，核数为256。该层继承了原始主卷积cap以提取更高级别的特征。然后，应用初始块来专门化构成胶囊的特征映射的每个通道。在该块中，我们在八个不同的并行层中使用从1×1到8×8的序列核大小。例如，在第一层中，内核大小为1×1。最后，将这八个不同的并行层连接在通道轴（最后一个轴）上，并获得具有八个维度的输出胶囊。然后，在初始块之后添加digitcaps，并应用“挤压”和“动态路由”操作对胶囊进行非线性变换。如下所示的非线性函数“挤压”具有将短的非活动胶囊挤压到零的功能，同时确保长胶囊可以容易地与其他胶囊区分。

在digitcaps中，“动态路由”用于增加胶囊的维度，胶囊的相似性由于更新权重。更新过程如下图所示

在“路由”算法之后，输出胶囊被馈送到3个分支:

1)分类：作为原始胶囊网络，计算每个胶囊的长度，并用于表示每个胶囊的活动以及每个类别的概率。因此，最长的胶囊对应于分类结果。

2）回归：在之前的研究工作中，发现了一种奇怪的现象，即损伤大小（应为连续量）被分类为离散标签。这样，模型的实用性大大降低。然而，胶囊网络的每一层表示TPG的特性；受此启发，增加了一个回归分支，以使用胶囊信息预测损伤大小。首先，输出胶囊按顺序排列。然后，上述分类结果用于屏蔽胶囊，只保留最长的值，其他值为零。之后，使用两个层（命名为dense1和dense2，具有“ReLU”激活）来提取损伤大小的特征。最后，包括一个神经元的输出层输出“损伤大小”的回归结果。

3）重构TFG（这一部分实在没看懂，啊嘤嘤嘤~~~~~~~~）：上述屏蔽胶囊用于重建输入TFG。该分支的架构如图所示：

引入转置卷积层来重建输入图像。六个不同的转置卷积层创建一个序列。该分支的核大小通常为3×3和2×2。解码器的输入层的大小为（1，1，数字上限输出单位），输出层是（128，128，1）.

4）零填充法

在初始块中使用零填充以保持初始块的输出特征映射处于相同比例。零填充方法允许卷积核从列和行的开始到最后在输入特征映射或部分特征映射之外滑动。例如，在初始块的第一个分支中，填充被设置为零，因为内核大小为1，并且在滑动过程中，没有内核滑出特征映射。对于内核大小最大为1的层，例如初始块的第三个分支，内核大小为3，因此我们在第一位的右、左、上、下填充。对于圆上的数字填充（PR、PL、PU、PD表示右、左、上、下填充的数字），我们使用以下公式。

其中K是内核大小，M是特征映射大小，S是步长。函数 $y=ceil(x)$ 在正无穷大方向上将浮点数据x舍入到最接近的整数例如，ceil(1.5)=2。.函数 $mod(\frac{a}{b})$ 表示除法模数， $mod(\frac{3}{2})=1$ 。

3.模型的各个参数：

建议的ICN有12层，如表1所示。第6层、第11层和第12层为输出层，输出分别被分类为标签、损伤规模和重建TFG。

神经网络中的参数总数为8216474。模型详情如表所示

在所提出模型的训练阶段，总损失是三个独立分支的组合：分类、回归和重建。分类和重建分支与原始胶囊网络相同，使用普通平方损失的回归分支的损失在等式（5）中表示。此外，总损耗如等式（6）所示

Y是真实的损伤尺寸，f(X)是预测的损伤大小，L1是胶囊网络的原始损失。L2是回归分支的损失，L是ICN的总损失。

4.应用结果

首先，在来自Case Western University数据集的1 hp数据负载上训练所提出的网络。经过50次训练后，训练数据集和验证数据集的准确率均达到100%。将TFG送入胶囊网，分类后，取出输出屏蔽胶囊。胶囊的每个尺寸的值在[5%、50%、100%、200%、300%的百分比范围内变化。然后，原始胶囊和更改后的胶囊都被送入解码器。重建的TFG如图所示：

从图8中，胶囊的某些尺寸的值的变化导致时域和频域的变化。有趣的是，较低维度（如第四维度）代表了更多细节。当增加或减少此维度中的值时，某些特定点保留，而其他点消失。胶囊的更高尺寸表示更大区域中的信息。与第四维度和第十五维度相比，这种现象尤其强烈。在第15维改变胶囊的过程中发现了更大的突出区域。它还支持初始块在ICN中发挥重要作用，因为初始块可以改变特征所代表区域的大小。胶囊的较低尺寸可包含主要从较小区域提取的特征，反之亦然。

应用二（参考文献：A Novel Capsule Network Based on Wide Convolution and Multi-Scale Convolution for Fault Diagnosis）

面对不断变化的操作条件和噪声污染，一些深度学习算法的精度显著降低，这使得算法难以实际应用。为了解决这一问题，提出了一种基于宽卷积和多尺度卷积的新型胶囊网络（WMSCCN）用于故障诊断。所提出的WMSCCN算法将一维振动信号作为输入，不需要额外的人工处理。此外，引入了自适应批量归一化（AdaBN）算法，以进一步增强WMSCCN在噪声污染和负载变化下的适应性。

该文献中主要说明了以下几个创新点：

（1）提出了一种新的用于故障诊断的胶囊网络，该网络以原始信号为输入，不需要任何耗时的手动特征提取过程。

（2）所提出的WMSCCN算法在不同工作条件下具有较高的诊断精度，并优于其他高级模型，如具有宽第一层核的深度卷积神经网络（WDCNN）[22]。

（3）通过向测试数据集添加噪声以模拟工业环境中的噪声污染，与其他算法相比，所提出的模型仍然实现了更高的精度，并且具有更好的抗噪声能力。

1.用于故障检测的WMSCCN模型

a@b表示当前特征图的数量为a，大小为b，BN表示批量归一化技术，Dim表示胶囊的尺寸，Conv1和Conv2表示第一和第二卷积层。

上图显示了所提出的WMSCCN算法的网络结构，包括宽卷积层、多尺度卷积层，主胶囊层和数字胶囊层。此外，尺寸为2048的1D振动信号是所提出的WMSCCN算法的输入，无需任何手动特征提取过程。在所提出的WMSCCN算法中，宽卷积层使用较大尺寸的卷积核，而多尺度卷积层则使用多个不同尺寸的卷集核来学习不同时间尺度的特征。

在多尺度卷积层中，为了确保不同大小的卷积核的特征映射具有相同的大小，使用了零填充技术。此外，批量标准化（BN）技术用于加快培训过程，而辍学技术用于降低过度拟合的风险。在此基础上，进一步引入自适应批量归一化（AdaBN）算法，以增强WMSCCN在噪声和负载变化下的适应性。损失函数用于确定算法的预测值与真实值之间的误差。

1.1款卷积和多尺度卷积

作为所提出的WMSCCN算法的第一层，宽卷积层可以称为函数中的降噪层。这些层的核心是通过较大尺寸的卷积核来抑制高频噪声，从而达到提高算法抗噪性的目标。在宽卷积层之后，访问多尺度卷积层。卷积层提取故障特征的精度取决于卷积核的大小。

小卷积核可以提取精细特征，而大卷积核则可以提取粗粒度特征。如果单层仅使用相同尺度的卷积核，则很容易忽略其他精度的特征，导致提取特征的信息不完整。为了提高不同工况下的故障特征提取能力，增强算法的泛化能力，本文引入了多尺度卷积的思想。多尺度卷积层由八个不同尺度的卷积核组成。卷积核的大小为i（i=1，2，3，…，8）。步幅表示我们在每一步中移动卷积核的数量，设置为1。过滤器表示卷积核数量，并设置为16。

在多尺度卷积层中使用零填充以保持输出特征映射在相同尺度上。它允许卷积内核在输入特性中从开始到结束滑动。因此，它可以更有效地提取边界特征。对于填充为零的特定位置，PL表示左侧的零填充数量，PR表示右侧的零填充数，如下公式所示。值得注意的是，以下公式仅适用于步幅为1时。

其中k表示卷积核大小。函数y=ceil（x）意味着对于浮点数，正无穷方向上的x取最接近的整数。例如，ceil（6.5）=7。函数y=f loor（x）表示负无穷大方向上的浮点数x取最接近的整数。例如，f loor（6.5）=6。根据上述公式，如果要填充的零的总数是偶数，则PL=PR。如果要填充零的总数为奇数，则P1总是奇数，PR总是偶数，两者之间的差为1。

1.2胶囊网络

在多尺度卷积层之后，我们访问胶囊网络，包括主胶囊层和数字胶囊层。其中，主胶囊层将提取的故障特征转换为胶囊形式，并通过动态路由将其传输到数字胶囊。每个数字胶囊表示特定的故障类型，其长度表示特定故障类型的概率。

具体而言，首先，使用两个尺寸为3×1的卷积层将故障特征转换为尺寸为8的主胶囊。此外，主胶囊i通过动态路由机制传输到数字胶囊j，该过程保留了主胶囊的所有空间信息。在本文的模型中，数字胶囊的尺寸为10。动态路由的迭代次数为3。

传统神经网络中的激活函数通常用于非线性激活网络层的输出，并且仅适用于标量。在胶囊网络中，挤压函数是一种用于归一化向量的特殊激活函数。该激活函数将短矢量收缩到几乎为零的长度，将长矢量收缩到略小于1的长度，并保持其方向不变。

1.3AdaBN算法

AdaBN[29]是一种基于BN的域自适应算法。该算法基于以下假设：与样本类别标签相关的信息由各层的权重确定，与样本域标签相关的数据由BN层统计数据表示。AdaBN对传统的BN进行了转换，使源域和目标域统计在BN层独立，并且剩余的网络参数仍在源域与目标域之间共享.

进一步引入AdaBN算法，以增强WMSCCN在噪声和负载变化情况下的适应性。基于AdaBN的WMSCCN算法首先使用训练样本训练WMSCCN模型，直到训练完成。如果训练样本和测试样本的场分布不一致，则需要调整模型的某些参数。具体而言，所有BN层的平均值和方差被测试集的平均值与方差替换，其他网络参数保持不变。在改进的模型上对测试集进行故障诊断。基于AdaBN的WMSCCN算法如图所示，其中γi和βi是WMSCCN模型中BN层神经元i的缩放和平移参数。

1.4模型参数

边际损失是所提出的WMSCCN算法中的损失函数。一方面，通过训练减少损失的过程使得代表当前故障类型的数字胶囊c趋于变长。另一方面，边际损失支持多分类结果的输出，这对于复合断层模型的未来推广具有重要意义

其中Lc表示数字胶囊c的容限损耗，vc表示数字胶囊的输出。

缺失数字类的损失的λ向下加权阻止了初始学习收缩所有数字胶囊的活动向量的长度。在实验中，λ设置为0.5。Tc指示故障c是否存在。当故障c存在时，Tc=1，不存在c为0。m+为0.9，可惩罚假阳性。当故障c存在但预测结果不存在时，将导致较大的损失值。m− 为0.1，可惩罚假阴性。当故障c不存在但存在预测结果时，也将导致较大的损失值。

WMSCCN的模型结构参数如表所示。值得注意的是，多尺度卷积层使用零填充技术，以确保特征图的大小一致。在训练过程中使用Adam优化算法。它使用梯度的第一矩估计和第二矩估计来动态调整每个参数的学习速率。Adam算法具有计算效率高和内存需求低的优点。因此，它适用于具有大量参数的神经网络的训练。所提出的WMSCCN算法的训练参数设置如下：批量大小为100，学习率为0.001。

此外，辍学通常被用作训练深度网络的技巧，并且在所提出的WMSCCN算法中也用于降低过拟合的风险。辍学技术是指在每个训练批次的前向传播中的技术；一些神经元以概率p忽略，即隐藏层的一些节点值为0。训练后，等效于获得由具有不同网络结构的多个神经网络组成的集成模型，可以有效降低过拟合的风险。在所提出的WMSCCN算法中，在多尺度卷积层和主胶囊层之间使用丢弃率为0.3的丢弃，即，多尺度卷绕层中30%的节点具有值。

应用三（参考文献：改进胶囊网络的滚动轴承故障诊断方法）