《基于卷积网络的修剪图特征学习，用于工业过程的故障诊断》论文阅读

一套煎饼

已于 2022-05-28 15:24:39 修改

阅读量1.5k

点赞数 2

分类专栏：论文阅读-深度学习故障检测文章标签：学习

于 2022-05-28 15:22:55 首次发布

本文链接：https://blog.csdn.net/upupyon996deqing/article/details/124871580

版权

论文阅读-深度学习故障检测专栏收录该内容

12 篇文章

订阅专栏

作者：余建波

突出

提出一种修剪图卷积网络（PGCN）来学习过程变量的特征。
功能学习可提高故障检测和诊断性能。
PGCN为过程故障诊断提供了一种有效的方法
在两个基准测试过程中验证了PGCN的可行性和有效性

抽象

故障诊断模型的一个主要特性是从过程信号当中提取有效特征。但是，他们仍然难以构建输入数据之间的特征关联。本文提出了一种新的图神经网络-修剪图神经网络（PGCN），基于图数据进行特征学习。
一维过程数据通过图形构造方法转换成图形数据。图卷积网络（GCN）用于提取过程数据的特征。
PGCN在连续搅拌罐反应器和补料间歇发酵青霉素工艺连个基准工艺上验证了PGCN的可行性和有效性。
试验结果表明，PGCN在特征提取和故障诊断方面的表现优于其他的典型方法，为GCN在工业过程故障诊断中的应用提供了良好的性能。

1引言

过程故障诊断实际上是一个多分类的问题，取决于传感器信号，传统的数据表达式很难反应数据之间的关系，然而，在图域中，数据的几何特征可以提供额外的信息，不仅包含节点的值，还包含它们之间的关系，因此，比一般的数据域相比，可以在图形域中提供更多的信息。

机器学习模型通常无法直接从复杂的过程信号中提取特征，这限制了他们进一步学习有用的信息深度神经网络（DNN）通常由多层结构组成，可以分层地将输入数据转换为隐藏的抽象分层，并将这些提取的特征用于故障诊断任务。

GNN处理的数据是图，图是用于对节点和节点之间的关系进行建模的数据结构，他是机器学习当中唯一的非欧几里得数据，也是由节点和变元两部分组成的数据结构。GNN可以从结构和功能两个方面对数据的整体特性进行建模。结构指得是数据本身的相关性，功能是指图中信息传播和交互过程。图形分析可以用于节点分类，链接预测和聚类。

与传统的GNN相比，基于谱图论将卷积运算引入到GNN，建立了第一个图卷积网络（GCN），于传统的GNN相比，GCN时不同数据邻域信息的卷积，这使得GCN在处理离散空间域信号的识别特征提取方面取得更大的优势，GCN使用节点和边缘来描述数据信息传输，可以进行数据特征学习，以提高模型的分类性能。但是，很难在一维的信号上面使用基于卷积计算的DNN模型。

本文提出的是一种新的DNN ，修剪图卷积网络（PGCN），将工业过程描述为从一维过程信号中学习特征的图。该结构是基于GCN 开发的。用于处理图形结构数据，PGCN是由多个图卷积层和分类层组成的，与传统的故障诊断不同，一维故障数据通过数据关联分析构建成图形数据。根据训练前的结果和连接边缘的重量修剪和优化图结构。然后，PGCN可以通过在训练来改进特征学习和故障诊断。

本文的贡献：

（1）PGCN能够从一维数据中学习高级有效特征，并基于深度神经网络的可解释性将其构建为合适GNN的图数据。

（2）PGCN将训练结果与连接边的权重相结合，实现图结构的最优修剪，有效提取过程信号中的重要信息;

（3）基于PGCN的半监督学习可以从过程信号中学习特征，解决样本量小时的过程故障诊断问题;

（4）首次将新型GNN应用于基于一维过程信号的工业过程故障诊断。

本文的其余部分：

GCN 在第2节介绍，在第3节当中，提出一种新的GNN模型PGCN用于过程的故障诊断。在第4节对PGCN 模型在不了分批法教青霉素工艺上的比较，并验证了修剪方案的优越性。在第5节，进一步采用连续搅拌罐反应器来评价PGCN 的性能。

2图卷积网络

GNN（图神经网络）是一种应用DNN处理图结构数据的深度学习，GNN分成5类：GCN（图卷积神经网络）图注意网络（GAT），图自动编码器（GAE），循环GNN（RecGNNs），时空GNN（STGNNs）,GCN 是半监督分类方法（在无类标签的样例的帮助下训练有类标签的样本，获得比只用有类标签的样本训练的到的分类器性能更优的分类器，弥补有类标签样本不足的缺陷，其中类标签取有限离散值），充分利用了未标记样本之间的局部几何结构信息。通过卷积解决了样本特征自动提取和标记样本数量不平衡的问题。

GCN的结构如图1所示：图卷积网络

这个跟卷积类似，GCN也是可以做很多层的，每一层的输入还是节点特征。

然后将当前特征于网络结构图继续传入下层就可以不断算下去。

补充：

每一层的GCN 的输入是一些邻接矩阵和节点的特征H，两者直接做内积，在乘上一个参数矩阵W，在激活一下，就相当于一个简单的神经网络层。

但是这个模型存在很多的局限性：

（1）只是用A 的话，由于A 的对角线上都是0 ，所以在和特征矩阵H相乘的时候，只会计算一个节点的所有邻居的特征加权和，这个节点自己的特征被忽略了，因此做一个小小的改动，给A加上一个单位矩阵，这样对角线的元素就变成1了。

（2）A是没有经过归一化的矩阵，这样与特征矩阵相乘会改变特征原本的分布，产生一些不可预测的问题。所以我们对A做一个标准化处理。首先让A的每一行加起来为1，我们可以乘以一个D的逆，D就是度矩阵。我们可以进一步把D的逆拆开与A相乘，得到一个对称且归一化的矩阵

通过上面的改进，就得到了最终的层传播。

GCN是用来做什么的？用来解决图结构数据的，图的结构一般来说是非常不规则，可以认为是一种无限维的数据，所以他没有平移不变性。每一个节点的周围的架构都是不一样的，这种结构的数据，就让CNN，RNN瞬间失效。

GNN，实际上跟CNN 的作用是一样的，就是一个特征提取器，只不过她的对象是图的数据，GCN巧妙的设计了一种从图数据中提取特征的方法，从而能够让我们使用这些特征去对图数据进行节点分类，图分类，边预测。

GCN 的核心部分：

假设现在我们有一批图数据，有N个节点，每个节点都有自己的特征，设这些节点的特征组成了一个N×D x,各个节点之间的关系也会形成一个N×N维的矩阵A，叫做邻接矩阵。这个x和A就是输入。GCN也是一个神经网络层，层与层之间的传播方式：

A波浪是：A邻接矩阵加上了一个单位矩阵，因为邻接矩阵的对焦都是0 ，和特征矩阵内积相当于你临界矩阵做了加权和，节点特征的值成了邻接矩阵的权，自身的特征被忽略，围殴了避免这种铅矿，可以先给A 加上单位矩阵。用这个公式可以很好的提取图的特征。

上图中的GCN输入一个图，通过若干层GCN每个节点的特征从X变成了Z，但是，无论中间有多少层，节点之间的连接关系，即A，都是共享的

我们构造一个两层的GCN，激活函数分别采用ReLU和Softmax，则整体的正向传播的公式为：

最后，我们针对所有带标签的节点计算cross entropy损失函数：

Y对应的是有标签的节点，最终的分类准确率通过有标签的节点进行计算，分类完成后，所有节点形成类别，计算有标签节点的分类和真是标签是否对应。

完成上面的步骤就可以训练一个节点分类的模型了。由于即使只有很少的节点有标签也能训练，作者称他们的方法为半监督分类。

回到文章

3 调查手法

3.1修建图卷积网络（PGCN）

本届提出了一种新的GCN，即PGCN，通过特征提取来处理一维过程数据，并在使用边缘权重进行网络预训练后修建噪声边缘。该网络可以有效的描述过程信号与故障之间的关系，并在相关数据之间进行信息传递。与传统的GNN相比，PGCN再标签比较低的情况下可以实现信息的传递。获得比较好的过程诊断性能。

图2 PGCN的网络结构：由图构造层，两个图卷积层，输出层和图结构修建层。

图构建层：将以为数据通过算法转换成图，图的构建有两种形式：一是无监督构图，另一种是监督构图。K-NN图是一种使用样本统计的无监督方法，它可以将最邻近的数量限制再有限数量内，并且这种方法比较简单高效。

K-NN图是将所有样本最为最邻近图中的顶点来构造的，样本之间的连接关系是通过样本之间的距离来测量的。如果样本 xj 是最近的 k 个之一 xi 的顶点 , 那么在 xj 和 xi 对于最近邻的选择没有固定的规则参数 k。节点的最邻近点通过欧氏距离得到的。k的值是根据选择的故障类别的数量和k最近邻节点通过欧几里得距离得到如下：

补充：K-NN

每个样本都可以用它最邻近的K个邻居来代表，最近邻是一种分类算法，该方法的思想就是一个样本与数据集中的K个样本最相似，如果这K个样本中大多数都属于一类，那这个样本也是属于这一类的。

距离度量：

再选择两个实例相似性的时候，一般用欧氏距离：

p是一个变参数，当P=2时，就是欧氏距离（对应L2范数），最常见的而两点之间或者多个点之间的距离表示方法，又称欧几里得度量，n维空间中两个点x1和x2之间的欧氏距离：

（p=2）

L2范数定义为：

K 值的选择：在应用中，K一般取小的数值，通常采用交叉熵验证发来选取最优的K值

回到文章

图卷积层：再图卷积层中，使用变得信息来聚合节点以生成新的节点。标准图卷积层已在方程（1）定义。基于邻接矩阵，PGCN的第一个卷积层表示为：（4）

第二个卷积层的实现方式和第一个卷积层的实现方式是一样的，最有，使用sigmoid分类器生成节点的类标签。PGCN的详细模型参数如表（1）所示，显示了数据流的维度变化（什么意思）。

图结构剪枝层：根据数据特征构建的图数据必然会有一些噪声便，从而导致不相关节点之间的错误信息的传递，图剪枝层的目的就是识别和修剪影响节点特征学习的噪声边缘，构建更好的GCN模型。

a：是样本的总数，d是输入变量的数目

b:提取的特征尺寸

c:故障类别的数目

在K-NN图中确定节点之间的连接关系之后，可以获得相应的邻接矩阵：公式（5）

（相似度矩阵的构造）

补充：相似度矩阵的构造

对任意一个顶点Vi，度di表示与它相连的所有边权重之和，W(i，j)表示顶点和顶点之间的边权重，那么：

对于N个顶点，可以构造n×n的矩阵，同时利用所有顶点之间的权重，得到邻接矩阵（相似度矩阵）aij.常见的邻接矩阵的构造方法：K-邻近

回到文章，两个点之间的距离越近，aij的结果越接近于1，邻接矩阵描述了样本数据之间的局部几何结构信息。修剪初始图网络结构，然后再修剪的图数据上训练GCN模型以更新参数。网络修剪如下：

其中a是稀疏系数，a属于（0，1），稀疏系数的设定是根据预训练故障分类的结果设定的，如果存在跟你更多的故障错误分类，a可以是十余个更大的数值（0.5-1），否则，如果是错误分类较少，可以擦用较少的数值（0-0.5），网络修剪的个数为a×Ek，Ek是构造第k个最近邻时添加的连接边数，Ak是连接边的权重矩阵对应于第 k个最近邻,其中A = A1 + A2 + · · · + Ak.最后，A ′ = { a ′ ij}N i,j可以生成新的邻接矩阵。如图4 （GCN的网络修剪）

补充：网络剪枝

思想是将重要的权重保留，不重要的权重删除，不重要的权重就是越接近于0的，注意的是，修剪

后网络中，值为0 的权重连接再重新训练过程中，将会一直保持为0.实际上。网络结构的修剪不会再实际内存上减少网络的大小，只会减少网络模型的存储空间，因为稀疏结构并不是一个通用的结构，而是一种随机分布的结构。

模型剪枝（Model Pruning）是一种模型压缩方法，对深度神经网络的稠密连接引入稀疏性，通过将“不重要”的权值直接置零来减少非零权值数量.剪枝可以分为结构剪枝和非结构的剪枝，早期的方法是基于非结构化的，裁剪的对象是神经元，是对卷积核进行非结构化剪枝，得到的卷积核是稀疏性的，就是中间很多的元素是0的矩阵，但是这种方法并不会对模型的精度有着实质性的提升，现在更专注再结构化剪枝上，还可以进行细分：通道，卷积核，还可以在形状上。

稀疏系数

因为模型的输入数据是图，包括节点，边和边的权重，因为图中的节点很多，直接使用邻接矩阵存储会消耗大量的内存，所以采用了稀疏矩阵的方式存储图。稀疏矩阵就是节省内存又能够保存信息的方案。

回到文章：

PGCN的训练：需要优化的参数是W(i) (i = 1, 2）和相应的偏差，为了训练图卷积的核参数，以交叉熵算是函数作为目标函数，通过反向传播对GCN 的权重参数和W(1)和W（2）进行更新，交叉熵表示为：

当交叉熵损失函数比较稳定的时候，停止迭代，然后对未知标签故障样本进行分类。PGCN 的训练过程如表2所示：

3.2 基于PGCN的过程故障诊断

基于PGCN 的过程故障诊断模型的应用过程包括数据预处理，邻图构建，图卷积网络参数训练，网络结构修剪和故障诊断五个部分。

图5 基于PGCN的故障诊断模型的流程图

第1步：数据预处理，正则化方法用于正则化过程数据

第2步：邻图构建，将所有样本是为顶点来构建K-NN图，最近邻参数取2，并根据方程5计算邻接矩阵。

第3步：图卷积网络参数训练，根据方程2的要求，构建一个双层图卷积网络，初始数据集（X,Y）和邻接矩阵用作图卷积网络的输入，以训练网络权重参数。

第 4 步：网络结构修剪。根据分类结果和稀疏系数，完成图网结构的修剪，得到新的邻接矩阵，并重复步骤1-3。

第5步：过程故障诊断。根据网络参数的训练结果，将前向传播模型如方程（2）用于预测未知标签样本。

3.3 基准数据验证

本届酱紫啊一系列基准数据集上测试PGCN 的特征学习和分类性能。基于UCI数据集，将PGCN与其他典型分类器进行比较。数据详细信息如图3表示。

表3 UCI 数据集（？）

再该测试中，PGCN的稀疏系数为0.2模型的规模遵循一般的设计定律，即隐藏层神经元数量先增加，然后逐渐减少，训练迭代此时通常为1000次，这些模型的分类结果表4所示：

表4 PGCN和其他模型再UCI数据集上的结果（%）

4连续搅拌式反应釜

再仿真过程中，共收集了8个过程变量用于故障诊断。并将高斯噪声添加到其中，表5列出了8个测试变量和相应的噪声标准偏差。

表5 CSTR系统的测试变量和噪声标准偏差

再正常状况下，生成了500个样本作为训练集，实验中设置了三种失效模式，每种情况下生成了800个样本，故障样本产生再301样本中，这三种故障包括操作条件的变化，过程参数的变化和传感器的偏差。表6列出了这三种故障：

4.1 过程故障检测

为进一步说明PGCN 在过程工业中的有效性，进行故障检测，以检测过程中是否以及何时法神故障。本实验采用正太数据构建PGCN模型，用于过程故障检测。训练后PGCN包括两个图卷积层和稀疏系数a=0.2，提取的深度网络特征H（2）可以通过方程（1）得到。然后，T（2）统计数据的计算是根据提取的特征来检测过程故障。

PGCN的T（2）（？）表示为：

（9）

其中 $H^{2}$ 是提取的特征，即PGCN的第二图卷积层的输出， $\Phi$ 是协方差矩阵。

控制极限通过核密度估计（KDE）计算，置信水平为0.95.为了充分说明PGCN在过程监控中的有效性。基于PCA，KPCA，GCN和PGCN的T2考虑统计数据以比较CSTR案例。PCA广泛用于线性过程监控。KPCA用于避免非线性优化，并已广泛应用于非线性过程监控。误报率（FAR）和故障检测率（FDR）用于评估每个模型的监控性能。

误报率和故障检测率用于评估每个模型的监控性能。

（10）

一般来说，误报率越大，故障检测率越小，说明检测方法的性能好，故障1的冷却液温度传感器具有一定的偏差，图7显示了故障1上四种方法的检测结果，其中PCA和KPCA的检测不是很理想，因为有许多的故障样本没有检测到。说明PGCN 的检测性能是最好的。

图7：检测PCA KPCA GCN和PGCN故障1

表7列出了CSTR三个故障的四种方法中的误报率和故障检测率，其中，PGCN具有每个故障的最高的误报率和最低的故障检测率，，因此，PGCN 具有最佳的故障检测性能。这表明PGCN能够有效提取特征并将其应用在过程故障检测。

4.2过程故障诊断

图8显示了PGCN和GCN 的训练精度，从图7可以看出GCN在400个纪元后激增到80%以上，PGCN收敛速度比GCN快，结果表明,PGCN的训练效果优于GCN.

表8显示了PGCN 与其他型号之间的性能比较，PGCN在CSTR上取得了最佳的分类结果。平均识别率是99.75%。GCN的识别率在97.25%。总体而言PGCN的性能优于其他所有的模型。这表明网络修建可以提高GCN对过程数据的特征学习能力。

为了说明修剪操作在故障诊断中的作用，图9 提供了GCN和PGCN对三种故障和正常状态下的识别率。与GCN 相比，PGCN 对所有故障的分类准确率为99%，特别是对于故障#1，#2，#3。根据这些对比结果，网络修剪可以有效减少故障的错误分类，然后PGCN可以从图形数据中更有效地学习特征，并获得显著的识别性能。

图9 混淆矩阵中GCN和PGCN 的识别率（%）

4.3图构造优越性验证

为了说明PGCN的有效性，通过消融研究说明了图构建的影响，参数和修建尺度系数，在测试中使用五重交叉验证。表6，表7，表8总结了各种条件下故障诊断结果的比较。

（1）图形构造

为了说明图构建对过程故障诊断的影响，本研究比较了三种图形构建的方法：

方案1：所有点都连接到第一个和第二个点，方案2，随机初始化，即一个节点和另外两个随机节点产生一个连接边。方案 3 k-最近邻图（k=2）用于生成图.表9显示，图数据对GCN的训练有影响。

图9 不同图构建方法的故障诊断结果（%）

在GNN中，边用于指示连接的节点之间存在关联，并且边的数量将影响节点特征的学习。在表10当中，通过比较不同值下的故障诊断结果，k不应该太小(k=1)或者太大（k=4）。对于本研究中CSTR的4分类问题，当K=2时，可以得到更好的结果。

表10 k不同值的故障诊断结果（%）

图网络的结构影响GCN的诊断结果，表11比较了不同修建比的故障分类结果，可以看出，当稀疏系数为0.2 的时候，可以获得最佳的故障诊断结果，当取为0， 0.6.，0.8时，故障分类精度比较低，表明没有修剪或者过度修建会影响PGCN的准确度，一般来说，DANG a取0.2可以提高PGCN 在这种情况下的故障诊断精度。

表11 不同修建率的故障诊断结果（%）

4.4 可视化分析

为了验证PGCN 在特征提取的有效性，对PGCN 的三个典型层：即输入层，第一图卷积层和输出层中提取的特征进行了直观分析，PCA用于处理提取的特征，主成分图和三位视图绘制在于10 当中，其中，四种颜色代表了四种过程状态，从可视化结果可以看出，输入层和第一个图卷积层的各种数据之间存在很多的重叠，随着网络深层次的不断深入，特征可以通过多图卷积算法提取，特真正可以很好的分离，结果表明，PGCN 能够了解过程信号的有效特征，具有联合好的故障诊断新能。