Attention-aware temporal–spatial graph neural network with multi-sensor information fusion for fault

雾岛听雪

已于 2024-04-06 19:08:34 修改

阅读量755

点赞数 6

文章标签：人工智能

于 2024-04-06 19:08:21 首次发布

本文链接：https://blog.csdn.net/XZHBUT/article/details/137350702

版权

Attention-aware temporal–spatial graph neural network with multi-sensor information fusion for fault diagnosis 基于多传感器信息融合的注意力感知时空图神经网络故障诊断

a b s t r a c t

智能故障诊断是机器预测性维护领域的研究热点。然而，从多传感器信号中获取的结构信息尚未得到充分的研究。

本文提出了一种新颖的带有注意感知模块的时空图神经网络(A-TSGNN)来实现多源信息融合。

（1）首先，图形结构自然地组织了不同的传感器。图卷积模型实现了空间维度上的特征表示。

（2）然后，将时间依赖学习应用于时间维度，构建时空学习框架。

（3）设计了一个额外的注意力模块来学习灵活的权重，并对单个传感器的重要性及其相关性进行建模。

在某风力机数据集上进行实验，准确率为0.9669,f1得分为0.9649。对于齿轮箱数据集，值分别为0.9927和0.9920。
对于两个数据集，曲线指标下的总体宏观平均面积达到了1.00的完美分数，表明了出色的性能。

讨论了自适应注意机制，验证了A-TSGNN的优越性。

此外，与单传感器方案和其他融合模型的比较表明，该方法性能稳定。

A-TSGNN为综合利用多传感器数据提供了一种潜在的模型，具有广阔的应用前景。

1. Introduction

在许多工业领域，旋转部件对于机械系统的运行是必不可少的[1]。但是，由于恶劣的工作环境，可能会出现故障。准确的预测和及时的维护将有利于复杂机械的正常运行[2]。故障诊断领域已经从人工智能的发展和创新中受益匪浅[3,4]。

然而，对于多源数据的集成与融合，目前还缺乏相关研究。

多传感器数据融合具有显著的优势，特别是通过集成不同传感器的输出来捕获全面和多样化的数据。

它克服了单传感器数据的不完整性和不一致性等局限性。

需要进行进一步的研究，以促进强大的故障诊断模型，最终导致改进的预测分析和见解。

一般来说，获得的监测信号会进行自动处理，并通过人工特征工程来识别机械的健康状况。常用的机器学习方法性能令人满意，但它们主要依赖于适当的特征提取算法 [5,6]。最近，深度学习技术推动了智能故障诊断的发展[7-10]。

一般来说，获得的监测信号会进行自动处理，并通过人工特征工程来识别机械的健康状况。

常用的机器学习方法性能令人满意，但它们主要依赖于适当的特征提取算法 [5,6]。

最近，深度学习技术推动了智能故障诊断的发展[7-10]。

Wang等[11]设计了一种多任务卷积神经网络(CNN)来提取广义信息，从而避免了局部极小值差。

Wen等人通过信号到图像的方法将时域故障信号转换成RGB图像格式，然后使用在ImageNet上预训练的ResNet-50作为特征提取器进行故障诊断[12]。

Chen等人[13]提出了一种具有物理信息超参数选择策略的长短期记忆(LSTM)网络。

尽管已有的方法取得了成功，但大多数方法仍然使用深度学习中的标准卷积运算或序列运算，而忽略了隐藏在多传感器信号中的时空结构信息。
多个传感器–图卷积
目前，有必要在机械设备中安装多种异构传感器，以监测其健康状况。

安装在不同位置的多个传感器能够从空间维度反映系统的异常情况。

从每个传感器的时间维度更容易检测到周期性故障特征。

事实上，空间维度上的多传感器可以在非欧几里得域中自然地构建一个图结构[14]。

对于这些结构化数据，已经提出了一种具有适当定位的图卷积操作，如CNN，并适当开发了图神经网络(GNN)[15-17]。

切比雪夫谱CNN (ChebyNet)和图卷积网络(GCN)解决了计算复杂度大的问题，使图卷积成为可能[18,19]。

对于交通网络，空间依赖性和时间依赖性都被建模。

利用开发的时空GNN完成交通预测[20,21]。

Chen等人回顾了基于GNN的故障诊断，并指出GNN也可以取得更好的性能[22]。

Zhang等[23]将声信号映射成矩阵，然后形成图，利用深度GCN完成滚子轴承的故障诊断。

Li等[14]建立了基于gnn的智能故障诊断的基准研究。

这些方法大多是通过对机械故障数据进行变换，形成图形结构。

然后进行图卷积运算。这些设计的方法主要基于空间卷积，而隐藏在原始时间序列中的时间信息往往没有得到充分利用。

GNN具有从多传感器数据中提取故障敏感特征表示的潜力。

用CNN进行多传感器信息融合：
利用多个检测传感器的数据进行故障诊断的一种更通用的方案是信息融合。

基于融合的故障诊断已经在数据级、特征级和决策级进行了探索[24,25]。

Chen等[26]使用多个两层稀疏自编码器进行特征融合，然后使用深度信念网络完成故障分类。

Shao等[27]设计了堆叠小波自编码器进行数据融合，并进一步进行加权赋值进行协同故障诊断。

通过自适应信道加权增强的CNN也被开发用于考虑多传感器融合[28]。

本文的模型A-TSGNN

本文提出了一种灵活关注不同源的时空GNN (A-TSGNN)来实现多传感器数据的集成。

将不同的传感器视为节点，对不同传感器的输出进行分割，形成关联图。然后，将构造好的图输入到A-TSGNN块中。

该A-TSGNN模块包含一个注意模块，用于对传感器及其连接进行学习重要性。

经图形读出，再进行全连通层，即可识别故障状态。主要贡献总结如下:

（1）提出了一种新的A-TSGNN框架，用于融合来自不同传感器的信号。这种独特的架构利用多源信号的固有结构，使用基于图形的方法，促进更有效和有组织的传感器数据融合。

（2）A-TSGNN提供了一种通过图卷积捕获传感器数据空间结构的有效方法，同时还通过单源信号时间依赖学习建模时间依赖性。这种混合方法提供了机械系统健康状态的高级表征。

（3）在A-TSGNN框架中加入注意模块，可以根据传感器输入的相关性动态加权。这可以更准确地表示传感器的重要性及其相互依赖性，从而潜在地提高故障诊断结果的可靠性和鲁棒性。

本文的其余部分组织如下。第2节提供了额外的文献综述。第3节给出了A-TSGNN的详细模型。采用来自不同实验平台的两个代表性数据集来验证第4节中提出的方法。第5节涵盖了更多的讨论，包括注意模块的影响以及与最新方法的比较。最后，结束语在第6节中提出。

2. Related works

基于GNN的方法在识别复杂模式方面显示出巨大的潜力，特别是在节点之间关系至关重要的数据中。

Yang等人将深胶囊网络与GCN相结合用于复合断层识别[30]。

图学习模块用于表示不同故障的拓扑关系。

超图理论也被用于故障诊断

超图理论也被用于故障诊断，超图自编码器嵌入被设计用于挖掘结构信息[31]。

Zhao等人提出了一种多尺度GCN来缓解工作条件波动带来的信号无序[32]。

Abudurexiti等人建立了一种图引导的高阶关注网络来聚合来自多个邻域的特征[33]。

这些方法忽略了数据中的时间动态

然而，这些方法忽略了数据中的时间动态，导致对时间模式的潜在误解，而时间模式对准确的故障诊断至关重要。

其他领域的现有研究，特别是在交通预测中，已经分析了时空建模在识别数据中的复杂依赖关系和模式方面的重要性[20,21]。

然而，在故障诊断方面，相应的进展仍然不足。
缺乏一种机制来分配不同的注意力到不同的传感器

此外，目前的方法缺乏一种机制来分配不同的注意力到不同的传感器。

这一缺点可能会阻碍它们充分利用传感器特定信息的能力，从而限制了多传感器设置中的整体性能。

多传感器数据的时空特征往往交织在一起，表现出独立和依赖的属性。因此，考虑到这两个方面是必要的。

工业系统日益复杂，需要先进的数据融合技术来进行有效的故障检测。

对于数据级融合，Li等人提出了自适应大小的卷积核来匹配传感器数量，并将数据融合成一维融合信号[34]。然后进行星形卷积和标准卷积。

Xie等人通过将多传感器信号转换成三通道RGB图像进行融合。

然后进行主成分分析，保留前三个主成分[35]。

Xia等人将来自多个传感器的原始信号转换成二维矩阵，并使用CNN学习故障特征表示[36]。

全面的数据级融合往往会导致数据冗余和计算负荷的增加

然而，全面的数据级融合往往会导致数据冗余和计算负荷的增加。

对于特征级融合，Chen等人首先从不同的传感器信号中提取时域和频域特征，然后通过多层两层稀疏自编码器进行特征融合[26]。

Li等人采用多尺度CNN获取多幅特征图，然后将它们融合成一张新的地图[28]。

这可能导致高维特征，使其复杂且具有挑战性。

对于决策级融合，Shao等人使用了几个基本模型，并赋予了不同的权重来确定故障类型[27]。

Chao等人对每个传感器输出使用CNN模型，并根据验证精度得到的权重进一步融合决策[37]。然而，由于来自多个传感器的相互冲突的决策，可能会产生歧义。

同样明显的是，大多数基于信息融合的诊断方法都需要使用多个深度基础模型。

训练这样的集合模型无疑会增加计算复杂度。

更重要的是，上述融合诊断方法忽略了多个传感器测量值之间的相互依赖关系。

GNN 可以在多传感器图构建过程中考虑任意两个传感器之间的所有依赖关系

GNN 可以在多传感器图构建过程中考虑任意两个传感器之间的所有依赖关系，因此为在实际工业故障诊断场景中全面融合多传感器信息提供了一种很有前途的工具。

现有的研究往往平等地考虑来自不同传感器的数据，而忽略了不同传感器对不同故障的响应不同的事实。

这种同质化的方法限制了故障诊断的精度和效率。

该模型能够为每个传感器分配动态权重。

它集成了多传感器数据，利用了传感器的差异化响应，从而提高了故障分类能力。

3. Proposed A-TSGNN based fault diagnosis

3.1. Graph construction

GNN故障检测图结构建模
为了检查旋转机器系统，部署了各种传感器。

这些传感器构成了一个自然网络，从中可以获得结构化的图形数据。

图可以表示为在这里插入图片描述，其中和分别是节点和边的集合。
节点数可以表示为。
对于故障诊断场景，来自传感器的数据可以看作是多变量时间序列。传感器构成GNN中的单个节点。
但是，节点属性可能会沿着时间维度动态变化。
图可以进一步定义为 G t = (V, E, X) t ，其中 X∈R n×d 为节点属性，特征长度为d。

详细的图形构建过程如图1所示。

在这里插入图片描述
传感器输出首先通过最大最小归一化进行归一化。

然后，将信号分割成固定的时间点，形成图节点。

在获得单个节点后，需要确定每个节点的邻居。

确定邻居

利用了 λ - 半径原理，可以通过两个节点之间的余弦相似度来度量[14]。

在这里插入图片描述

其中 Ne(ni) 表示节点的邻居，为总节点集，sim表示余弦相似度，λ为阈值。

研究了传感器之间的相关性以形成边缘。

两个节点之间的边权 ai,j 可以使用高斯核权函数计算:

在这里插入图片描述
其中是高斯函数的带宽方差。
利用节点邻居和边权，可以导出 n × n 邻接矩阵A，并进行图卷积。

3.2. From GNN to A-TSGNN

传统上，构造的图可以通过图卷积运算进行演化。

一个节点的更新涉及到它的邻居节点来实现消息的传递过程。

为了利用构建图的空间和时间维度，在这项工作中开发了A-TSGNN。

图2展示了图结构的空间和时间维度。为了提高性能，还研究了时间序列形式的节点属性。

在这里插入图片描述

3.2.1. 空间维度

图卷积计算 d=1
由于图模型没有像图像中的像素那样的固定节点，因此可以从图的傅里叶变换中导出图卷积。

首先，图可以用拉普拉斯矩阵在这里插入图片描述来描述，其归一化形式表示为

其中A为邻接矩阵，D为度矩阵，In为单位矩阵。更进一步，拉普拉斯矩阵L可以因式分解为
在这里插入图片描述
式中为特征向量矩阵， Λ = diag([Λ 0，…]， λn−1]) 为特征值(谱)的对角矩阵。

为简单起见，考虑特征长度为1。

将分布在节点中的图信号记为f。
在此基础上，可以在谱域中定义图信号f与滤波器g∈rn之间的图卷积运算。

插图如图3所示。图卷积运算可以表示为
在这里插入图片描述

在这里插入图片描述
其中是图卷积的符号。
谱域中的卷积滤波器可以表示为。该滤波器是对角线形式:。
为了减轻繁琐的计算，ChebyNet利用Chebyshev多项式来定义卷积滤波器。

具体模型定义为ChebyNet，可以表示为[38]:
在这里插入图片描述
式中表示切比雪夫多项式。多项式是用递归方法定义的。在细节,和

进一步，结合上述方程，最终的图卷积为:

在这里插入图片描述

从而实现图结构的卷积，并将其应用于不同传感器的空间依赖关系建模。

3.2.2. 时间维度

采用LSTM网络对时间依赖性进行建模

时间序列中的检测信号建立了图结构中的节点属性。

由于LSTM网络对时间关系分析具有较强的表征能力，因此本文采用LSTM网络对时间依赖性进行建模。

信号在时间维度上被切成薄片，送入LSTM单元以计算隐藏状态。

LSTM网络采用遗忘门和候选存储器来选择性地更新隐藏状态。

数学表达式为[39]:

在这里插入图片描述

其中为输入时间序列信号，在这里插入图片描述为遗忘门，为输入门，为输出门，为隐藏状态，为记忆，为s型激活函数，和分别为权值和偏置参数。
每个传感器信号分别用LSTM处理

本工作采用一层LSTM网络。连续信号被切成固定长度的样本。
然后，用图的结构对样本进行组织。来自单个传感器的时间序列信号通过包含单个隐藏层的LSTM网络进行处理。

这种LSTM体系结构捕获单源信号中的时间依赖性，保留顺序信息。

将每个时间步长的LSTM隐藏状态连接起来，形成鲁棒的时态特征表示。

这些表示随后被输入为空间表示而设计的图形模型。

模型的空间方面采用图形结构，将部署在整个系统中的每个传感器表示为节点。

LSTM衍生的时间特征与该图的每个节点相关联。

然后，图卷积模型通过处理这些节点相关的特征，能够捕获所有节点的空间特征表示，从而映射不同传感器之间的关系。

3.3. 增强了注意力感知模块

计算一个注意力矩阵融合到GCN里面

注意机制在许多领域显著提高了性能，甚至已经设计出了纯粹依赖于注意的神经网络。
对于故障诊断场景，不同的传感器应用于复杂的机械系统，并安装在不同的位置。

这些传感器对不同故障类型的判断贡献不相等。

因此，应根据不同的故障条件测量不同的重要程度，并进一步附加到传感器上。

对于自然语言处理领域，对不同的词嵌入vi赋予不同的权重，得到最终的特征，如下所示:
在这里插入图片描述
在这项工作中，空间注意力被施加到传感器上。
为了实现这一目标，首先计算得分函数:

是的矩阵。表示时间维计算后的特征，是可学习的参数。
然后将分数输入softmax函数，得到重要性分布 ei,j :

在这里插入图片描述
重要性分布构造注意力矩阵。中的实体 ei,j 也表示传感器与传感器之间的相关强度。

因此，传感器网络具有动态重要性和动态关系。

为了利用这种空间相关性，将学习到的注意矩阵施加到邻接矩阵上，然后将注意模块合并到图卷积部分中。

最终的图卷积可以表示为:

在这里插入图片描述

3.4. 总体框架

A-TSGNN模型的概述如图4所示。
在这里插入图片描述

n个传感器的检测信号采集自复杂机械。

然后，形成图，实现A-TSGNN块，建立特征表示。

最后进行图读取和分类层，获取故障状态。

详细的A-TSGNN模型如图5(a)所示。
在这里插入图片描述

利用提出的A-TSGNN块对图结构进行处理。在这项工作中部署了两个块。
输出块

图的读出是通过平均图结构中的节点特征来完成的。两个带dropout的完全连接层构成分类层。分类层将特征映射到故障类型作为输出。

A-TSGNN块-------先LSTM再ChebyNet

A-TSGNN块的组成如图5(b)所示。

LSTM模块输出的维数与ChebyNet模块的输入特征维数一致。

根据图节点信息计算传感器间的关注模块。得到的注意力矩阵被合并到ChebyNet模块中。

在图卷积后加入常用的批处理归一化层和ReLU层。

在块中引入残差学习，以方便更深层模型的训练，并解决梯度消失问题[40]。

这使我们的模型能够有效地学习更复杂和抽象的特征，从而提高性能。

在残差连接之后补充dropout层作为一种正则化技术，通过鼓励模型学习更广义和鲁棒的表示来防止过拟合[41]。

算法1给出了用于故障诊断的A-TSGNN伪码。

在这里插入图片描述

在每个epoch中，首先进行训练过程，然后进行验证过程。

在验证数据集中得到的较好的模型将被保存。在达到最大历元后，将最佳模型应用于测试数据集中以获得故障类型。

这个架构中使用的超参数也列在表1中。节点数也是用来构建图的传感器数量。
在这里插入图片描述

故障类型数被设置为第二个全连接层的输出特征数。
每个传感器输出的信号被分割成1024个时间点，以形成节点属性
每个传感器输出的信号被分割成1024个时间点，以形成节点属性。

通过网格搜索确定学习率，发现0.001的学习率为模型提供了最优性能。选择Adam优化器是因为其在深度学习模型中显示出的有效性。使用最大80个训练周期来确保收敛而不过拟合，这是在监控验证损失曲线后确定的。

批量大小为64也被使用，因为它提供了计算效率和模型精度之间的最佳平衡。

LSTM中的参数是在前人研究和实验的基础上选择的。在ChebyNet中，较大的K表示距离较远的节点聚集。

由于节点数量有限，选择K值为1。使用的dropout为0.2，这已被证明可以有效地防止类似模型的过拟合。

在图的构建过程中，影响着不同节点的连通性。根据图神经网络在故障诊断领域的基准[14]，在这里插入图片描述设为0。

带宽会影响边缘的权值分配。如果在这里插入图片描述值较小，则不同边之间的权值差异较大。
平均距离法提供了一种确定带宽的方法[42]。在这种方法中， 2β 2 是通过取节点间的平均距离来计算的。

4. Experimental validation

4.1. Dataset information

4.1.1. Wind turbine dataset

清华大学故障诊断实验室的风力涡轮机数据集—6个传感器

首先使用清华大学故障诊断实验室的风力涡轮机数据集来验证提出的框架[43]。

实验平台如图6所示。这个平台主要由直驱式风力涡轮机测试台、风洞、蓄能器和数据采集系统组成。

风洞被用来生成风资源以模拟真实环境，而不是使用其他实验中常用的电动机驱动。这个数据集在接下来的部分被称为WT数据集。
在这里插入图片描述
本数据集中考虑了风力机的八种健康状况，如表2所示。

目标是从监测信号中识别相应的健康状况。该系统在不同位置安装了多个检测传感器。

前后轴承上安装了两个加速度传感器来测量加速度。采用两个涡流位移传感器获取水平和垂直位移信息。另外两个传感器用于转子速度和扭矩。传感器输出的采样率设置为20khz。

信号被切成段，每段包含1024个时间点。对于一个图样本，每个传感器提供一个片段形成一个节点。因此，从六个传感器中提取六个片段来构建图。

在这里插入图片描述

4.1.2. Public SEU dataset

利用公共SEU数据集验证了该方案的有效性。此数据集适用于不同的变速箱条件。试验台如图7所示[44]。
在这里插入图片描述

为了检测系统的运行状态，在行星齿轮箱上安装了三个传感器来获取x、y、z方向的振动。另外三个传感器安装在平行齿轮箱上，从三个方向检测振动。最后两个传感器用于电机振动和扭矩。

考虑了该试验台的九种不同条件，如表3所示。故障状态中，齿轮部件故障4个，轴承故障4个。
在这里插入图片描述

4.2. Experimental results

对于WT和SEU数据集中的每个条件，根据传感器输出构建图形。

每个图可以看作一个样本。

按照一般原则，随机选择60%的图作为训练集，20%作为验证集，20%作为测试集。

在本工作中，训练、验证和测试样本的具体数量如表2和表3所示。

对于WT和SEU数据集中的每个条件，根据传感器输出构建图形。

每个图可以看作一个样本。按照一般原则，随机选择60%的图作为训练集，20%作为验证集，20%作为测试集。

在本工作中，训练、验证和测试样本的具体数量如表2和表3所示。

以准确率和f1分作为评价指标来衡量模型的性能。

具体来说，准确率代表了正确分类实例的比例，而f1得分则代表了准确率和召回率之间的平衡。

评分范围从0到1，数值越高表示性能越好。

表4列出了这些表达式。 TP、FP、TN 和的符号分别表示真阳性、假阳性、真阴性和假阴性的数量。

建议的方法在两个数据集上实施。

为减少随机性的影响，使用不同的测试样本重复测试十次，以计算最终平均值。

对于 WT 数据集，总体准确率达到 0.9669。

十次测试的标准偏差为 0.005。最后一次运行的分类结果如图 8(a) 中的混淆矩阵所示。

可以看出，总体准确率相对较高。对于某些故障类型，识别率达到了 100%。

在这里插入图片描述

不过，我们也注意到，对于标签 3，即水平错位条件，分类结果相对较低。

一定比例的标签 3 被误认为是标签 1，即前轴承支撑松动。

这两种故障类型虽然截然不同，但由于诱发异常振动的原因相似，因此可能表现出重叠的传感器模式。

基于注意力的 A-TSGNN 模型的权重分布可能无法充分区分它们的特征，从而导致一些错误分类。

未来的工作重点是改进注意力机制或纳入更多传感器数据，以更有效地区分这些密切相关的故障。

对于SEU数据集，实现后，最后一次运行的混淆矩阵如图8(b)所示。

可以观察到，几乎所有的条件都被正确地识别出来了。

总体分类精度达到0.9927。10次运行的标准差为0.004。

值得注意的是，在SEU数据集中，与WT数据集相比，应用的样本更少。

该公共数据集建立良好，数据质量较高。在实际应用中，较少的样本量可以满足需求。

结果如图10所示。对于这两个数据集，总体宏观平均auc达到了1.00的最优值，总体上表明了卓越的性能。

然而，应该注意的是，对于SEU数据集，“齿轮中缺失的牙齿”类别的分类并不像其他类别那样产生令人满意的结果。

进一步，利用t-SNE方法对提取的特征进行可视化处理。

两个数据集的结果分别如图9(a)和(b)所示。

对于SEU数据集，9种条件的特征分别清晰。

这与整体较高的分类精度是一致的。

而对于WT数据集，可以观察到 Label 1 和 Label 3 的特征距离很近。这样，全连通层就很难分辨出正确的标签。

这些表示与混淆矩阵中的结果保持一致。

为了进一步评估模型在多类故障分类中的有效性，进行了接收者工作特征(ROC)分析，并计算了曲线下面积(AUC)分数。

在这里插入图片描述

这些指标提供了跨越所有可能的分类阈值的模型性能的全面视图。

每个类别的ROC曲线以一对一的方式绘制，并计算每个类别的AUC分数。
在这里插入图片描述

结果如图10所示。对于这两个数据集，总体宏观平均auc达到了1.00的最优值，总体上表明了卓越的性能。

然而，应该注意的是，对于SEU数据集，“齿轮中缺失的牙齿”类别的分类并不像其他类别那样产生令人满意的结果。

这一现象与混淆矩阵一致，表明该类别的分类任务更具挑战性。
在 SEU 数据集中，该类别的代表性有限。因此需要考虑进一步完善模型，以更好地检测这种特定的齿轮故障情况。
具体的齿轮故障情况。尽管如此，拟议模型出色的整体性能证明了其在故障检测和分类方面的功效和潜力。故障检测和分类的功效和潜力。

5.1. 超参数灵敏度分析

为了研究超参数对结果的影响，进行了超参数敏感性分析，以确定这些超参数的合理值。
在图的构造中，每个传感器的段长度是一个重要的超参数。
采用的时间段包含1024个时间点。还考虑了其他常见长度，得到的结果如表5所示。

在这里插入图片描述

需要注意的是，段长度的平方数的选择受到研究界实践和计算效率的影响。段长度不受这些值的限制。填充或插值等技术也允许使用任意长度。从表中可以看出，总体趋势是随着段长度的增加，诊断准确率提高。对于WT数据集，当长度为128时，准确率严重下降。对于SEU数据集，当长度达到2048时，结果有较小幅度的下降。

造成这种现象的原因是在两个数据集中不同的位置部署了不同的传感器。因此，当改变段长度时，两个数据集存在轻微的差异。长度参数还会与其他超参数相互作用，导致SEU数据集的长度减少2048。下一节将进行进一步分析。

此外，通过改变三个关键的超参数:学习率l、ChebyNet中的K参数和辍学率dr来观察结果。在保持其他参数不变的情况下，对每个超参数进行迭代调整，从而对这些超参数进行灵敏度分析。每次迭代都会跟踪我们模型的性能指标。各参数的取值范围如下：在这里插入图片描述，

故障诊断精度见图 11。对于学习率，过小和过大的值都会影响模型的性能。

在这里插入图片描述

较小的学习率导致缓慢的收敛，而较大的学习率由于超过最小值而导致性能不稳定。选择合适的学习率对于确保收敛到全局最小值至关重要。
ChebyNet中的K参数影响图卷积的范围，决定了纳入邻域信息的程度。发现ChebyNet中的最优K值是平衡局部和更广泛的图信息之间的权衡的值。由于系统中只安装了有限的传感器，因此K = 1可以很好地聚合故障类型识别的信息。根据切比雪夫多项式的计算，K值越大，计算量也越大。对于辍学率，一般需要注意的是，过高的辍学率可能会导致模型的欠拟合，因为在整个训练过程中会丢失大量的信息。相反，过低的辍学率可能不足以防止过拟合。通过实证检验，根据图11©的结果，0.2的辍学率适合于该场景。

5.2. Function of flexible attention

为了评估在图卷积之前加入注意模块的影响，进行了相应的消融研究。去除注意层后，对网络进行训练，并进行10次重复测试。对于WT和SEU数据集，结果如图12所示。为方便起见，还描述了带有注意层的模型的结果。

总体而言，没有注意力层的两个数据集的平均准确率分别为 0.9233 和 0.9773。可以发现，注意力层提高了分类准确率。WT 数据集的准确率提高了约 0.04，而 SEU 数据集的准确率提高了 0.02。此外，从图 12 中可以看出，如果没有注意力层，重复运行时的波动会变得更加严重。因此，注意力模块不仅能提高分类能力，还能在一定程度上促进网络的稳定。
在这里插入图片描述
进一步研究了构造图和学习到的注意矩阵。选择WT数据集中的0、1、2和6的故障标签进行如下可视化和分析。图表如图13的上半部分所示。可以发现，传感器在四个样本中形成了不同的连接模式。

可以发现，传感器在四个样本中形成了不同的连接模式。
利用空间注意来评价传感器网络中的动态空间相关性。在样品中连接了用于转子转速的传感器5和用于扭矩的传感器6，这表明这两个传感器的相关性更强。在图卷积过程中，连接的节点将更平滑地共享信息。消息将在这些节点之间传递，并进一步聚合这些特性。每个样本的区分连接提高了空间维度上的特征提取。
相应的注意矩阵如图13的下半部分所示。热图显示，两个传感器节点之间附加了不同的值。对于标签0，它是关于在后轴承支撑中发生的松动现象。
安装在后轴承上的传感器将是敏感的。可以发现，e4,3和e4,4获得的关注值较大。结果表明，后轴承处的加速度传感器4更受重视。而对于发生在前轴承的故障，如滚动体故障的标签2，则注意矩阵中与传感器3相关的实体值较大

还可以看出，传感器3和4的实体比矩阵中的其他实体获得相对较大的值。
因此，更重要的是传感器3和4。这与常用的故障诊断方法是一致的，通常使用加速度传感器的振动信号，这类传感器可以反映不同故障类型的特征。

通过注意层，可以挖掘被检测传感器的重要程度和依赖关系。
从故障诊断结果来看，注意机制提高了故障诊断的表达能力，为多传感器场景提供了一种潜在的方法。

5.3. 与普通单传感器方案的比较

目前的故障诊断方案大多采用单传感器信号，特别是振动信号来确定故障状态。在本节中，将提出的方案与常用的方法进行比较，包括多层感知器(MLP)[45]、堆叠自编码器(SAE)[46]、1D CNN[47]和LSTM模型[48]。MLP模型使用三个隐藏层，大小分别为512、256和128。它需要一个批量大小为64的输入。常用的ReLU用于激活。学习率设置为0.001最大epoch是100。优化器为Adam，使用交叉熵作为损失函数。

该SAE模型由包含1024个神经元的输入层和包含768、512和128个神经元的隐藏层组成。提出的1D架构利用三个卷积层(内核大小为15,10和5)，两个最大池化层(内核大小为2，步幅为2)和一个全局平均池化层。采用Adam优化器，学习率为0.003。普通的LSTM模型使用了一个包含128个隐藏单元的单层结构。基本超参数包括学习率为0.001，批大小为64，最大epoch为50。

对于WT数据集，来自前轴承支撑的振动信号被切成样本来训练网络。对于SEU数据集，采用x方向的振动信号馈入网络。

数值结果如表6所示。从结果可以看出，该模型优于其他方法。分类精度有明显提高。值得注意的是，所提出的方案还包含LSTM组件。从表6的LSTM行来看，诊断结果低于90%，低于所提出的A-TSGNN方法。由于LSTM模型只分析时间相关性，忽略了传感器网络中包含的结构化信息。

来自不同传感器的振动信号可以串联起来。然后将上述单传感器方案应用于实现多传感器的集成。

然而，简单的连接只增加了每个样本中的时间点，并且在挖掘传感器之间的空间关系方面效率不高。GNN提供了一种组织多传感器源的潜在方法。

与传统方案相比，拟议的 A-TSGNN 可以利用更多信息，并进一步对不同来源给予不同关注。

5.4. 与最先进融合方法的比较

为了证明GNN在组织多传感器方面的优势，还进行了最先进的融合方法。
数据级融合
在数据级融合中，利用主成分分析(PCA)对信号进行处理，然后将其转化为三通道图像。该方法记为DF1[35]。图像大小为64 × 64 × 3。然后利用残差学习的CNN提取特征。卷积核大小和批处理大小分别为3 × 3和64。应用了Adam优化器。

此外，来自多个传感器的时间序列可以简单地逐行堆叠，形成二维矩阵。该方法记为DF2[36]。然后采用两个卷积层，每次卷积计算后进行最大池化和dropout操作。对于第一个卷积层，核大小和核数分别为3 × 17 × 1和64。对于第二个卷积层，其值分别为1 × 8 × 64和128。辍学率设置为0.5。
特征级融合
对于特征级融合，首先利用统计特征来完成融合。这些特征分别来自时域和频域。然后通过稀疏自编码器([26])完成特征融合。该方法记为FF1。使用两个隐藏层，稀疏度损失为0.02。所得到的融合特征向量作为机器健康指标，并用于训练深度信念网络来实现故障分类。

采用三层受限玻尔兹曼机，学习率为0.1，权衰减为0.0002。多尺度特征融合可以使用不同的卷积核来完成，如[28]所示。该方法记为FF2。采用了三套特征融合模块。每个模块包含4个不同卷积层的尺度，分别是 1 × 1、3 × 1
、5 × 1 和平均池化。使用的优化器是Adam。

决策层的融合

对于决策层的融合，如[27]所建议的，将灵活的投票策略与个体基础模型相结合。该方法表示为DeF1。

在每个基模型中，对小波自编码器进行叠加以捕获更深层次的特征，然后使用softmax分类器实现故障诊断。从验证样本中获得的精度用于在基本模型之间分配权重。三个自编码器堆叠，隐藏层节点数分别为500、250和100。从多通道传感器输出中计算验证数据集的验证精度和测试数据集的概率矩阵，然后通过权重矩阵进行调整，得出最终决策，方法如[37]所示。此方法记为DeF2。

对于每个传感器输出，首先通过短时傅里叶变换将一维信号转换为二维频谱图。然后应用LeNet-5的改进CNN模型进行决策。为了融合不同CNN模型的结果，对每个模型和每种故障类型计算验证数据集的验证精度。

验证精度与精度总和的简单比值将作为权重来实现决策级信息融合。
CNN 模型包含两个卷积层和两个池化层。卷积核的大小为 3 × 3，两个池化层的最大池化值分别为 5 × 5 和 2 × 2。

结果如表7所示，其中STD表示标准差。数据级融合的显著效果主要是由于处理过程中的信息损失最小。DF1模型利用PCA将数据转换为图像，仅使用前三个主成分与RGB通道对齐。这种方法可能会忽略潜在的重要数据，并且需要采用更慎重的方法来利用数据。

此外，基于cnn的DF2未能考虑到各种传感器的不同影响，因此表明了潜在的改进。特征级融合(如FF1模型)需要专家经验，特别是在特征选择和统计特征集成方面。FF2模型中的多尺度特征提取需要设计有效的卷积核，并进一步引入更多的人工设计。结果表明，决策级融合方法具有良好的性能。多种模型的综合利用有利于故障识别的最终决策。然而，多个基本模型也会导致复杂的计算。

在这里插入图片描述
常用的卷积运算可以实现数据融合。然而，图结构是更有效的。随着设备上部署的传感器数量的增加，卷积内核需要额外的精心设计。在这种情况下，图结构以其可扩展的特性将越来越多地显示出优势。此外，该模型通过考虑传感器部署和利用潜在的传感器间相关性，解决了具有众多传感器的复杂设备。
该策略可以为识别更复杂的故障类型提供指导，在设备和传感器复杂性不断增加的情况下增强故障识别能力。

5.5. Comparison with other GNN methods

GNN及其变体是近年来发展起来的。为了证明所设计网络的优越性，与GCN[18]、ChebyNet[19]、图关注网络(GAT)[49]、样本和聚合网络(GraphSage)[50]和图同构网络(GIN)[51]进行了比较。与所提方案相比，这些方法主要基于空间特征提取。它们在分子结构分析和社会网络等各个领域都取得了先进的表现。

对比结果如表8所示。对于这两个数据集，本文方法的准确率最高。
单纯空间特征工程的gnn在断层类型分类中效果不理想。原因是它们忽略了时间维度上的关系。该方法不仅考虑了传感器网络中隐藏的结构信息，而且利用了每个传感器输出的独立时间序列。
在这里插入图片描述
此外，这些网络在两个数据集中表现得不一致。GIN模型对SEU数据集具有较高的分类精度，但对WT数据集的分类精度相对较低。在这些模型中，GraphSage模型在处理WT数据集方面具有一定优势。由于这些模型的性能不一致，影响了它们在多传感器故障诊断中的应用。还可以观察到，该方法具有较小的标准差，这表明设计的A-TSGNN具有相对的鲁棒性。对于ChebyNet和GraphSage, WT数据集的混淆矩阵也分别如图14(a)和(b)所示。这些混淆矩阵显示了每种情况的分类结果。同时进行t-SNE可视化，结果分别如图15(a)和(b)所示。与图9(a)所示方法相比，全连接层很难区分不同的类。这也解释了ChebyNet和GraphSage分类准确率较低的原因。

从空间特征提取的结果可以看出，LSTM对于处理单个传感器的时间信号非常重要。它管理序列数据的能力大大增强了模型准确故障诊断的能力，强调了LSTM在模型中的关键重要性。

在这里插入图片描述

此外，还考虑了训练样本的不同比例。与表2和表3中的全样本相比，训练过程中得到的训练样本比例分别为0.1、0.2、0.4和0.8。这些比例的诊断结果如表9所示。可以看出，所提出的模型具有最高的分类能力。然而，当可用比例等于0.1时，WT数据集的诊断准确率下降到0.5975。在这种情况下，每个故障条件只使用30个训练样本。这属于几次学习场景。

需要研究更先进的技术来解决这一问题。总体而言，对比结果验证了所提方法的优越性。

在这里插入图片描述

5.6. Computational complexity

该模型由LSTM、ChebyNet模块和全连接层三大部分组成。每个组件都有自己的一组参数和计算复杂度。各层具体参数编号如表10所示。可以看出，ChebyNet模块拥有的参数数量最多。ChebyNet用于图卷积，这对图结构数据至关重要。参数的数量主要取决于切比雪夫多项式的顺序()、输入特征的数量( Fin )和输出特征的数量(Fout)。总体参数大致为 K × Fin × 。如前所述 K = 1 is chosen. 需要进一步优化特征的数量，以降低模型的复杂性，同时不影响其性能。空间注意力层的参数数量主要取决于节点的数量及其属性（即特征）的长度。计算操作主要涉及矩阵乘法

LSTM的复杂度受输入大小和隐藏大小的显著影响。数值均为32，适合于模型容量和计算复杂度。完全连接的层也包含了总参数的很大一部分，这是由于其设计而固有的。在一个完全连接层中参数的总数为(Nin * Nout) + Nout，其中Nin和Nout分别是输入和输出神经元的数目。该层有效地吸收LSTM和ChebyNet模块处理的信息，用于高级推理。采用dropout技术进行正则化，抑制了由于参数数量过多而产生的过拟合，保证了计算效率。与简单的深度学习模型相比，该模型可以看作是混合模型，这可能会带来更多的参数。实验结果表明，该模型能够有效地处理多传感器信号。

在这里插入图片描述
为了获得时间复杂度，在Intel i710700 CPU和NVIDIA GeForce RTX 3080 GPU的机器上进行了该方法和融合方法的实验。每种方法对风力机数据集的总时间如表11所示。可以看出，特征级融合由于其子模型多，运行时间最长。与其他数据级融合方法相比，该方法的运行时间稍长。这是由于时间和空间混合建模增加了计算复杂度。

然而，增加的时间仍在可接受的范围内。

在这里插入图片描述
尽管A-TSGNN模型具有显著的性能，但其局限性也需要讨论。ChebyNet模块需要大量的计算资源，特别是当面对更多的传感器时，其阶值K更大。此外，选择特征的数量也是一个挑战。过多的特征可能会带来计算开销和过拟合风险，而过少的特征可能会过度简化模型，从而影响其诊断准确性。没有明确的标准来平衡计算成本和准确性。这个模型的可解释性仍然很困难。混合A-TSGNN模型的复杂性，特别是由于图结构的加入，使得理解其内部工作机制的任务变得非常困难。至于今后的工作，至关重要的是加强其内部机制的可解释性，使其更加透明和负责。对于具有多种传感器的场景，需要进一步探索以有效地选择和去除冗余传感器。这不仅优化了模型性能，而且减少了计算量。此外，复杂系统中传感器部署的指导是一个重要但具有挑战性的研究方向，具有实际应用意义。未来的研究应旨在平衡传感器放置的成本效益和诊断准确性。

6. Conclusion

针对复杂机械系统中多传感器检测的多源信息融合问题，提出了一种新的a - tsgnn模型。为了利用传感器输出中的时间序列信号和传感器网络中隐藏的结构内容，在时间维度和空间维度上进行特征工程。注意机制进一步实现了根据传感器贡献及其依赖关系的重要性分配。在WT和公共SEU数据集上实现后，该方法达到了最高的诊断准确率。

对于这两个数据集，准确率分别达到平均值0.9669和0.9927。对应的std分别为0.0045和0.0039。此外，烧蚀研究验证了柔性注意力的作用，它不仅可以增强分类能力，而且可以稳定分类性能。

与单传感器方案的比较显示了多源信息融合的优势。进一步与其他GNN模型进行比较，证明了所设计方法的优越性。虽然GNN模型获得了令人满意的诊断结果，但其内部机制的可解释性仍然是一个挑战。对于具有多种传感器的场景，去除冗余传感器和选择高效传感器需要进一步探索。指导传感器在复杂系统中的实际部署是另一个重要的研究方向。总体而言，该研究将有利于多传感器故障诊断。