交通流预测的时空残差图注意网络

最新推荐文章于 2024-08-31 21:28:31 发布

gao00013

最新推荐文章于 2024-08-31 21:28:31 发布

阅读量3.2k

点赞数 24

文章标签：网络

本文链接：https://blog.csdn.net/gao00013/article/details/135058106

版权

2023IEEE

摘要

准确的时空交通流预测对于现代交通管理和控制具有重要意义。为了同时捕捉交通流的时空特征，提出了一种新的时空残差图注意网络(STRGAT)。首先，网络采用深度全残差图关注块，对交通网络的节点信息进行空间特征的动态聚合;其次，设计了一个序列到序列的块来捕获交通流中的时间依赖性。将具有周周期依赖关系的交通流数据进行整合，并利用STRGAT进行交通路网的交通预测。实验在美国加利福尼亚州的三个真实数据集上进行。结果表明，我们提出的STRGAT能够很好地学习交通流的时空相关性，并且优于目前最先进的方法。

1介绍

随着城市交通的快速发展，道路交通系统的负担不断增加，拥堵现象时有发生[1]、[2]、[3]、[4]、[5]。近年来，各国都致力于发展智能交通系统(ITS)[6]。准确的交通流预测是智能交通系统的重要基础[7]，[8]。它不仅有助于提高运输效率，还可以缓解交通拥堵，减少交通事故，降低能源消耗，减轻环境污染[9]，[10]。

交通流数据是部署在交通网络道路节点上的传感器按固定的时间间隔连续记录的时间序列，可以非常直观地反映交通网络的实际情况。因为城市道路上的交通状况受到许多外部因素的影响

交通流在时间维度上表现出更为复杂的不确定性。这种不确定性给交通流预测带来了巨大的挑战。因此，交通流预测问题通常采用能够有效捕捉时间序列特征的方法来解决。

一般来说，交通流量预测方法大致可以分为三类，即统计、机器学习和深度学习。第一类方法是通过统计分析的理论基础来了解交通流的时间特征。统计模型包括历史平均模型[11]、自回归移动平均模型[12]、矢量自回归模型[13]等。例如Hamed等[14]对每条道路的交通流进行了分析，得到了适合于交通流预测的ARIMA模型。由于统计预测模型难以处理非线性交通流数据，近几十年来出现了机器学习模型，如k近邻模型[15]和支持向量回归模型[16]。例如，Mathew和Rawther[17]已经使用了k近邻优化分类器，并使用了正弦k近邻优化分类器，将交通流之间的数据相关性信息纳入分类过程。Wu等[18]使用支持向量回归预测旅行时间，具有更强的泛化能力，保证了旅行时间的全局最小值。然而，机器学习模型的预测性能受先验知识的影响较大，难以确定能使模型获得最优预测精度的初始参数。Huang等人[19]提出了一种由深度信念网络和回归模型组成的网络架构，以实现更高精度的流量预测。随着对循环神经网络(RNN)记忆能力的研究，RNN及其变体模型被广泛用于时间序列预测任务[20]，[21]，[22]，如长短期记忆(LSTM)和门控循环单元(gru)[23]。

然而，随着交通流预测问题研究的深入和GPU计算能力的提高，交通路网空间结构对交通流的影响逐渐受到研究者的重视[24]。交通流的时空相关性体现在相邻节点的交通流由于车辆沿道路不断移动而呈现近似特征，如图1所示。

$x_t^i$ 表示节点i在时刻t的交通流量。图1中红色道路表示当前时刻橙色节点上的车流量大致趋势。因此，有相邻节点上交通流变化之间的一种相关性。因此，在邻域节点上融合特征可以提高时空交通路网的空间特征提取能力和长期预测精度

统计和机器学习方法虽然可以学习交通流的时间特征，但在面对高维交通道路网络的时空相关性时，表现不尽如人意[25]。卷积神经网络(CNN)的出现为学习交通道路网络的空间特征提供了可能。此外，CNN与RNN的结合完成了交通流时空相关性的捕获。

例如，Shi等[26]提出了一种卷积LSTM网络，通过引入CNN提取路网的空间结构特征来捕捉交通流的时空依赖性。Ke等[27]提出了一种包含卷积LSTM、标准LSTM和卷积层的FCL-Net模型，将时空依赖性和外生依赖性结合起来预测短期乘客需求。Zhang等[28]利用深度残差CNN更强的空间建模能力，构建ST-ResNet模型，对城市范围内的行人流量进行预测。

然而，交通路网的空间结构并不是欧氏结构数据。虽然CNN能够在多尺度下提取局部空间特征，但不能很好地解决非欧几里德结构的空间特征提取问题。因此，能够解决交通路网空间特征提取问题的图神经网络(GNN)越来越受到人们的关注。同时，将交通道路网络空间特征提取能力与时间维度特征学习能力相结合的时空GNN已成为主流研究方向。根据卷积方法的不同，GNN可分为谱域图卷积和空间域图卷积两种方法。

谱域图卷积可以利用拉普拉斯矩阵捕捉图结构的空间相关性。例如，Defferrard等[29]提出了Chebnet模型，通过引入Chebyshev多项式来取代GNN中计算复杂且参数大的卷积核，大大降低了拉普拉斯计算的复杂度。Kipf和Welling[30]进一步简化了Chebnet模型，提出了图卷积神经网络(GCN)模型，通过降低Chebyshev多项式的最高维数来进一步降低计算复杂度。近年来，围绕GCN进行了各种研究。

Li等[31]通过基于chebnet的扩散卷积网络学习了空间信息的扩散过程，构建了DCRNN模型。Y u等[32]抛弃了之前逐步学习时空特征的方法，在Chebnet网络的基础上构建了一个时空CNN。Wu等人[33]提出了自适应邻接矩阵，该矩阵可以在没有先验知识的情况下从数据中发现隐藏的图结构，并应用扩展随机卷积来学习时间相关性。Guo等[34]引入了当前依赖关系、每日周期依赖关系和每周周期依赖关系，并利用时空注意机制捕捉交通流数据的动态时空相关性。Song等[35]提出了用于交通流时空关系时空同步建模的STSGCN模型。

相反，空间域图卷积方法重新定义了“卷积”的概念，不再依赖于图的拉普拉斯矩阵。它使用归纳学习直接提取图中节点的空间特征，以及提取动态变化图的空间特征。例如，Hechtlinger等[36]提出了Graph CNN模型，并将卷积操作定义为使用随机漫游方法构建邻域，并根据期望大小排序选择固定数量的邻居节点来构建邻域的过程。Hamilton等[37]对相邻节点进行一定数量的采样，利用聚合函数获取相邻节点的信息，得到节点的预测值。[38]提出了用注意力动态调整相邻节点权值信息的图关注网络(GA T)。GA T基于权值对邻居节点信息进行聚合，虽然之前的研究已经很好地研究了交通流预测的主题，但我们仍然注意到以下缺点。

1)主流的时空交通流预测方法通过GCN提取交通路网的空间依赖性。然而，它对同一阶邻域上的不同邻域节点赋予相同的权值，限制了模型捕捉空间信息相关性的能力和模型的泛化能力。此外，GCN在加深过程中导致噪声不断扩散，预测性能不断下降。

2)交通流数据具有强非线性和周期性[39]，[40]，[41]，[42]。周期性是解决交通流非线性特征给交通流预测带来的挑战所必需的。然而，很少有研究考虑到每周周期数据，如[35]。即使考虑到每周的数据，它也可能不是很有效。由于预报数据与周周期数据在趋势上有较强的相似性，而又存在差异

为了解决上述问题，我们提出了一种新的交通预测模型:时空残差图注意网络(STRGAT)来预测交通流量。该模型可以学习较长时间序列的时间相关性和高维空间相关性，可用于解决城市道路网络的长期交通预测任务。本文的主要贡献总结如下。

1)建立了交通预测的STRGAT模型，该模型结合时空注意机制，捕捉交通的时空相关性和周周期性，提供更准确的长期预测结果。

2)提出了一种深度全残差图注意块(deep full residual graph attention block, DFRGAT)，通过动态聚合准确捕获路网空间结构信息。该块可以避免由于GAT层的加深而导致的局部特征消失和噪声在传播过程中的扩散。

3)提出了基于时间注意机制的序列到序列块，学习交通路网的动态时间变化，捕捉路网的时间依赖性。块可以使用长时间依赖性来实现更准确的长期预测。

4)采用周期特征融合对交通流的周周期依赖关系进行整合。周周期特征能够提高STRGAT长期预报的准确性。

在真实的公路交通数据集上进行了大量的实验，验证了我们的模型在两个长期预测任务上都比现有的基线方法取得了更好的预测性能。

本文的其余部分组织如下。

第二节介绍了交通网络和交通流预测的概念。然后，在第三节中介绍了STRGAT。之后，第四节对实验进行了详细的分析。最后，第五节得出结论。

2 准备工作

A交通路网

在我们的研究中，我们定义了一个交通网络来表示道路网络的拓扑结构。该交通网络使用无权图G = (V, E, A)来表示交通网络中节点之间的关系。我们将每条道路上的一个数据收集点作为一个节点，V作为所有道路节点的集合，E作为任意两个道路节点之间的边的集合。， N为道路节点数。邻接矩阵A表示道路节点之间的连通性，邻接矩阵A表示节点之间的连接关系，其中只包含元素0和1。0表示两个道路节点未连通，1表示两个道路节点连通。将邻接矩阵A的元素公式化如下

B交通流预测

我们将每个时刻的交通流量作为每个路网节点的固有属性，用 $X_t \in R^N$ 表示，其中t为时间步长。 $x_t^i$ 表示第i个节点在时刻t的交通流。

由于交通数据具有很强的周周期性，将周周期性数据整合到特征矩阵中，将大大降低长期交通流预测任务的难度。特征矩阵X由两部分组成:近期特征矩阵 $X_R$ 和周周期特征矩阵 $X_W$ 。最近特征矩阵 $X_R$ 可以表示为，其中 $T_R$ 为近期历史数据的输入长度。

周周期特征矩阵 $X_W$ 可以表示为，其中m为交通流数据的采样频率，即每天m次;n为预测窗口的周期数，选取最近一周的周期数据(即n= 1)构成周期特征矩阵; $T_P$ 为预测窗口的大小。

为了更生动地展示 $X_R$ , $X_W$ 和 $X_P$ 的构造，我们设置 $T_R$ = 24, $T_P$ = 12, n = 1, m = 288。我们使用周二早上7:00-9:00的最新数据来预测下一个小时(9:00-10:00)的交通流量。每周周期数据为上周星期二9:00 ~ 10:00的交通流量。上述交通流时间序列输入特征矩阵的构建示例如图2所示。

时空交通预测问题可以理解为学习映射函数f(•)，得到未来交通流通过路网G，特征矩阵。具体公式如下:

其中表示未来预测窗口内交通路网的交通量预测。本文的注释列在表1中。

3方法

图3给出了本文提出的STRGA T网络的总体框架。我们的STRGA T是两个不同组件的融合，其中包括最近的特征矩阵与周周期特征矩阵的时空相关提取单元。对于前一单元，我们在编码器中应用DFRGA T-GRU单元提取最近特征矩阵的时空特征。然后，我们在解码器中应用基于注意机制的GRU来获得未来时间窗内的最近预测值。对于后一单元，我们采用全连通层来获得周周期数据的时空特征和周周期预测值。我们用和，得到STRGA T网络的预测值。最后，我们用和实际交通流值来计算误差损失。

我们将STRGA - T的核心思想归纳为三个方面。

1)采用DFRGA T捕捉交通路网的空间相关性。

2)设计一个基于注意机制的序列到序列块，学习交通路网的时间相关性。

3)结合交通流的周周期特征，优化网络的预测性能。

A.深度全残差图注意块

在本节中，我们解释了所提出的DFRGAT的框架，该框架用于提取图中的空间结构。一般来说，当层数加深时，遗传算法会导致噪声信息从邻域传播到中心节点。为了能够在不增加误差的情况下加深网络层数，我们引入全残差结构将串行GA T网络优化为并行DFRGA T, DFRGA T结构块如图4所示。

图4所示。DFRGA T块由带有残差层的深度残差图注意模块组成。Deep RGAT块通过三个RGAT块探索全时空交通数据的时空依赖性。RGAT块通过增加残差网络来减小由于GAT网络层加深而产生的误差。数据还由ELU激活函数处理，作为RGAT块的最终输出。

残差图多头注意块(Residual Graph Multihead Attention Block, RGAT):传统的遗传算法将中心节点的邻域限制为与其直接相连的邻居节点，并将自身视为邻居节点[38]。其注意机制阐述如下

式中 $e_{ij}$ 为节点j相对于节点i的注意系数; $\alpha _{ij}$ 为节点j相对于节点i经sofmax函数归一化后的注意系数; $\vec{a}$ 为共享自关注机制的权值向量，用于计算中心节点的相邻节点的关注系数，；W为输入状态的线性变换，对所有输入进行共享线性变换，; $F'$ 为共享线性变换后的维数; $\vec{h}_i$ 为GA T网络中心节点的输入特征，; $\vec{h}_j$ 为中心节点相邻节点的输入特征，;F为每个节点的特征个数;然后呢||表示矩阵的联接操作。

利用LeakyReLU函数对自注意机制获得的注意进行非线性化，得到相邻节点相对于中心节点的注意系数[43]。利用softmax函数对中心节点相邻节点的注意系数进行归一化，方便各相邻节点注意系数的比较。这些归一化的注意力系数用于计算每个节点的输出特征

其中是GAT网络中第i个节点的输出特征，;σ(•)为ELU非线性激活函数。

为了使自注意机制更加稳定，我们使用多头注意机制进行空间特征提取，以消除GAT捕获的空间信息的损失。从K个注意头中获得的输出特征如下

在是多头注意机制GA T网络中节点i的输出特征，;K是自我注意机制的数量;为节点j在第k自注意机制下对节点i 归一化的注意系数; $W^k$ 为第k个自注意机制下的权值矩阵。

我们处理输出特征为包含空间特征的节点在时刻t的交通流趋势。由于GA T层数的增加，来自高阶邻域的噪声信息也会传播到中心节点，导致预测精度降低。因此，本文采用残差结构来避免由于GA T层数的增加而导致误差的增加，这些层数构成残差RGA T, RGA T的输出特征表述如下:

其中 $W_{res}$ 为维数变换矩阵，我们将残差层视为输入数据的线性变换，将输入特征的维数变换为与输出特征相同的维数，;为输入特征线性变换后得到的特征矩阵，是RGA T网络第i个节点的输出特征，

DFRGAT: DFRGAT由deep residual RGAT (deep RGAT Block)和残差层组成。由于引入了平行残差层，避免了深度RGA T块在传播过程中局部特征的丢失。

Deep RGA T Block包含三层RGA T Block，分别是输入、隐藏和输出RGA T Block。将相邻节点的特征进行多次扩散，完成中心节点的空间特征融合，进而增强块对全时空交通路网的空间特征提取能力。以局部道路交通网络为例，Deep RGAT Block的扩散模型如图5所示。

图5所示。深部RGA T块扩散模型。Deep RGA T Block通过三个RGA T Block将中心节点的三阶相邻节点的特征进行整合，有效地提高了空间特征的提取。

Deep RGA T块中的输入RGAT块将中心节点一阶邻域的交通流信息集成到中心节点。此时，中心节点的一级邻域节点已经整合了二级邻域的特征信息。隐藏的RGAT块增强了网络学习空间结构的能力，使中心节点在其二阶邻域上学习节点的交通流信息，达到扩散学习的效果。最后，输出的RGAT块承担将网络的隐藏状态转换为节点的真实特征的任务，同时执行三阶邻域特征提取。在三阶邻域节点上融合特征有助于增强空间特征提取能力，从而提高时空交通路网的长期预测精度。Deep RGAT区块的多层RGAT区块计算如下:

式中 $\alpha _{ij}^{lk}$ 为节点i与相邻节点j在第 $l$ 层的注意系数，第k层注意头。

下面用表示Deep RGA T块，DFRGA T块的公式如下:

由此可见，算法1给出了DFRGA T函数的伪代码

B.时空残差图注意网络

虽然DFRGA T块具有较强的空间特征提取能力，但在学习时间特征方面略弱。为了提高DFRGA T块的时间预测能力，提出了基于DFRGA的STRGA T。STRGA T的框架如图6所示，以时刻最近的交通流预测未来的交通流为例。

图6所示。STRGA T网络的时间序列预测框架。Encoder模块包含与历史数据具有相同维数的DFRGA T-GRU单元，用于提取和编码历史交通流数据中的时空特征。解码器模块利用基于注意机制的gru执行解码任务，实现准确的长期预测目标。

采用GRU模型提取数据的时间特征。GRU模型由复位门和更新门组成，参数更少，训练成本更低。GRU的计算公式如下:

其中为参数矩阵; $r_t$ 是复位门，它决定有多少历史信息是被遗忘; $u_t$ 是更新门，它决定有多少信息可以传递到下一个状态;X是输入向量;ht和ht−1是GRU在第t和(t−1)个时刻的隐藏状态值。在下面的演示中，我们使用来表示GRU模型。

Encoder模块通过DFRGAT模型提取交通流数据的空间特征，通过GRU捕获交通流数据的时间特征[44]。DFRGA T-GRU单元计算如下:

编码器模块将历史时刻的特征矩阵压缩成高维矢量 $H_E$ 。解码器模块对编码器模块提取的 $H_E$ 进行解压缩，从而提示编码器将信息尽可能地压缩成 $H_E$ 。然而， $H_E$ 是一个固定长度的向量，可以存储的信息非常有限，这就导致了输入数据中一些关键信息的丢失。采用注意机制解决信息丢失问题。

因此，注意机制允许Decoder模块关注Encoder的所有DFRGAT-GRU单元输出的隐层状态，从而实现对整个历史序列数据特征的关注，从而保留更多的信息。以预测时刻交通流的最近交通流为例，基于全局关注机制的GRU单位计算如下:

其中，分别为模型在t时刻和时刻的预测值，为GRU在时刻生成的隐层状态和注意机制后得到的隐层状态;表示输入为时DFRGA T-GRU单元输出的隐层状态。在下面的演示中，我们使用 $\hat{Y}_R=STRGAT(G,X_R)$ 来表示STRGA T网络。

C.周期性特征融合

由于交通流数据是周周期的，我们讨论了如何将周周期特征矩阵与最近的特征矩阵对交通流预测结果的影响进行整合。我们使用全连通层对周周期特征矩阵进行特征提取，其计算公式如下:

其中，为周周期特征矩阵块的输出，为全连通层的参数。

对于不同的特征矩阵，它们对最终预测结果的影响是不一样的。最后，将周周期特征矩阵块输出的与近特征矩阵的预测结果相结合，得到最终交通流的预测结果 $\hat{Y}$ 。因此，融合后的最终预测结果Y为:

其中，为最近特征矩阵块(STRGA T)的预测输出，为全连接层的参数， $W_R$ 和 $W_W$ 为学习参数，反映了两种特征矩阵对预测效果的影响程度。

由此可见，算法2给出了STRGAT训练的伪代码。

在本文中，我们使用Huber loss[45]作为损失函数，使预测结果尽可能接近真实的交通状态。因此，损失函数是为了使预测误差最小化。预测窗口长度设置为 $T_P$ 。

则预测结果为:，而基础真值为。损失函数可以表示为

4。实验

在本节中，为了评估我们的模型的性能，我们使用三个真实的公路交通数据集进行了比较实验。

A数据集描述

我们用三个真实高速公路数据集:PeMS03数据集、PeMS04数据集和PeMS04数据集来评估这些方法的性能

PeMS08数据集。数据集由Caltrans绩效测量系统收集[46]。系统每隔30秒实时测量一次流量值，每隔5分钟将原始数据汇总为新数据。我们以交通流量为研究对象。我们按时间将所有数据集以6:2:2的比例分成训练集、验证集和测试集。数据集的详细划分如表2所示。

PeMS03:包含358个传感器，时间段为2018年9月1日至2018年11月30日，共91天。我们选择前55天的数据作为训练集，接下来18天的数据作为验证集，最后18天的数据作为测试集。

PeMS04:包含307个传感器，时间周期为2018年1月1日至2018年2月28日，共59天。我们选择前35天的数据作为训练集,接下来12天的数据作为验证集，最后12天的数据作为测试集。

PeMS08:包含170个传感器，时间段为2016年7月1日至2016年8月31日，共计62天。我们选择前38天的数据作为训练集，接下来12天的数据作为验证集，最后12天的数据作为测试集。

B参数设置

我们的STRGA T是由Pytorch构建的，我们使用带有24G RAM的Nvidia GeForce RTX 3090 GPU运行模型。

我们用Adam优化器对模型进行训练。由于GPU图形内存的限制，我们将批处理大小设置为24。为了更好地保证模型的训练进度和准确性，我们将学习率和训练epoch分别设置为0.002和400。

同时，我们设置DFRGA T的层数为3，多头注意机制的头数为4,GA T中隐藏神经元的维数为64,GRU隐藏神经元的维数为64。我们设它为TR = 24, TW = 12, n = 1, TP = 12。换句话说，我们使用2小时的最近历史数据和1小时的每周周期性历史数据来预测未来1小时的交通流量。

由于交通流量数据每5分钟汇总一次，因此每个检测器每天记录288个数据点。我们使用线性插值来填充检测器中的缺失值。为了便于网络训练，我们对交通流数据进行了Maxmin归一化操作

其中min(X)和max(X)分别为历史时间序列的最小值和最大值。

C.比较方法

我们将我们的模型与以下十个广泛使用的时间序列预测模型进行比较。

基线:包括基于统计分析的预测模型、只考虑时间维度的模型和只考虑空间维度的模型。

1) HA[12]:历史平均法。在这里，我们使用24个历史时刻的平均值来预测接下来12个时刻的值。

2) VAR [13]: V向量自回归方法是一种捕捉序列间关系的时间序列模型。

3) LSTM [47]: LSTM网络是一种特殊类型的RNN模型。

4) GRU [44]: GRU是一种特殊类型的RNN模型。

5) GCN[30]:图卷积网络是一种基于谱域图卷积的空间结构学习模型。

6) GAT [38]: GAT是一种基于空域图卷积的空间结构学习模型。

最先进的(SOTA)方法:这些方法包括考虑时间和空间相关性的最先进的预测模型。

1) DCRNN[31]:扩散卷积RNN使用扩散卷积网络学习空间信息，使用序列到序列模型捕获时间信息。

2) STGCN[32]:时空图卷积网络利用Chebnet模型和二维卷积同时捕获时空相关性。

3) Graph WaveNet [33]: Graph WaveNet使用图卷积网络和扩展随机卷积网络来捕捉交通路网的时空依赖关系。

4) ASTGCN[34]:基于注意的时空图卷积网络采用时空注意机制，有效捕获动态时空相关性。

5) STSGCN[35]:时空同步图卷积网络(Spatial-temporal synchronous graph convolutional network)利用GCN对时空关系进行同步建模。

对于所有的预测模型，我们使用交通预测领域常用的三个评价指标来评估其性能[48]。三者的计算方法如下。

1)平均绝对误差(MAE): MAE表示预测值与真实值之间的绝对误差的平均值。

2)均方根误差(RMSE): RMSE表示预测值与真实值之差的样本标准差。RMSE说明了样本分散的程度。

3)准确度(ACC): ACC表示预测准确度的百分比。越接近100%，模型的预测性能越好。

式中，Yi为第i个交通流数据的预测值;(Yi)表示第i次交通流数据的实际值;S是序列值的个数。一般情况下，MAE、RMSE值越低，ACC值越高，变异越好。

D.交通流量预测结果的比较与分析

为了验证STRGA - T模型对于长时间交通流预测任务的有效性，对预测结果进行了验证

在PeMS03、PeMS04和PeMS08数据集上与上述十种比较方法的性能进行了比较。表III给出了不同算法的交通流预测性能。从表III中可以看出，我们提出的STRGA T模型在这三个数据集上始终优于其他比较算法。

1)基线实验结果分析:我们观察到，在上述算法中，HA和V AR预测性能的评价指标MAE、RMSE和ACC表现最差。可以看出，HA和V AR在处理非线性交通流数据时效果不佳，这表明这些方法对长时间复杂时间序列数据的预测能力有限。在PeMS03数据集上，LSTM的MAE分别比HA和VAR低59.63%和28.72%。在PeMS04数据集上，LSTM的MAE比HA和VAR分别降低了43.13%和7.29%。在PeMS08数据集上，LSTM的MAE比HA和VAR分别低48.18%和13.96%。相比之下，具有门控机制和短时记忆能力的LSTM模型在捕获时间相关性和预测交通流数据方面表现更好。

与LSTM(也是门控机制)相比，GRU在PeMS03、PeMS04和PeMS08数据集上的MAE分别比LSTM低5.92%、8.35%和4.51%。结果表明，在LSTM和GRU的实验参数配置相同的情况下，训练参数较少的GRU不仅节省了训练所需的内存空间，而且预测结果更准确。

因此，我们采用GRU作为STRGAT中提取时维特征的基本框架。

GAT模型在PeMS04数据集上的MAE和RMSE分别比GCN模型低1.78%和0.85%，ACC提高0.17%。GAT模型在PeMS08数据集上的MAE和RMSE分别比GCN模型降低了8.62%和8.25%，ACC提高了1.61%。因此，GAT引入了关注机制来动态聚合图结构信息，比GCN具有更好的预测性能。然而，GCN和GAT模型只能捕捉交通流数据的空间相关性，难以学习时间维度的特征，对于长期预测效果较差。与VAR、LSTM和GRU模型相比，这两种模型的预测精度都较差，而VAR、LSTM和GRU模型只具有学习时间维度的能力。GCN和GAT模型需要与时间预测模型相结合或与时间特征学习模块相结合，以学习交通流数据的时间相关性。

2) SOTA方法实验结果分析:DCRNN、STGCN、Graph WaveNet、ASTGCN、STSGCN以及我们的同时考虑时间依赖性和空间依赖性的STRGA T模型比统计分析模型和HA、V AR、LSTM、GCN、GA T等传统深度学习模型具有更好的预测精度。DCRNN将基于GCN的扩散卷积与GRU融合，形成扩散卷积门通单元，学习交通流数据中的时间相关性。其预测性能优于单独的门控单元和GCN。与DCRNN相比，STGCN单独构建时序门控- conv模块捕获时序相关性，获得更好的预测性能。

Graph WaveNet将时间卷积网络(TCN)与GCN相结合，通过TCN对时间信息进行整合。与上述三种方法分别使用两种方法捕获空间相关性和时间相关性相比，STSGCN使用时空同步地图卷积层同时捕获时空信息。在PeMS03数据集上，STSGCN模型的MAE值分别比ASTGCN、Graph Wavenet、STGCN和DCRNN模型低5.33%、11.86%、8.39%和10.07%。在PeMS04数据集上，STSGCN模型的MAE值分别比ASTGCN、Graph Wavenet、STGCN和DCRNN模型低6.63%、2.67%、11.29%和11.99%。在PeMS08数据集上，与ASTGCN、Graph Wavenet、STGCN和DCRNN模型相比，STSGCN模型的MAE值分别降低了1.41%、4.48%、11.76%和2.24%。这表明具有时空同步卷积层的STSGCN模型在长期预测中具有更好的性能。

3) STRGAT与对比方法的实验结果比较:与仅考虑时间相关性的HA、V AR、LSTM和GRU相比，我们提出的STRGAT利用了空间相关性，获得了更好的时间预测性能。

同时，与只关注空间相关性的GCN和GA T相比，STRGA T还提取了时空相关性，预测效果明显提高。

此外，上述算法都没有避免GCN在聚合不同相邻节点时具有相同权值的情况，这限制了模型捕获空间信息的能力。结果表明，与在SOTA方法中使用GCN作为空间特征提取的DCRNN、STGCN、Grap WaveNet、ASTGCN和STSGCN相比，STRGA T对PeMS03、PeMS04和PeMS08数据集的预测性能有很大提高。特别是在周周期性更显著的PeMS08数据集上，与STSGCN模型相比，STRGAT模型在MAE和RMSE上分别降低了8.81%和5.75%，在ACC上提高了0.52%。

ASTGCN学习交通流数据最近周期、日周期和周周期的依赖关系。然而，ASTGCN将不同趋势的数据纳入同一分量，对预测结果的改善并不显著。本质上，待预测数据与周周期数据在趋势上相似，但与近期历史数据的趋势不同。如果将近期历史数据的特征提取方法应用于周周期数据，则会破坏周周期数据与待预测数据之间的相似趋势。与同样具有周周期学习特性的ASTGCN模型相比，STRGAT模型在MAE和RMSE上分别降低了7.90%和3.79%，在ACC上提高了0.14%。

图7-9显示了SOTA方法和我们提出的STRGA T模型在不同水平上对PeMS03、PeMS04和PeMS08数据集的预测性能。可以看出，随着视界的增大，MAE和RMSE逐渐增大，ACC逐渐减小。由于1 - 2月PeMS04节点较多，且假期较多，其周期性较弱，预测难度相对于PeMS03和PeMS08较高。与SOTA方法中的DCRNN、STGCN和Graph WaveNet相比，STRGAT在三种数据集上对不同视界的预测效果更好。

尽管ASTGCN捕获了数据的周和日周期性，但当它使用相同的组件学习具有不同趋势的数据时，它无法获得更好的预测。

特别是，对于周期较差的PeMS04数据集，ASTGCN的预测不太令人满意。同时，ASTGCN和STSGCN使用GCN模块提取时间特征，同时输出长期预测结果，不存在随时间顺序输出预测结果的问题。因此，随着地平线的增加，他们的MAE和RMSE增加的幅度较小。虽然STRGAT的输出是基于时间顺序来依次得到节点的预测值，但由于注意

合理引入周周期数据后，其MAE和RMSE随水平增加呈温和上升趋势。STRGA T模型在较小的视界上表现良好，在整体预测中表现出较好的效果，这是我们提出的模型的优势所在。

F。STRGAT在三个数据集上不同视界的预测结果可视化

图10显示了2018年11月17日在PeMS03上节点15的层位1、6、12的预测值和真实值。

图11显示了2018年2月21日在PeMS04上节点9处地平线1、6和12的预测值和真实值。图12为2016年8月24日PeMS08上节点15处地平线1、6、12的预测值和真实值。可以发现，在两个数据集上，地平线1都表现出更好的预测精度，不存在时差，可以更准确地预测数据的波动。随着层位的增加，预测精度有一定程度的下降，但仍能较好地预测数据的变化趋势。

图13所示。在PeMS03、PeMS04和PeMS08数据集上可视化一周的交通流量。(a) PeMS03数据集节点15一周交通流量。(b) PeMS04数据集节点9一周交通流。(c) PeMS08数据集中节点15一周的交通流量。

图13显示了PeMS03、PeMS04和PeMS08在一周内不同视界的预测值和真实值。

从宏观的角度来看，我们提出的STRGA T模型能够充分学习真实路网的交通流特征。随着层数的增加，STRGAT模型的预测精度越来越高，在不同数据集上的预测效果也越来越好。

G.参数灵敏度分析

为了进一步研究网络超参数对实验结果的影响，我们在PeMS08数据集上对STRGAT核心超参数的不同配置进行了实验分析。我们选择的核心超参数如下。GAT和GRU中隐藏神经元的维数(dimhidden)在16 ~ 64之间。多头注意机制(h)的头数为1 ~ 8。

每个实验重复3次，测试集上MAE和RMSE的平均值如图14所示。A、l、l模型参数除研究变差参数外，其余参数设置与第IV -B节相同。

如图14所示，我们提出的模型STRGA T对核心超参数的变化不太敏感。STRGA T的预测性能随着概率的增加略有提高

GA T和GRU中隐藏神经元的维数和多头注意机制的头数。然而，我们发现随着多头注意机制的头数的增加，模型训练成本上升的程度更大，而预测性能的提高并不显著。综上所述，我们将GAT和GRU的隐藏神经元维数和多头注意机制的头数分别设置为64和4。

H.成分分析

为了进一步研究STRGA T的不同模块对预测性能的影响，我们设计了STRGA T模型的几个组成部分。我们将这些模型与STRGA T模型在PeMS04和PeMS08数据集上进行了比较。具体型号如下。

1) GATs:采用三层GAT网络作为提取交通道路空间信息的基础网络。通过动态权值对节点信息进行聚合，使模型具有较强的空间依赖性提取能力。

2) DFRGAT:该模型采用全残差结构，避免了遗传算法T网络深化过程中局部信息丢失的问题。

3) STRGAT-week:该模型将DFRGA T模型与注意机制的sequence-to-sequence block相结合。在DFRGA T捕获空间信息的同时，采用序列到序列块(sequence-to-sequence block)对PEMS04和PEMS08进行成分分析(COMPONENT analysis ON PEMS04 AND PEMS08)学习时间依赖性，并利用注意机制实现预测网络的动态聚合。

4) STRGAT: STRGAT模型通过整合周周期数据进一步增强了预测能力。

表IV显示了STRGA T在PeMS04和PeMS08数据集上的成分分析。在PeMS04数据集上，与融合中心节点(GAT)的一阶邻域信息相比，GAT的MAE和RMSE分别降低了28.58%和25.85%，ACC提高了4.95%。在PeMS08数据集上，GATs的MAE和RMSE分别降低了40.89%和36.68%，ACC提高了6.56%。这表明融合来自高阶邻域的节点信息有助于提高模型的预测精度。由于引入了全残差层，DFRGAT的预测性能比GAT网络的三层有了很大的提高。

然而，DFRGAT仍然使用深度GAT网络来提取空间和时间依赖性。虽然DFRGAT的空间特征提取能力较强，但随时间变化的捕获能力较差，导致预测结果不理想。在PeMS04数据集上，STRGAT的MAE和RMSE分别比DFRGAT降低了5.77%和3.56%，ACC提高了0.65%。在PeMS08数据集上，STRGAT(-week)的MAE和RMSE分别比DFRGAT低9.41%和10.16%，ACC提高1.15%。

因此，通过引入注意机制来捕捉交通流数据的时间依赖性，大大提高了STRGAT(-week)的预测性能。

我们进一步整合每周周期数据，以捕捉类似的每周周期趋势。STRGAT通过每周周期性数据趋势来学习最近的历史数据趋势，进一步提高了预测精度。在PeMS04数据集上，与STRGAT(-week)相比，STRGAT的MAE和RMSE分别降低了7.28%和6.72%，ACC提高了0.85%。在PeMS08数据集上，STRGAT的MAE和RMSE分别降低了7.32%和3.97%，ACC提高了0.38%。表明STRGAT模型能够较好地利用周周期性对交通流数据进行长期预测。

结论

我们提出了一种新的流量预测模型STRGAT。我们使用了边，节点和节点上的信息用图网络对交通路网结构进行建模。

与主流GCN模型作为空间特征提取算法不同，STRGAT采用DFRGAT对交通路网的空间结构进行动态聚合，能够更好地捕捉空间依赖性。另一方面，采用结合注意机制的序列到序列块来学习交通路网节点信息的时间依赖性。

利用三个真实数据集对STRGAT模型的预测性能进行了评价。通过大量的实验，我们表明我们提出的STRGAT的预测性能不仅优于基准方法，如HA和VAR，而且比SOTA方法，如ASTGCN和STSGCN有小幅改进。综上所述，我们提出的STRGAT模型是一个用于时空数据预测的通用框架，它不仅可以用于预测时空交通流数据，还可以应用于各种相关的时空信息学习研究领域。然而，道路网络中不相邻节点之间的交通流可能具有一定程度的相似性，如何在未来的工作中有效地捕获这些潜在的相关性值得探索。此外，天气或其他环境因素可以集成到模型中，以进一步提高性能。同时，大规模加权不完全图的研究是当今大规模城市化的一个重要研究方向，如何克服大规模图结构给算法带来的计算负担也是未来研究工作的关键问题[49]，[50]，[51]。