DSTAGNN: Dynamic Spatial-Temporal Aware Graph Neural Network forTraffic Flow Forecasting

最新推荐文章于 2023-12-25 15:14:23 发布

gao00013

最新推荐文章于 2023-12-25 15:14:23 发布

阅读量2.3k

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/gao00013/article/details/134283207

版权

交通流量预测的动态时空感知图神经网络

发表在ICML 2022

摘要

交通流预测作为时间序列分析中的一个典型问题，是机器学习最重要的应用领域之一。然而，由于道路网络中存在复杂的动态时空依赖关系，实现高精度的交通流预测是一项具有挑战性的任务。本文提出了一种新的动态时空感知图神经网络(DSTAGNN)来模拟路网中复杂的时空相互作用。

首先，考虑到历史数据承载着路网空间结构的内在动态信息，提出了一种基于数据驱动策略的动态时空感知图，以取代传统图卷积中常用的预定义静态图;其次，我们设计了一种新的图神经网络架构，该架构不仅可以通过改进的多头注意机制来表示节点之间的动态空间相关性，还可以通过多尺度门控卷积从多感受野特征中获得大范围的动态时间依赖性。在真实世界数据集上的大量实验表明，我们提出的方法明显优于最先进的方法。

介绍

随着道路网络中车辆数量的增加，交通管理系统的压力越来越大。智能交通系统(ITS)的发展是高效交通管理的迫切需要。交通流预测是智能交通管理系统实现的必要前提，在智能交通管理系统中起着关键作用。

每个记录点(也称为路网节点)的交通表现出高度动态和复杂的时空依赖关系。一方面，道路网络中的智能体受到各种随机因素的影响(如潜在的随机交通事故、临时道路封闭维修)，从而影响相邻节点之间的到达时间间隔。另一方面，相似的城市功能区可能导致路网中节点之间的交通数据具有相关性，而与节点之间的距离无关。例如，在每天的高峰时段，办公聚集区往往同时拥挤。图1显示了交通流内部的动态时空相关性。

（a）某一区域的道路网络。(b)交通流量数据的动态时空相关性。

图1:现实世界交通数据中的动态时空相关性。(a)中，黑线代表实际道路，节点代表记录点。在(b)中，弹性连接意味着记录点之间的空间邻接状态是动态变化的，剪刀式切割意味着道路可能暂时封闭。曲线表示相似城市功能的区域间节点的空间依赖关系，虚线表示不同时间步长之间的时间依赖关系。

此外，道路交通网络中复杂的时空相互作用会大大降低交通预测算法的性能(Yin et al .， 2020)。

近年来，深度学习方法已成为高维时空数据交通流预测的热门选择。

一种经典方法是级联卷积神经网络(CNN)和递归神经网络(RNN)来解决道路网络中的时空依赖性(Zhang等人，2016;Li & Shahabi, 2018)。虽然CNN方法适用于捕获规则空间网格中的局部空间相关性，但对于包含各种远距离空间相关性的非网格结构路网的交通预测来说，它是很困难的。

另一种方法是使用图卷积网络(GCN)表示适合路网的非欧几里得空间结构的时间序列数据的时空相关性(Li et al .， 2017;Y等人，2017;Zhao et al .， 2019)。然而，现有的GCN方法大多采用静态邻接矩阵来描述路网的空间相关性，无法反映路网内部空间依赖关系的实际动态变化。最近，SFTGNN (Li & Zhu, 2021)采用动态时间扭曲(DTW) (Berndt & Clifford, 1994)技术，通过数据序列之间的形状匹配来捕获交通节点之间的相似性。然而，我们认为节点之间的空间依赖性不仅与数据序列的形状相似度有关，还与它们之间的语义相关性有关，就像在语言处理中，两个语义相似的句子可能具有不同的语言结构一样(Kusner et al, 2015)。

此外，无论在短期还是长期时间尺度上，时间序列交通数据都具有动态相似模式和随机不规则模式之间的复杂交织。在宏观层面上，也呈现出类似的数据模式，如高峰时段的同态宽动态拥堵，工作日和周末之间的稳定交通模式偏差。微观层面上，交通数据呈现出动态复杂的波动，由于大量独特的交通成分(如不同的驾驶习惯、车辆力学特性、自适应交通控制策略等)之间的随机复杂相互作用，在任何给定时间的交通状态都存在显著差异。然而，大多数现有方法，如(Oord et al, 2016;Bai等人，2018;Zhou等人，2021)缺乏对同时使用短期和长期时间相关性的关注，因此，它们在捕获道路网络中的动态时间依赖性方面存在局限性。

为了解决上述问题，我们提出了一种新的神经网络框架——动态时空感知图神经网络(DSTAGNN)1，用于交通流预测，它可以捕获路网的短期和长期时空相关性。本文的主要贡献可以总结如下:

•我们构建了一个新的图，通过直接从节点的历史交通流数据中挖掘节点之间的空间关联的动态属性，而不使用预定义的静态邻接矩阵。我们将这种动态关联属性称为时空感知距离(STAD)。

•基于多阶切比雪夫多项式，设计了一种新的时空注意力模块，利用GCN中多尺度邻域内的动态空间相关性。具体而言，通过改进的自注意自适应地调整切比雪夫多项式各阶输入的空间权重，同时利用多头自注意的大范围时间依赖性。

•设计了一种改进的门控卷积模块，通过融合多尺度门控卷积的多感受场时间特征，进一步增强模型对道路网络动态时间依赖性的感知。

•在真实道路交通数据集上进行的大量实验表明，与包括最先进算法在内的几个基线相比，我们提出的算法的性能有所提高。

方法

Preliminaries

我们将路网表示为图G = (V, E)，其中V表示路网内N个节点(即记录点)的集合，E是表示节点之间连通性的一组边。G的邻接矩阵用 $A\in R^{N\times N}$ 表示，当 $v_{i},v_{j}\in V$ 且 $v_{i},v_{j}\in E$ 时， $A_{ij}=1$ ，因此可以将任意时刻步长t的交通状态看作一个图信号 $X^{t}\in R^{N\times C_{p}}$ ，其中 $C_{p}$ 计算交通参数的种类(如交通量、速度等)。在这项工作中，我们的目标是只预测一种参数，即交通量(因此 $C_{p}$ = 1)。给定记录数据 $X^{(t-M+1):t}\in R^{N\times C_{p}\times M}$ ，可以训练模型F来预测未来T个时间步 $X^{(t+1):(t+T)}\in R^{N\times C_{p}\times T}$ 在路网G上的交通量，如下所示:

网络体系结构

所提出的DSTAGNN如图2所示，它由堆叠的时空(ST)块和一个预测层组成。每个ST块的输出被连接起来，然后以类似于剩余连接的方式发送到预测层。该模型的具体细节将在以下小节中讨论。

图2:DSTAGNN的详细框架。(a)为DSTAGNN的总体结构，由多个时空块(Spatial-Temporal block)和一个预测块组成。(b)显示了ST块的细节，它与一个时空注意(STA)块和一个时空卷积块相结合。STA块包括时间注意模块(TA)和空间注意模块(SA)。时空卷积块包括一个图卷积层和一个多尺度GTU卷积层。利用具有节点间关联信息的时空关联图( $A_{STRG}$ )进一步调整时空注意力，用具有动态空间依赖信息的时空感知图( $A_{STAG}$ )取代传统图卷积中预定义的静态邻接图。 $A_{STRG}$ 和 $A_{STAG}$ 是根据历史流量数据推导出的 $A_{STAD}$ (详见式5)。

时空感知图构建

在道路网络中，节点间的连通性并不能充分反映节点间的空间依赖性。空间相关性不准确会降低交通流预测的性能。本节讨论如何提取更准确的空间依赖关系。我们认为，路网中节点之间的空间依赖性主要来自两种情况，这两种情况不能像传统方法那样用简单的静态邻接矩阵来表征。一是由于相邻连接节点之间交通流传播的动态效应。另一种是由于节点之间的城市功能相似，即使这些节点相距很远。

有了每天和路网每个节点的交通流数据，我们可以通过捕获每个节点概率分布之间的相关属性来表示节点之间的动态空间依赖性，例如使用Wasserstein距离(Panaretos & Zemel, 2019)，该距离测量将概率分布重新配置为另一个概率分布所需的最小努力。

因此，我们提出了一种新的数据驱动策略，直接从历史交通数据中形成节点之间的空间关联程度。我们将这种程度的空间关联称为时空感知距离(STAD)，并将这种结构称为时空感知图(STAG)。

以D天N个记录点的交通流 $X^{f}\in R^{D\times d_{t}\times N}$ 为例， $d_{t}$ 为每天的记录次数(如果每5分钟记录一次，则 $d_{t}$ = 288)。对于每个记录点，将一天的交通数据作为一个向量，然后将一组多天的交通数据表示为一个向量序列。例如，在记录点n ( $n\in N$ )处得到的向量序列记为 $X_{n}^{f}=(w_{n1},w_{n2},...,w_{nD})$ ， $w_{nd}\in R^{d_{i}}$ ，其中d∈[1,D]。我们首先通过交通流向量的模长度提取每个记录点的日交通量信息:

式中 $\left \| \cdot \right \|_{2}$ 表示欧几里得范数。这样，将记录点n的向量序列转化为概率分布 $P_{n}\left \{ X_{d}=m_{nd} \right \}$ ，每一天都有一个概率质量 $m_{nd}$ ∈[0,1]， $\sum_{d} m_{nd}=1$ ，其表示在一段时间内某一天的交通量的比例。然后我们需要得到每个概率质量的转换代价。我们使用交通流矢量之间的余弦距离作为代价函数。例如，第i天在n1点的交通流向量 $w_{n_{1}i}$ 与第j天在n2记录点的交通流向量 $w_{n_{2}j}$ 的转换代价为:

这里的上标是向量或矩阵的转置算子。则时空感知距离为:

我们得到一个矩阵 $A_{STAD}\in R^{N\times N}$ ，它表示记录点之间的关联程度，其中 $A_{STAD}[i,j]=1-d_{STAD}(i,j)\in [0,1]$ 。在满足一定稀疏度水平 $P_{sp}$ 的前提下(作为超参数，如0.01)，对于路网的每个节点i，我们保留 $A_{STAD}$ 第i行中值最大的 $N_{r}=N\times P_{sp}$ 元素(其余元素设为0)，得到时空关联图 $A_{STRG}\in R^{N\times N}$ 。我们使用这个 $A_{STRG}$ 作为先验知识来补充从时空注意模块学习到的注意P。此外，我们使用一个可学习的参数 $W_{m}\in R^{N\times N}$ (如图2 (b)所示)来调整 $A_{STRG}$ 对p的影响。此外，我们通过对 $A_{STAG}$ 进行二值化得到 $A_{STAG}\in R^{N\times N}$ 作为图结构，即如果这些元素的值不为零，则将这些元素设置为1，这意味着每个给定节点的最相关的Nr节点聚集在图卷积中。

时空注意力障碍

时空感知距离(STAD)可以更准确地估计节点间的依赖关系，但这些依赖关系的动态特性需要进一步细化，以适应实时数据的变化。为此，我们设计了一个新的时空注意模块，通过将时间注意与空间注意顺序结合，进一步增强动态时空依赖性的表征。

时间的关注 多头自关注提供了一种并行机制，可以有效地关注时间序列数据中的长期相关性。我们利用这种机制来捕获节点之间的动态时间依赖关系。对于H头的多头关注，我们定义变量:

其中， ${X}'^{(l)}\in R^{c^{(l-1)}\times M\times N}$ 是由第 $l$ th ST块的输入进行重塑的 $X^{(l)}\in R^{N\times c^{(l-1)}\times M}$ ，表示从N个记录点在时间步长t−M + 1, t−M + 2，…提取的 $c^{(l-1)}$ 维特征。，第 $(l-1)$ 个ST块输出的t。 $W_{q,k,v}^{l}\in R^{N\times d}$ 是为了得到 $Q^{(l)},K^{(l)},V^{(l)}\in R^{c^{(l-1)}\times M\times d}$ 而学习的参数。利用剩余注意思想(He et al, 2020)，我们将每个ST块的时间注意模块的输出与下一个ST块的输出直接连接起来，增强了ST块不同层的时间注意之间的联系。这种剩余注意机制，即由Eq.(7)导出的图2(b)中的 $A^{(l)}$ ，允许模型融合浅时间依赖性和深时间依赖性，这不仅可以降低梯度消失的风险，而且可以有效地利用交通数据中的动态时间依赖性。

之后，分别用H个不同的矩阵对 $Q^{(l)},K^{(l)},V^{(l)}$ 进行H次投影，然后拼接在一起，如下所示(为简化符号，去掉上标 $l$ ，上标H表示第h个注意头，h = 1,2，…, H),

其中 $W_{q,k,v}^{(h)}\in R^{d\times d_{h}} (d_{h}=d/H)$ ，则 $O\in R^{c^{(l-1)}\times M\times H\times d_{h}}$ 将时态注意的多头输出连接起来，然后输入到一个全连通层，得到时态注意(TA)模块的输出 ${O}'\in R^{c^{(l-1)}\times M\times H}$ 最后，将 ${O}'$ 与输入 ${X}'$ 残差连接，通过归一化层得到输出 $Y\in R^{c^{(l-1)}\times M\times H}$ ，然后将Y输入到空间注意(SA)模块中。

空间的关注 TA模块对时间序列数据进行自适应编码，得到具有全局动态时间依赖性的特征表示。在这里，我们设计了一种改进的自关注机制，从TA模块的输出中计算空间依赖性，其中计算输入嵌入向量的两个分支(即Query (Q ')和Key (K '))的权重系数。但与传统变压器不同的是，得到的权重系数并不是用来对输入嵌入向量 $Y_{E}$ 的V值支路(V′)进行加权，而是用来调整 $A_{STRG}$ ，如图2(b)所示。

我们首先将TA模块的输出Y转置到，然后将时间维度M通过一维卷积映射到具有维度 $d_{E}$ 和聚合特征维度 $c^{(l-1)}$ 的高维空间，得到一个二维矩阵 ${Y}'\in R^{N\times d_{E}}$ 表示每个记录点的嵌入向量表示的集合。然后，我们通过嵌入层将位置信息添加到 ${Y}'$ 中，得到 $Y_{E}$ 。与传统变压器完全利用 $Y_{E}$ 生成的自关注不同，我们引入了具有学习到的节点间相关性的时空相关图 $A_{STRG}$ 来修正SA模块中的关注。因此，将H头提高的空间注意表示为:

其中，为可学习参数，⊙为逐元素的Hadamard积， $W_{m}^{(h)}$ 用于修正 $A_{STRG}$ 以调整每个头部 $P^{(h)}\in R^{N\times N}$ 的注意力，输出表示结合每个头部的输出得到的动态时空注意力张量。

时空卷积块

空间图卷积 对于交通道路网络，许多研究关注道路网络的连通性和全局性，使用预定义的图结构进行图卷积，并通过聚合相邻节点的信息获得节点特征(Y u等，2017;郭等人，2019;Song et al, 2020)。为了充分利用交通网络的拓扑特征，我们保留了上述思想，使用基于Chebyshev多项式近似(Simonovsky & Komodakis, 2017)的图卷积来学习结构感知的节点特征。然而，与现有方法不同的是，我们使用了我们的时空感知图(STAG)，而不是预定义的图结构。此外，对切比雪夫多项式的每一项进行动态调整，在空间维度上提取交通网络上更有意义、范围更广的特征。

本文定义Chebyshev多项式的尺度拉普拉斯矩阵为，其中 $A^{*}=A_{STAG}$ $I_{N}$ 为单位矩阵， $D\in R^{N\times N}$ 为度矩阵，元素 $D_{ii} =\sum_{j}A_{ij}^{*}$ ， λmax为拉普拉斯矩阵 $L=(D-A^{*})$ 的最大特征值。

在图卷积中，每个节点的信息都是从其邻域的节点中派生出来的。为了结合节点的动态属性，我们使用k阶Chebyshev多项式 $T_{k}$ 对图信号 $x=x_{t}\in R^{N}$ 在每个时间步的信息进行聚合，如下:

其中 $g_{\theta }$ 表示近似卷积核，∗G表示图卷积运算，可学习向量 $\theta \in R^{k}$ 包含多项式系数，在训练中迭代更新， $P^{(k)}\in R^{N\times N}$ 是第k个头部的时空注意矩阵。对于该模块的多通道输入 $X^{(l)}\in R^{N\times c^{(l-1)}\times M}$ ，每个节点的特征有 $c^{(l-1)}$ 个通道， $g_{\theta }\in R^{K\times c^{(l-1)}\times c^{(l)}}$ 为卷积核参数(Kipf & Welling, 2016)。因此，每个节点可以聚合来自0 ~ (K−1)阶相邻节点的信息

时间门控卷积 与TSSRGCN (Chen et al .， 2020)使用基于循环的扩展变形卷积来捕获交通数据的长期和短期时间动态不同，我们提出了一种新的多尺度门控单单元(M-GTU)卷积模块来捕获交通流数据的时间动态信息。模块的具体结构如图2 (b)所示，该模块主要由三个具有不同接受野的门通Tanh单元(GTU) (Dauphin et al .， 2017)模块组成。

时序门控卷积模块的输入为 $Z^{(l) }\in R^{N\times M\times c^{(l)}}$ 。传统的GTU通过使用卷积核 $\Gamma \in R^{l\times S\times c^{(l)}\times 2c^{(l)}}$ 将通道数增加一倍，其中其核大小为1×S，即 $\Gamma \in R^{l\times S\times c^{(l)}\times 2c^{(l)}}$ 。因此，时间维度的GTU可以定义为:

其中，∗τ是门控卷积算子，ϕ(·)是tanh函数，σ(·)是sigmoid函数，E和F分别是相对于通道尺寸的 ${Z}'^{(l)}$ 的前半部分和后半部分。通过叠加门控卷积扩展时间维的接受域，提高其提取数据中长时间依赖关系的能力。此外，我们提出M-GTU扩展GTU如下:

其中 $\Gamma _1$ 、 $\Gamma _2$ 、 $\Gamma _3$ 分别为大小为1 × $S_1$ 、1 × $S_2$ 、1 × $S_3$ 的卷积核。Concat(·)操作连接的特点从三个GTUs获得不同尺度,导致的一个特征维度 $3M-(S_{1}+S_{2}+S_{3}-3)$ 。在那之后,尺寸更改为 $(3M-(S_{1}+S_{2}+S_{3}-3))/W$ 通过汇聚层的窗口大小W .在本部分中,我们可以调整hyper-parameters $S_{1},S_{2},S_{3},W$ ,确保尺寸的输出等于输入,例如, $(3M-(S_{1}+S_{2}+S_{3}-3))/W=M$ ,这样它们就可以通过跳接连接起来。最后通过ReLU激活函数得到输出 $Z_{out}^{(l)}\in R^{N\times M\times c^{(l)}}$ 。M-GTU利用GTU和残差结构有效地减小了梯度色散并保持了非线性。此外，我们的M-GTU用多尺度因果卷积提取长期和短期交通数据特征方面具有优势

实验

数据集

为了评估DSTAGNN的性能，我们对(Song et al .， 2020)发布的四个来自加利福尼亚州的真实道路交通数据集PEMS03、PEMS04、PEMS07和PEMS08进行了对比实验。原始的交通数据被聚合成5分钟的间隔，并归一化到零均值。并根据实际路网构造各数据集的空间邻接图。表1显示了有关数据集的更多细节。

数据集的描述和统计

基线的方法

我们将DSTAGNN与以下基线进行比较:

(1)FC-LSTM (Sutskever et al .， 2014)，这是一种特殊的RNN模型;

(2) TCN (Bai et al .， 2018)，声称在学习局部和全局时间关系方面有效;

(3)将图卷积集成到门控循环单元中的DCRNN (Li et al, 2017);

(4) STGCN (Y u et al .， 2017)，将图卷积集成为一维卷积单元;

(5) ASTGCN (Guo et al .， 2019)，在模型中引入了时空注意机制。为了公平比较，只使用建模周期的最近分量(ASTGCN(r));

(6)包含局部时空子图模块的STSGCN (Song et al .， 2020);

(7) STFGNN (Li & Zhu, 2021)，使用时空融合图来补充空间相关性;

(8) STGODE (Fang et al .， 2021)，将连续图神经网络应用于多元时间序列预测中的交通预测;

(9) Z-GCNETs (Chen et al, 2021)，将之字形持久性的概念引入到时间感知图卷积网络中，用于时间序列预测;

(10)利用图卷积中节点可学习嵌入的AGCRN (Bai et al .， 2020)

实验设置

为了公平起见，我们按照与基线相同的方式将数据分为训练集、验证集和测试集，即PEMS数据集上的6:2:2。我们用一个小时的历史数据来预测下一个小时的交通流量。所有实验都在Linux服务器上进行培训和测试(CPU: Intel(R) Xeon(R) Gold 5218R CPU @ 2.10GHz, GPU: NVIDIA GeForce GTX 3090)。通过实验(详见附录A)，我们设置了以下超参数:切比雪夫多项式项数(等于空间注意头数)K = 3。M-GTU卷积核沿时间维{s1, s2, s3} ={3,5,7}的大小，池化层的窗口大小W为2。时间注意模块注意头数为3，时空注意模块注意头数 $d_h$ = 32。所有的图卷积层和时间卷积层都使用32个卷积核。所有的实验都使用4个ST块的堆栈。在本工作中，我们使用的损失函数是Huber loss (Huber, 1992)，损失函数的阈值参数设为1。我们采用Adam优化器来训练我们的模型，其中epoch数为100，学习率为0.0001,batch大小为32。稀疏度超参数 $P_{sp}$ = 0.01。使用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和均方根误差(RMSE)来衡量模型的性能。此外，一些基线结果(在表2中用*标记)是从运行它们各自的开源代码中获得的，而其他基线结果则直接取自相应的论文。

实验结果及分析

PEMS数据集上的结果

表2显示了DSTAGNN和十种基线方法的结果。可以看出，我们的DSTAGNN在四个数据集上的所有指标都取得了最好的结果。由时空感知距离组成的图结构可以帮助模型捕捉节点之间的空间依赖关系，表明该模型可以应用于没有空间先验信息的情况。

此外，本文提出的时空注意机制能够更好地捕捉数据的动态变化，显著提高了预测性能。我们分别绘制了5分钟和60分钟前的预测值，并在测试数据的快照上显示了真实情况，如图所示3(更多的可视化结果参见附录C)，以证明所提出的方法与STGODE的区别。从蓝色虚线框标记的部分可以看出，DSTAGNN对高峰流量动态变化的响应比基线方法更快、更准确。在数据缺失的情况下，由于我们对时空依赖性的建模更精确，所提出的DSTAGNN恢复更快，并保持更高的精度，如(b)中用棕色虚线框标记的部分所示。

表2：DSTAGNN和基线模型在PEMS数据集上的性能比较。我们的DSTAGNN-G使用数据集中预定义的空间邻接图作为模型的图结构，而我们的DSTAGNN使用我们新的图结构 $A_{STAG}$ ，它是通过二值化从训练集中的交通数据中得到的 $A_{STRG}$ 生成的。

图3:STGODE和我们的DSTAGNN在PEMS04测试数据快照上的预测曲线对比。为了看得更清楚，请把这些图放大。

烧蚀实验

为了验证DSTAGNN中各个成分的有效性，我们对DSTAGNN进行了以下改进:(1)RemSTA:完全去除时空注意机制;(2) RemM-A:去除多头机制，并利用单头关注动态调整不同尺度图卷积的邻域;(3) RemM-GTU:去掉多尺度GTU，代之以传统卷积。(4) RemRC-OUT:清除每个ST块输出的残留连接。我们在PEMS04数据集上对上述变体进行了烧蚀实验。图4显示了MAE和MAPE的测量结果。可以看出，我们的DSTAGNN的性能优于其他变体，这证实了我们模型中每个组件的有效性。

图4:模块有效性烧蚀实验。

时空依赖性的可视化

为了增强我们提出的模型的可解释性并显示我们提出的注意力模块的细节，我们将我们的模型获得的时空依赖关系可视化。从图5 (a)可以看出，本文提出的模型具有识别路网交叉口等复杂交通状况的能力。此外，从图5 (b)中可以看出，对于特定的预测点，模型可以获得不同尺度的动态空间依赖信息。综上所述，我们的模型不仅在交通流预测方面取得了很好的效果，而且还可以提取路网中的复杂信息。