DSTAGNN: Dynamic Spatial-Temporal Aware Graph Neural Network forTraffic Flow Forecasting

交通流量预测的动态时空感知图神经网络

发表在ICML  2022

摘要

交通流预测作为时间序列分析中的一个典型问题,是机器学习最重要的应用领域之一。然而,由于道路网络中存在复杂的动态时空依赖关系,实现高精度的交通流预测是一项具有挑战性的任务。本文提出了一种新的动态时空感知图神经网络(DSTAGNN)来模拟路网中复杂的时空相互作用。

首先,考虑到历史数据承载着路网空间结构的内在动态信息,提出了一种基于数据驱动策略的动态时空感知图,以取代传统图卷积中常用的预定义静态图;其次,我们设计了一种新的图神经网络架构,该架构不仅可以通过改进的多头注意机制来表示节点之间的动态空间相关性,还可以通过多尺度门控卷积从多感受野特征中获得大范围的动态时间依赖性。在真实世界数据集上的大量实验表明,我们提出的方法明显优于最先进的方法。

介绍

随着道路网络中车辆数量的增加,交通管理系统的压力越来越大。智能交通系统(ITS)的发展是高效交通管理的迫切需要。交通流预测是智能交通管理系统实现的必要前提,在智能交通管理系统中起着关键作用。

每个记录点(也称为路网节点)的交通表现出高度动态和复杂的时空依赖关系。一方面,道路网络中的智能体受到各种随机因素的影响(如潜在的随机交通事故、临时道路封闭维修),从而影响相邻节点之间的到达时间间隔。另一方面,相似的城市功能区可能导致路网中节点之间的交通数据具有相关性,而与节点之间的距离无关。例如,在每天的高峰时段,办公聚集区往往同时拥挤。图1显示了交通流内部的动态时空相关性。

(a)某一区域的道路网络。(b)交通流量数据的动态时空相关性。

图1:现实世界交通数据中的动态时空相关性。(a)中,黑线代表实际道路,节点代表记录点。在(b)中,弹性连接意味着记录点之间的空间邻接状态是动态变化的,剪刀式切割意味着道路可能暂时封闭。曲线表示相似城市功能的区域间节点的空间依赖关系,虚线表示不同时间步长之间的时间依赖关系。

此外,道路交通网络中复杂的时空相互作用会大大降低交通预测算法的性能(Yin et al ., 2020)。

近年来,深度学习方法已成为高维时空数据交通流预测的热门选择。

一种经典方法是级联卷积神经网络(CNN)和递归神经网络(RNN)来解决道路网络中的时空依赖性(Zhang等人,2016;Li & Shahabi, 2018)。虽然CNN方法适用于捕获规则空间网格中的局部空间相关性,但对于包含各种远距离空间相关性的非网格结构路网的交通预测来说,它是很困难的。

另一种方法是使用图卷积网络(GCN)表示适合路网的非欧几里得空间结构的时间序列数据的时空相关性(Li et al ., 2017;Y等人,2017;Zhao et al ., 2019)。然而,现有的GCN方法大多采用静态邻接矩阵来描述路网的空间相关性,无法反映路网内部空间依赖关系的实际动态变化。最近,SFTGNN (Li & Zhu, 2021)采用动态时间扭曲(DTW) (Berndt & Clifford, 1994)技术,通过数据序列之间的形状匹配来捕获交通节点之间的相似性。然而,我们认为节点之间的空间依赖性不仅与数据序列的形状相似度有关,还与它们之间的语义相关性有关,就像在语言处理中,两个语义相似的句子可能具有不同的语言结构一样(Kusner et al, 2015)。

此外,无论在短期还是长期时间尺度上,时间序列交通数据都具有动态相似模式和随机不规则模式之间的复杂交织。在宏观层面上,也呈现出类似的数据模式,如高峰时段的同态宽动态拥堵,工作日和周末之间的稳定交通模式偏差。微观层面上,交通数据呈现出动态复杂的波动,由于大量独特的交通成分(如不同的驾驶习惯、车辆力学特性、自适应交通控制策略等)之间的随机复杂相互作用,在任何给定时间的交通状态都存在显著差异。然而,大多数现有方法,如(Oord et al, 2016;Bai等人,2018;Zhou等人,2021)缺乏对同时使用短期和长期时间相关性的关注,因此,它们在捕获道路网络中的动态时间依赖性方面存在局限性。

为了解决上述问题,我们提出了一种新的神经网络框架——动态时空感知图神经网络(DSTAGNN)1,用于交通流预测,它可以捕获路网的短期和长期时空相关性。本文的主要贡献可以总结如下:

•我们构建了一个新的图,通过直接从节点的历史交通流数据中挖掘节点之间的空间关联的动态属性,而不使用预定义的静态邻接矩阵。我们将这种动态关联属性称为时空感知距离(STAD)。

•基于多阶切比雪夫多项式,设计了一种新的时空注意力模块,利用GCN中多尺度邻域内的动态空间相关性。具体而言,通过改进的自注意自适应地调整切比雪夫多项式各阶输入的空间权重,同时利用多头自注意的大范围时间依赖性。

•设计了一种改进的门控卷积模块,通过融合多尺度门控卷积的多感受场时间特征,进一步增强模型对道路网络动态时间依赖性的感知。

•在真实道路交通数据集上进行的大量实验表明,与包括最先进算法在内的几个基线相比,我们提出的算法的性能有所提高。

相关工作

图卷积

图卷积网络(GCN)广泛应用于许多任务中(Wu et al, 2020)。它们通常包括两种方法。一种是光谱型GCN。Bruna等人

(2013)借助谱域的拉普拉斯谱扩展了图上的卷积运算。然而,谱域卷积的计算涉及到计算拉普拉斯矩阵的所有特征值,计算量很大。ChebNet (Defferrard et al, 2016)使用基于特征值的对角矩阵的chebyshev -多项式展开来近似图卷积,以降低其计算复杂度。在经典的GCN (Kipf & Welling, 2016)中,在类似于CNN的深度网络架构中使用图卷积来实现图结构和节点属性的有效嵌入。

另一个是空间型GCN。Micheli和Alessio(2009)通过直接汇总节点的邻域信息进行图卷积。Atwood等(2016)将图卷积视为一个扩散过程,引入了任意两个节点之间通过不同路径传播信息的概率。

V eli + ckovi等人(2017)提出了图注意网络(GA T),该网络采用注意机制来调整相邻节点之间的权重。

测量概率分布的差异

在道路网络中,从每个节点采集到的交通数据可以看作是多维空间中的离散数据。

因此,可以通过测量在这些节点上捕获的数据之间的相似性来获得两个节点之间的相关性,例如使用Minkowski距离(Singh et al, 2013)。此外,考虑到局部和全局数据之间的关系,将离散数据转换为各节点的概率分布,然后计算概率分布的差值,得到节点之间的空间相关性。测量概率分布差异的方法有很多,如Kullback-Leibler (KL)散度(Goldberger et al ., 2003)、Hellinger Distance (Kailath, 1967)和Total V variation Distance (Devroye et al ., 2018)。

这些方法都是比较时间序列中对应点的概率密度函数,但忽略了数据内部的几何特征。为了缓解这一问题,沃瑟斯坦距离(Panaretos & Zemel, 2019)已经成为一种有效的方法。给定当前位置a的概率质量u(a)和最终位置a存储的概率质量v(a)两个概率分布u和v,则定义Wasserstein距离为:

 其中γ是一个联合概率分布\prod [u,v],要求其边际分布恰好是u和v,

\int \gamma \left ( x,y \right )dy=u(x)

\int \gamma \left ( x,y \right )dx=u(y)

d(x, y)是单位质量从x移动到y的代价,一般由闵可夫斯基距离导出。其中inf表示将一个概率分布u转换为另一个概率分布v的所有方案的最小值,即具有最小累积移动距离的解,该方案的代价为W [u, v]。

时空预测

最近,人们提出了各种深度学习方法来捕捉交通预测的时空相关性(Li et al ., 2017;Yao et al, 2018)。尽管它们的性能很好,但由于使用了预定义的静态相邻图,从这些模型中得出的空间依赖性不能很好地揭示其动态性质。

在ASTGCN (Guo et al ., 2019)中,注意机制被纳入标准卷积,通过融合相邻时间片的信息来更新节点信息。然而,空间依赖关系仅来自静态邻接图结构,可能会遗漏潜在的动态依赖信息。图WaveNet (Wu et al ., 2019)和AGCRN (Bai et al ., 2020)通过节点的可学习嵌入发现了隐藏的空间依赖性,但使用这些模型,在扩展接受场的同时不能堆叠时空层。变压器算法(Park等人,2019;Wang et al, 2020)采用自注意机制来模拟时空相关性。然而,由于使用了自回归机制,这些算法在推理阶段容易产生误差积累。

与上述方法不同的是,一些作品侧重于设计新的图结构。STSGCN (Song et al ., 2020)对多邻域时间步长的空间图进行拼接。然而,该方法仅在固定的时间步长(例如3步)内缝合局部空间图,可能会因收集到的数据中缺少测量值而损坏。STFGCN (Li & Zhu, 2021)在(Song et al ., 2020)的基础上,构建了用于交通预测的时空融合图,在静态相邻图中补充历史序列的信息,类似于DTW (Berndt & Clifford, 1994)。STGODE (Fang et al ., 2021)基于语义邻接矩阵和静态空间邻接矩阵的结合,将常微分方程(ODE)纳入GCN,其中语义邻接矩阵也采用DTW计算。

然而,这些模型没有明确考虑路网节点之间的动态时空依赖关系。

方法

Preliminaries

我们将路网表示为图G = (V, E),其中V表示路网内N个节点(即记录点)的集合,E是表示节点之间连通性的一组边。G的邻接矩阵用A\in R^{N\times N}表示,当v_{i},v_{j}\in Vv_{i},v_{j}\in E时,A_{ij}=1,因此可以将任意时刻步长t的交通状态看作一个图信号X^{t}\in R^{N\times C_{p}},其中C_{p}计算交通参数的种类(如交通量、速度等)。在这项工作中,我们的目标是只预测一种参数,即交通量(因此C_{p}= 1)。给定记录数据X^{(t-M+1):t}\in R^{N\times C_{p}\times M},可以训练模型F来预测未来T个时间步X^{(t+1):(t+T)}\in R^{N\times C_{p}\times T}在路网G上的交通量,如下所示:

网络体系结构

所提出的DSTAGNN如图2所示,它由堆叠的时空(ST)块和一个预测层组成。每个ST块的输出被连接起来,然后以类似于剩余连接的方式发送到预测层。该模型的具体细节将在以下小节中讨论。

图2:DSTAGNN的详细框架。(a)为DSTAGNN的总体结构,由多个时空块(Spatial-Temporal block)和一个预测块组成。(b)显示了ST块的细节,它与一个时空注意(STA)块和一个时空卷积块相结合。STA块包括时间注意模块(TA)和空间注意模块(SA)。时空卷积块包括一个图卷积层和一个多尺度GTU卷积层。利用具有节点间关联信息的时空关联图(A_{STRG})进一步调整时空注意力,用具有动态空间依赖信息的时空感知图(A_{STAG})取代传统图卷积中预定义的静态邻接图。A_{STRG}A_{STAG}是根据历史流量数据推导出的A_{STAD}(详见式5)。

时空感知图构建

在道路网络中,节点间的连通性并不能充分反映节点间的空间依赖性。空间相关性不准确会降低交通流预测的性能。本节讨论如何提取更准确的空间依赖关系。我们认为,路网中节点之间的空间依赖性主要来自两种情况,这两种情况不能像传统方法那样用简单的静态邻接矩阵来表征。一是由于相邻连接节点之间交通流传播的动态效应。另一种是由于节点之间的城市功能相似,即使这些节点相距很远。

有了每天和路网每个节点的交通流数据,我们可以通过捕获每个节点概率分布之间的相关属性来表示节点之间的动态空间依赖性,例如使用Wasserstein距离(Panaretos & Zemel, 2019),该距离测量将概率分布重新配置为另一个概率分布所需的最小努力。

因此,我们提出了一种新的数据驱动策略,直接从历史交通数据中形成节点之间的空间关联程度。我们将这种程度的空间关联称为时空感知距离(STAD),并将这种结构称为时空感知图(STAG)。

以D天N个记录点的交通流X^{f}\in R^{D\times d_{t}\times N}为例,d_{t}为每天的记录次数(如果每5分钟记录一次,则d_{t} = 288)。对于每个记录点,将一天的交通数据作为一个向量,然后将一组多天的交通数据表示为一个向量序列。例如,在记录点n (n\in N)处得到的向量序列记为X_{n}^{f}=(w_{n1},w_{n2},...,w_{nD})w_{nd}\in R^{d_{i}},其中d∈[1,D]。我们首先通过交通流向量的模长度提取每个记录点的日交通量信息:

式中\left \| \cdot \right \|_{2}表示欧几里得范数。这样,将记录点n的向量序列转化为概率分布P_{n}\left \{ X_{d}=m_{nd} \right \},每一天都有一个概率质量m_{nd}∈[0,1],\sum_{d} m_{nd}=1,其表示在一段时间内某一天的交通量的比例。然后我们需要得到每个概率质量的转换代价。我们使用交通流矢量之间的余弦距离作为代价函数。例如,第i天在n1点的交通流向量w_{n_{1}i}与第j天在n2记录点的交通流向量w_{n_{2}j}的转换代价为:

这里的上标是向量或矩阵的转置算子。则时空感知距离为:

我们得到一个矩阵A_{STAD}\in R^{N\times N},它表示记录点之间的关联程度,其中A_{STAD}[i,j]=1-d_{STAD}(i,j)\in [0,1]。在满足一定稀疏度水平P_{sp}的前提下(作为超参数,如0.01),对于路网的每个节点i,我们保留A_{STAD}第i行中值最大的N_{r}=N\times P_{sp}元素(其余元素设为0),得到时空关联图A_{STRG}\in R^{N\times N}。我们使用这个A_{STRG}作为先验知识来补充从时空注意模块学习到的注意P。此外,我们使用一个可学习的参数W_{m}\in R^{N\times N}(如图2 (b)所示)来调整A_{STRG}对p的影响。此外,我们通过对A_{STAG}进行二值化得到A_{STAG}\in R^{N\times N}作为图结构,即如果这些元素的值不为零,则将这些元素设置为1,这意味着每个给定节点的最相关的Nr节点聚集在图卷积中。

时空注意力障碍

时空感知距离(STAD)可以更准确地估计节点间的依赖关系,但这些依赖关系的动态特性需要进一步细化,以适应实时数据的变化。为此,我们设计了一个新的时空注意模块,通过将时间注意与空间注意顺序结合,进一步增强动态时空依赖性的表征。

时间的关注 多头自关注提供了一种并行机制,可以有效地关注时间序列数据中的长期相关性。我们利用这种机制来捕获节点之间的动态时间依赖关系。对于H头的多头关注,我们定义变量:

其中,{X}'^{(l)}\in R^{c^{(l-1)}\times M\times N}是由第lth ST块的输入进行重塑的X^{(l)}\in R^{N\times c^{(l-1)}\times M},表示从N个记录点在时间步长t−M + 1, t−M + 2,…提取的c^{(l-1)}维特征。,第(l-1)个ST块输出的t。W_{q,k,v}^{l}\in R^{N\times d}是为了得到Q^{(l)},K^{(l)},V^{(l)}\in R^{c^{(l-1)}\times M\times d}而学习的参数。利用剩余注意思想(He et al, 2020),我们将每个ST块的时间注意模块的输出与下一个ST块的输出直接连接起来,增强了ST块不同层的时间注意之间的联系。这种剩余注意机制,即由Eq.(7)导出的图2(b)中的A^{(l)},允许模型融合浅时间依赖性和深时间依赖性,这不仅可以降低梯度消失的风险,而且可以有效地利用交通数据中的动态时间依赖性。

之后,分别用H个不同的矩阵对Q^{(l)},K^{(l)},V^{(l)}进行H次投影,然后拼接在一起,如下所示(为简化符号,去掉上标l,上标H表示第h个注意头,h = 1,2,…, H),

其中W_{q,k,v}^{(h)}\in R^{d\times d_{h}} (d_{h}=d/H),则O\in R^{c^{(l-1)}\times M\times H\times d_{h}}将时态注意的多头输出连接起来,然后输入到一个全连通层,得到时态注意(TA)模块的输出{O}'\in R^{c^{(l-1)}\times M\times H}最后,将{O}'与输入{X}'残差连接,通过归一化层得到输出Y\in R^{c^{(l-1)}\times M\times H},然后将Y输入到空间注意(SA)模块中。

空间的关注 TA模块对时间序列数据进行自适应编码,得到具有全局动态时间依赖性的特征表示。在这里,我们设计了一种改进的自关注机制,从TA模块的输出中计算空间依赖性,其中计算输入嵌入向量的两个分支(即Query (Q ')和Key (K '))的权重系数。但与传统变压器不同的是,得到的权重系数并不是用来对输入嵌入向量Y_{E}的V值支路(V′)进行加权,而是用来调整A_{STRG},如图2(b)所示。

我们首先将TA模块的输出Y转置到,然后将时间维度M通过一维卷积映射到具有维度d_{E}和聚合特征维度c^{(l-1)}的高维空间,得到一个二维矩阵{Y}'\in R^{N\times d_{E}}表示每个记录点的嵌入向量表示的集合。然后,我们通过嵌入层将位置信息添加到{Y}'中,得到Y_{E}。与传统变压器完全利用Y_{E}生成的自关注不同,我们引入了具有学习到的节点间相关性的时空相关图A_{STRG}来修正SA模块中的关注。因此,将H头提高的空间注意表示为:

其中,为可学习参数,⊙为逐元素的Hadamard积,W_{m}^{(h)}用于修正A_{STRG}以调整每个头部P^{(h)}\in R^{N\times N}的注意力,输出表示结合每个头部的输出得到的动态时空注意力张量。

时空卷积块

空间图卷积 对于交通道路网络,许多研究关注道路网络的连通性和全局性,使用预定义的图结构进行图卷积,并通过聚合相邻节点的信息获得节点特征(Y u等,2017;郭等人,2019;Song et al, 2020)。为了充分利用交通网络的拓扑特征,我们保留了上述思想,使用基于Chebyshev多项式近似(Simonovsky & Komodakis, 2017)的图卷积来学习结构感知的节点特征。然而,与现有方法不同的是,我们使用了我们的时空感知图(STAG),而不是预定义的图结构。此外,对切比雪夫多项式的每一项进行动态调整,在空间维度上提取交通网络上更有意义、范围更广的特征。

本文定义Chebyshev多项式的尺度拉普拉斯矩阵为,其中A^{*}=A_{STAG}I_{N}为单位矩阵,D\in R^{N\times N}为度矩阵,元素D_{ii} =\sum_{j}A_{ij}^{*}, λmax为拉普拉斯矩阵L=(D-A^{*})的最大特征值。

在图卷积中,每个节点的信息都是从其邻域的节点中派生出来的。为了结合节点的动态属性,我们使用k阶Chebyshev多项式T_{k}对图信号x=x_{t}\in R^{N}在每个时间步的信息进行聚合,如下:

其中g_{\theta }表示近似卷积核,∗G表示图卷积运算,可学习向量\theta \in R^{k}包含多项式系数,在训练中迭代更新,P^{(k)}\in R^{N\times N}是第k个头部的时空注意矩阵。对于该模块的多通道输入X^{(l)}\in R^{N\times c^{(l-1)}\times M},每个节点的特征有c^{(l-1)}个通道,g_{\theta }\in R^{K\times c^{(l-1)}\times c^{(l)}}为卷积核参数(Kipf & Welling, 2016)。因此,每个节点可以聚合来自0 ~ (K−1)阶相邻节点的信息

时间门控卷积 与TSSRGCN (Chen et al ., 2020)使用基于循环的扩展变形卷积来捕获交通数据的长期和短期时间动态不同,我们提出了一种新的多尺度门控单单元(M-GTU)卷积模块来捕获交通流数据的时间动态信息。模块的具体结构如图2 (b)所示,该模块主要由三个具有不同接受野的门通Tanh单元(GTU) (Dauphin et al ., 2017)模块组成。

时序门控卷积模块的输入为Z^{(l) }\in R^{N\times M\times c^{(l)}}。传统的GTU通过使用卷积核\Gamma \in R^{l\times S\times c^{(l)}\times 2c^{(l)}}将通道数增加一倍,其中其核大小为1×S,即\Gamma \in R^{l\times S\times c^{(l)}\times 2c^{(l)}}。因此,时间维度的GTU可以定义为:

其中,∗τ是门控卷积算子,ϕ(·)是tanh函数,σ(·)是sigmoid函数,E和F分别是相对于通道尺寸的{Z}'^{(l)}的前半部分和后半部分。通过叠加门控卷积扩展时间维的接受域,提高其提取数据中长时间依赖关系的能力。此外,我们提出M-GTU扩展GTU如下:

其中\Gamma _1\Gamma _2\Gamma _3分别为大小为1 × S_1、1 × S_2、1 × S_3的卷积核。Concat(·)操作连接的特点从三个GTUs获得不同尺度,导致的一个特征维度3M-(S_{1}+S_{2}+S_{3}-3)。在那之后,尺寸更改为(3M-(S_{1}+S_{2}+S_{3}-3))/W通过汇聚层的窗口大小W .在本部分中,我们可以调整hyper-parameters S_{1},S_{2},S_{3},W,确保尺寸的输出等于输入,例如,(3M-(S_{1}+S_{2}+S_{3}-3))/W=M,这样它们就可以通过跳接连接起来。最后通过ReLU激活函数得到输出Z_{out}^{(l)}\in R^{N\times M\times c^{(l)}}。M-GTU利用GTU和残差结构有效地减小了梯度色散并保持了非线性。此外,我们的M-GTU用多尺度因果卷积提取长期和短期交通数据特征方面具有优势

实验

数据集

为了评估DSTAGNN的性能,我们对(Song et al ., 2020)发布的四个来自加利福尼亚州的真实道路交通数据集PEMS03、PEMS04、PEMS07和PEMS08进行了对比实验。原始的交通数据被聚合成5分钟的间隔,并归一化到零均值。并根据实际路网构造各数据集的空间邻接图。表1显示了有关数据集的更多细节。

数据集的描述和统计

 

基线的方法

我们将DSTAGNN与以下基线进行比较:

(1)FC-LSTM (Sutskever et al ., 2014),这是一种特殊的RNN模型;

(2) TCN (Bai et al ., 2018),声称在学习局部和全局时间关系方面有效;

(3)将图卷积集成到门控循环单元中的DCRNN (Li et al, 2017);

(4) STGCN (Y u et al ., 2017),将图卷积集成为一维卷积单元;

(5) ASTGCN (Guo et al ., 2019),在模型中引入了时空注意机制。为了公平比较,只使用建模周期的最近分量(ASTGCN(r));

(6)包含局部时空子图模块的STSGCN (Song et al ., 2020);

(7) STFGNN (Li & Zhu, 2021),使用时空融合图来补充空间相关性;

(8) STGODE (Fang et al ., 2021),将连续图神经网络应用于多元时间序列预测中的交通预测;

(9) Z-GCNETs (Chen et al, 2021),将之字形持久性的概念引入到时间感知图卷积网络中,用于时间序列预测;

(10)利用图卷积中节点可学习嵌入的AGCRN (Bai et al ., 2020)

实验设置

为了公平起见,我们按照与基线相同的方式将数据分为训练集、验证集和测试集,即PEMS数据集上的6:2:2。我们用一个小时的历史数据来预测下一个小时的交通流量。所有实验都在Linux服务器上进行培训和测试(CPU: Intel(R) Xeon(R) Gold 5218R CPU @ 2.10GHz, GPU: NVIDIA GeForce GTX 3090)。通过实验(详见附录A),我们设置了以下超参数:切比雪夫多项式项数(等于空间注意头数)K = 3。M-GTU卷积核沿时间维{s1, s2, s3} ={3,5,7}的大小,池化层的窗口大小W为2。时间注意模块注意头数为3,时空注意模块注意头数d_h = 32。所有的图卷积层和时间卷积层都使用32个卷积核。所有的实验都使用4个ST块的堆栈。在本工作中,我们使用的损失函数是Huber loss (Huber, 1992),损失函数的阈值参数设为1。我们采用Adam优化器来训练我们的模型,其中epoch数为100,学习率为0.0001,batch大小为32。稀疏度超参数P_{sp} = 0.01。使用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和均方根误差(RMSE)来衡量模型的性能。此外,一些基线结果(在表2中用*标记)是从运行它们各自的开源代码中获得的,而其他基线结果则直接取自相应的论文。

实验结果及分析

PEMS数据集上的结果

表2显示了DSTAGNN和十种基线方法的结果。可以看出,我们的DSTAGNN在四个数据集上的所有指标都取得了最好的结果。由时空感知距离组成的图结构可以帮助模型捕捉节点之间的空间依赖关系,表明该模型可以应用于没有空间先验信息的情况。

此外,本文提出的时空注意机制能够更好地捕捉数据的动态变化,显著提高了预测性能。我们分别绘制了5分钟和60分钟前的预测值,并在测试数据的快照上显示了真实情况,如图所示3(更多的可视化结果参见附录C),以证明所提出的方法与STGODE的区别。从蓝色虚线框标记的部分可以看出,DSTAGNN对高峰流量动态变化的响应比基线方法更快、更准确。在数据缺失的情况下,由于我们对时空依赖性的建模更精确,所提出的DSTAGNN恢复更快,并保持更高的精度,如(b)中用棕色虚线框标记的部分所示。

表2:DSTAGNN和基线模型在PEMS数据集上的性能比较。我们的DSTAGNN-G使用数据集中预定义的空间邻接图作为模型的图结构,而我们的DSTAGNN使用我们新的图结构A_{STAG},它是通过二值化从训练集中的交通数据中得到的A_{STRG}生成的。

图3:STGODE和我们的DSTAGNN在PEMS04测试数据快照上的预测曲线对比。为了看得更清楚,请把这些图放大。

烧蚀实验

为了验证DSTAGNN中各个成分的有效性,我们对DSTAGNN进行了以下改进:(1)RemSTA:完全去除时空注意机制;(2) RemM-A:去除多头机制,并利用单头关注动态调整不同尺度图卷积的邻域;(3) RemM-GTU:去掉多尺度GTU,代之以传统卷积。(4) RemRC-OUT:清除每个ST块输出的残留连接。我们在PEMS04数据集上对上述变体进行了烧蚀实验。图4显示了MAE和MAPE的测量结果。可以看出,我们的DSTAGNN的性能优于其他变体,这证实了我们模型中每个组件的有效性。

图4:模块有效性烧蚀实验。

时空依赖性的可视化

为了增强我们提出的模型的可解释性并显示我们提出的注意力模块的细节,我们将我们的模型获得的时空依赖关系可视化。从图5 (a)可以看出,本文提出的模型具有识别路网交叉口等复杂交通状况的能力。此外,从图5 (b)中可以看出,对于特定的预测点,模型可以获得不同尺度的动态空间依赖信息。综上所述,我们的模型不仅在交通流预测方面取得了很好的效果,而且还可以提取路网中的复杂信息。

图5:DSTAGNN在PEMS-BA Y数据集上得到的时空依赖关系。(a)是来自第一注意头的全局自我注意。(b)为第2次和第3次注意头获得的目标节点(红星)与其周围节点之间的依赖关系。(b)的区域对应于(a)的蓝框区域。

结论

我们提出了一种新的用于交通流预测的深度学习框架DSTAGNN。我们的DSTAGNN利用了从历史交通数据中得出的时空感知距离(STAD),而不依赖于预定义的静态邻接矩阵。该方法可以有效地增强路网节点间内部动态关联属性的表示。

对由STAD生成的时空感知图(Spatial-Temporal awareness graph, STAG)进行图卷积可以减少对路网先验信息的依赖。

结合我们的时空注意模块和多接受场门控卷积,我们的DSTAGNN进一步增强了对时间序列数据中动态时空依赖性的认识。因此,与最近的几种基线方法相比,我们的DSTAGNN在四个公共数据集上实现了最先进的交通流量预测性能。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值