【论文翻译】STGAFormer:基于时空门控注意力Transformer的交通流预测图神经网络

image-20240910221622399

题目STGAFormer: Spatial–temporal Gated Attention Transformer based Graph Neural Network for traffic flow forecasting
论文链接https://www.sciencedirect.com/science/article/pii/S156625352400006X
发表期刊Information Fusion
关键词交通预测、GNN、Transformer、时空、门控时间自注意力

摘要

交通流预测是智能交通系统(ITS)的关键组成部分。然而,交通流的动态时间变化,特别是在意外事件发生时,给交通流预测带来了挑战。

本文提出了一种基于图神经网络的时空门控注意力Transformer(STGAFormer)模型,利用Transformer的编码器架构。

  • 模型中的门控时间自注意力机制(一个新模块)可以提高模型进行长期预测的能力,并通过增强本地和全球时间特征的提取来处理突发的交通事件。
  • 此外,本文提出了一个距离空间自注意力模块,该模块通过阈值化选择性地从附近和远处区域中识别关键特征。这样,模型吸收关键空间信息的能力得以提升。
  • 我们的模型还结合了多种输入,包括交通流属性、周期性、邻近邻接矩阵和自适应邻接矩阵。

四个实际数据集的实验结果表明,STGAFormer达到了最先进的性能,特别是在PeMS08数据集上的MAE值提升了3.82%。该方法为未来的交通运输规划提供了宝贵的见解和有力的支持。

1 引言

交通流预测是城市交通管理的关键方面。分析历史数据并采用先进的预测模型可以帮助城市规划者和交通管理部门分配交通资源,缓解拥堵并提高交通效率。如今,城市道路网络中充斥着大量传感器,提供了丰富的交通流预测数据。然而,交通流预测的主要挑战在于有效整合时间特征和复杂的城市网络空间拓扑结构。

早期的研究主要应用时间序列分析模型提取交通流的时间特征,如自回归移动平均模型(ARIMA)和自回归模型(VAR)。然而,由于无法有效提取非线性特征以及未能利用城市网络的空间特性,这些模型在复杂的交通流预测中表现不佳。为解决交通流的非线性问题,许多机器学习方法已经被引入,包括贝叶斯网络和K近邻算法,这些在此方面起到了显著作用。然而,这些方法需要专家手动提取特征,消耗了大量的人力和物力资源,并且容易受到专家知识的影响。

最近,研究人员越来越多地采用深度学习进行交通流预测。最初,卷积神经网络(CNN)主要用于处理基于网格的交通流,而循环神经网络(RNN)用于提取交通流的动态时间特征。研究人员采用两者的结合来提取时空特征。然而,CNN擅长处理结构化数据,而RNN往往在长期预测中出现梯度爆炸。在后续的发展中,图神经网络(GNN)在从图结构中提取时空特征方面表现出色。例如,Wu等人提出了Graph WaveNet(GWNET),这是一个结合图卷积网络(GCN)和门控时序卷积网络(Gated TCN)的模型,产生了可靠的结果。

此外,Transformer在多个研究领域展示了显著的性能,特别是在提取多模态特征方面。研究人员现在探索其在交通流预测中的适用性。本文着重通过基于Transformer模型的编码器架构解决三个未解决的挑战。

image-20240910224312213

首先,交通流的时空特征具有相当的复杂性。在以往的研究中,在数据嵌入阶段,时间和空间数据被分别输入到独立的时间和空间模块进行特征提取,然后进行融合。然而,这种方法无法有效揭示交通流中的复杂时空关系。此外,许多模型严重依赖于城市网络的预定义结构,例如距离邻接矩阵和相似性邻接矩阵,这可能导致交通网络空间特征的提取不足。例如,两个传感器物理上不相连但表现出相似交通流的情况,或相连但表现出不同流量的情况,无法通过预定义的邻接矩阵捕捉到。此外,如图1©所示,交通流特征明显呈现周期性。然而,当前的方法要么忽略周期性,要么基于多个输入周期进行预测,这增加了模型的输入量,并可能导致模型评估时的比较偏差。

image-20240910224123904

其次,交通网络具有空间异质性。图1(b)和图1(d)中所示,尽管A和B距离很近,但由于位于不同的道路上,它们可能经历显著不同的交通流。同样,尽管A和C相距甚远,但它们可能表现出显著的交通流相似性,因为它们位于同一路段的上下游。

image-20240910224141722

image-20240910224155362

最后,交通流还表现出时间异质性。图1(e)中显示了两个不同地点,D和E,在早晨的流量不同,但晚上的流量相似。这表明交通流在空间和时间上动态变化。此外,现有的大多数模型未尝试考虑突发的交通事件。例如,图1(e)中传感器D在前三天显示出类似的交通流,但在第三天下午由于D位置发生事故而发生了剧烈变化。当此类事件发生时,它会显著降低模型的预测性能,这在模型评估指标的波动中得以体现。因此,考虑突发交通事件的模型设计可以显著提高预测精度。

image-20240910224212521

为应对上述复杂的交通场景,本文提出了基于Transformer编码器结构的STGAFormer模型。在输入嵌入层中,交通特征、时间特征和空间特征被聚合,这使得时空特征的更好整合成为可能。同时,采用距离空间自注意力模块提取不同距离节点的特征。此外,我们提出了一个新结构,即门控时间自注意力机制。该模块首先对原始嵌入进行门控机制操作,提取局部动态时间特征。这些特征随后被输入到多头注意力机制中进行全局特征提取。

STGAFormer的贡献总结如下:

  • 本文提出了STGAFormer模型,利用Transformer编码器架构提取交通流预测中的时空特征。它有效解决了时空融合、动态长距离交互和突发事件等问题。
  • 提出了一种嵌入方法,在输入阶段整合了特征、空间和时间维度,同时结合自适应邻接矩阵和周期信息来捕捉交通流的时空特征。
  • 设计了一种新颖的门控时间自注意力模块。该模块可以有效应对动态变化和突发事件,并通过增强局部和全局时间特征的提取,进行更加准确的长期交通流预测。
  • STGAFormer在四个真实数据集上实现了最先进的性能。这证明了该模型能够应对异常交通状况。此外,进行了单步评估,用于验证该模型在长期预测中的有效性。

2. 相关工作

2.1 交通预测

在过去的几十年中,研究人员在交通流预测领域开展了大量研究。最初,研究人员依赖于经典的时间序列模型,如自回归移动平均模型(ARIMA)和向量自回归(VAR),这些模型主要基于线性依赖性。然而,它们在预测复杂的非线性交通流变化时效果不佳。随后,研究人员提出了基于机器学习的方法,如支持向量回归(SVR)和K近邻(KNN),能够处理非线性数据,尽管它们需要手动提取特征。最近,交通流预测领域显著转向采用深度学习方法。例如,Yu等人使用长短时记忆网络(LSTM)和卷积神经网络(CNN)进行交通速度预测。Cui等人利用LSTM捕捉双向的时间依赖性。Li等人提出了扩散卷积操作以捕捉空间依赖性,进一步引入了DCRNN模型。

2.2 基于时空图神经网络的交通预测

最近,深度图神经网络(GNN)已广泛应用于交通流预测。研究人员开始利用图卷积网络(GCN)在非欧几里得交通网络中提取空间特征。例如,ASTGCN利用周期性来形成三个基于图卷积通道的注意力机制来进行交通预测。GWNET使用门控时序卷积网络(gated-TCN)提取时间特征,然后使用GCN提取空间特征。Zhang等人也考虑了动态图的问题,并提出了一种基于时空数据嵌入的交通流预测动态图卷积网络。此外,研究动态图结构的研究强调了捕捉交通网络中动态变化的重要性,以提高交通流预测的精度。Xu等人提出了一个结合参数共享和独立模块的通用GCN框架,有助于系统性地探索和捕捉交通流中的各种模式。

随着Transformer在自然语言处理和计算机视觉领域的流行,研究人员开始将Transformer集成到交通流预测中。其中,GMAN采用了编码器-解码器结构,将多头注意力扩展到时空维度,以捕捉动态关系。GaAN使用了门控注意力网络,可以分配每个注意力头的重要性,从而更集中地考虑关键的时空特征。TFM-GCAM将Transformer编码器与GCN结合,获得了更好的结果。Trafformer和PDFormer等相关研究工作均利用了Transformer,能够学习交通网络中隐藏的复杂时空相关性,捕捉动态时空依赖性。Trafformer通过引入时空相关矩阵作为编码器的联合输入,统一了时间和空间,增强了交通流时空特征的融合。PDFormer通过掩码机制关注远距离节点的相似性。总的来说,Transformer在捕捉交通网络中的复杂时空相关性方面表现出色,从而提高了交通流预测的准确性。然而,以上提到的相关工作几乎忽略了模型对突发事件的适应性。此外,它们中的大多数在长期预测中表现不佳。

基于前人的研究,本文在数据嵌入阶段扩展了来自各维度数据的动态集成。通过采用门控机制来确定各组件的重要性,进一步加深了对交通流时空特征的理解。

3. 符号和定义

本文中使用的常用符号如下介绍(见表1)。

image-20240910224336928

定义(交通流): 交通流指的是在给定时间间隔内通过特定区域的车辆流量。它表征了交通状况,有助于确定道路上是否发生了拥堵。在此背景下,我们用 X t ∈ X N × C X_t \in X^{N \times C} XtXN×C 表示在具有 N N N 个节点的道路网络中,时刻 t t t 的交通流量,其中 C C C 代表交通流的特征维度。此外,我们用 X = X 1 , X 2 , … , X P ∈ R P × N × C X = X_1, X_2, \dots, X_P \in \mathbb{R}^{P \times N \times C} X=X1,X2,,XPRP×N×C 表示 P P P 个时间段内的交通流。

定义 (交通图):对于交通流预测,给定路段的交通流不仅受到其前状态的影响,还受到周边区域的影响。因此,有必要构建图。在本研究中,构建了两个图:一个是距离邻接矩阵,另一个是自适应邻接矩阵。我们定义一个图 G = ( V , E , A ) \mathcal{G} = (V, E, A) G=(V,E,A),其中 V = v 1 , … , v N V = v_1, \dots, v_N V=v1,,vN 表示一组 N n o d e s N_{nodes} Nnodes 节点, E ⊆ V × V E \subseteq V \times V EV×V 代表一组边, A A A 是网络 G \mathcal{G} G 的邻接矩阵。

定义 (交通流预测):交通流预测的目标是基于前一段时间的交通观测值预测未来的交通流。正式地,它涉及从过去 P P P 步交通流观测中学习一个映射函数 f f f,以预测未来 Q Q Q 步的交通流:
X t + 1 , … , X t + Q = f ( X t − P + 1 , … , X t ) X_{t+1}, \dots, X_{t+Q} = f(X_{t-P+1}, \dots, X_t) Xt+1,,Xt+Q=f(XtP+1,,Xt)

4 方法

本文中构建的 STGAFormer 模型的总体框架如图2所示。该架构主要包括三个模块:输入嵌入层、时空编码器层和输出层。

image-20240910224422212

  • 输入嵌入层中,通过卷积将输入的交通特征、时间特征和空间特征整合在一起,以便更全面地整合交通流的时空特征。此外,对于时间特征,除了Transformer固有的位置信息嵌入,我们还包括了星期几和一天中的时间信息。这些附加信息与前一天的交通流数据结合,用于提取周期特征。

  • 时空编码器层通过两个模块的多头注意力机制捕捉交通流的时间和空间特征。

    • 门控时间自注意力模块整合了门控机制,用于提取局部和全局动态时间特征。这些提取的特征随后被输入到多头注意力机制中。该过程显著增强了模型进行长期预测的能力,并有效处理突发交通事件。
    • 同时,距离空间自注意力模块评估交通网络中节点间的距离。利用阈值函数,它将节点根据其距离分为两组。该分区策略促进了相关节点输入到多头注意力机制中。最终,模型捕捉到临近区域的关键特征,同时识别出远距离区域的相似特征。
  • 输出层通过跳跃连接和全连接层转换为预测所需的最终维度。

4.1 输入嵌入层

输入嵌入层负责整合输入数据。我们整合多维数据,结合自适应邻接矩阵和来自前一天的时间周期信息。这有助于模型更有效地捕捉交通流的时空特征和周期性。最初,原始输入 X ∈ R P × N × C X \in \mathbb{R}^{P \times N \times C} XRP×N×C 通过全连接层转换为 X f ∈ R P × N × d X_f \in \mathbb{R}^{P \times N \times d} XfRP×N×d,其中 d d d 表示嵌入维度。随后,我们使用距离拉普拉斯矩阵和自适应拉普拉斯矩阵嵌入空间特征,并结合交通流的周期性进行时间编码。

  1. 交通条件的变化与周围相邻节点密切相关,因此必须将道路网络信息整合到模型中。为此,我们使用拉普拉斯矩阵来学习道路网络中各节点间的关联。为了捕捉道路网络节点间的潜在交互关系,我们构建了自适应邻接矩阵。通过随机初始化两个可训练参数, E 1 E_1 E1 E 2 ∈ R N × a E_2 \in \mathbb{R}^{N \times a} E2RN×a,自适应邻接矩阵的生成公式如下:

A a d p = S o f t M a x ( R e L U ( E 1 E 2 T ) ) A_{adp} = SoftMax(ReLU(E_1 E_2^T)) Aadp=SoftMax(ReLU(E1E2T))

A = A p r e + A a d p ∑ r o w A p r e + A a d p A = \frac{A_{pre} + A_{adp}}{\sum_{row} A_{pre} + A_{adp}} A=rowApre+AadpApre+Aadp

其中, A a d p A_{adp} Aadp 表示生成的自适应邻接矩阵, A A A 表示生成的归一化邻接矩阵。随后,我们使用公式 (3) 获得生成邻接矩阵的拉普拉斯特征向量,其中 D D D 是度矩阵, Λ \Lambda Λ U U U 对应于特征值和特征向量。接着,将这些特征向量通过卷积嵌入,生成 X s ∈ R N × d X_s \in \mathbb{R}^{N \times d} XsRN×d。此时, X s X_s Xs 既包含道路网络的静态特征,也包含动态特征:

Δ = I − D − 1 / 2 A D − 1 / 2 = U T Λ U \Delta = I - D^{-1/2} A D^{-1/2} = U^T \Lambda U Δ=ID1/2AD1/2=UTΛU

  1. 在时间维度上,我们处理周期性,并利用Transformer中的基本位置编码。关于周期性,我们将每一天分为1440个时间间隔,并将每周分为7天。这两个特征与Transformer中的时间位置编码结合。然后使用卷积嵌入这些向量,以获得 X t ∈ R N × d X_t \in \mathbb{R}^{N \times d} XtRN×d

最终,输入嵌入层的输出 X e X_e Xe 是不同维度数据的总和:

X e = X f + X s + X t X_e = X_f + X_s + X_t Xe=Xf+Xs+Xt

4.2 时空编码器层

时空编码器层主要由两个组件组成,分别使用门控时间自注意力和基于距离的空间自注意力机制来分别提取时间和空间特征,并在多头注意力框架下进行整合。

4.2.1 门控时间自注意力模块

在交通流预测中,最关键的因素在于从历史数据中提取非线性关系。捕捉交通流的动态性、局部性和全局性尤其具有挑战性。以往的网络,如CNN和RNN,存在一些不足。CNN缺乏足够的感受野,只能捕捉局部信息。而训练RNN则可能导致梯度爆炸问题,且它们大多捕捉的是静态时间关系。

鉴于Transformer在各个领域的成功,许多模型开始应用它们来提取交通流中的时间特征。然而,仅使用多头注意力机制只能关注每个时刻之间的关联,忽略了交通流变化的趋势特征。

因此,本文提出了一个新的模块,称为门控时间自注意力。它可以在时间域中同时提取交通流的局部和全局特征,从而更好地适应交通条件的突发变化。

image-20240910224452076

如图3所示,门控网络由滤波器和门控结构组成。在应用多头注意力机制之前,门控网络对 X e X_e Xe 的固定顶点维度进行预处理,以捕捉其趋势特征。这允许动态调整,从而更有效地获取局部和全局特征。定义如下:
f i l t e r = tanh ⁡ ( conv ( X e : n : ) ) , filter = \tanh(\text{conv}(X_{e:n:})), filter=tanh(conv(Xe:n:)),

g a t e = σ ( conv ( X e : n : ) ) , gate = \sigma(\text{conv}(X_{e:n:})), gate=σ(conv(Xe:n:)),

X t x = f i l t e r ⊙ g a t e X_{tx} = filter \odot gate Xtx=filtergate

这里, tanh ⁡ \tanh tanh σ \sigma σ 都作为激活函数。 X t x X_{tx} Xtx 代表多头注意力层的输入,决定了传递到多头注意力层的重要程度。通过这个门控网络,我们的模型能够学习复杂的时间依赖性,实现预测性能的显著提升。

通过应用多头注意力机制来捕捉动态时间关系,我们通过时间Transformer层推导出查询、键和值矩阵,公式如下:

Q t = X t x W Q t , K t = X t x W K t , V t = X t x W V t Q^t = X_{tx} W_Q^t, \quad K^t = X_{tx} W_K^t, \quad V^t = X_{tx} W_V^t Qt=XtxWQt,Kt=XtxWKt,Vt=XtxWVt

其中, W Q t , W K t , W V t ∈ R d h × d h W_Q^t, W_K^t, W_V^t \in \mathbb{R}^{d_h \times d_h} WQt,WKt,WVtRdh×dh 是可学习参数。然后,计算自注意力分数为:

A t = S o f t M a x ( Q t ( K t ) T d h ) A^t = SoftMax\left(\frac{Q^t (K^t)^T}{\sqrt{d_h}}\right) At=SoftMax(dh Qt(Kt)T)

其中, A t ∈ R N × T × T A^t \in \mathbb{R}^{N \times T \times T} AtRN×T×T 捕捉了不同时刻和不同时间趋势下的局部和全局动态特征。最后,门控时间自注意力的输出为:

Z t = A t V t Z^t = A^t V^t Zt=AtVt

4.2.2 距离空间自注意力模块

道路网络结构对于提取空间特征至关重要。本文提出了一个距离空间自注意力模块,用于捕捉交通流的空间特征。与时间模型不同,我们利用 X e t X_{et} Xet 作为输入,定义为 X s x X_{sx} Xsx,它专注于固定的时间部分,处理的是单个顶点。

在本文中,当处理道路网络结构时,根据顶点之间的距离将其分为两部分。设定阈值为 λ \lambda λ,距离大于 λ \lambda λ 的数据点用于提取相似性特征,而距离小于 λ \lambda λ 的数据点用于提取重要性特征。

image-20240910224517080

如图4所示,两个节点集合都通过多头注意力计算,有效地捕捉了更多相关的空间特征。在此,我们使用 g g g 来表示阈值约束函数,SelfAttention 与前面门控时间自注意力模块中的多头注意力机制相同。

基于上述处理,我们可以通过两个多头注意力模块获得道路网络结构的各种特征,从而解决空间异质性问题。距离空间自注意力模块的输出为:

Z s 1 = Self Attention ( g ( X s x ) ) , Z^{s1} = \text{Self Attention}(g(X_{sx})), Zs1=Self Attention(g(Xsx)),
Z s 2 = Self Attention ( X s x ) , Z^{s2} = \text{Self Attention}(X_{sx}), Zs2=Self Attention(Xsx),
Z s = Z s 1 ⊕ Z s 2 . Z^s = Z^{s1} \oplus Z^{s2}. Zs=Zs1Zs2.

4.3 输出层

输出层调整时空编码器层输出的维度。因此,我们使用1×1卷积的跳跃连接,并采用两个全连接层来获得最终的预测维度。本研究采用多步预测方法以减少预测误差的累积。因此,最终的输出维度对应于预测窗口。

5. 实验

5.1 数据集

实验基于四个公开可用的数据集进行:PeMS03、PeMS04、PeMS07 和 PeMS08。它们是来自加利福尼亚州交通部的交通流数据集,涵盖高速公路上的性能、流量和事故等交通数据。该数据集数据丰富,具有较强的实时性能,数据类型多样且处理良好。这些特性使得PeMS数据集广泛应用于研究人员的论文中,因为它能够满足不同领域研究者的需求,并且不需要大量的数据预处理。数据每5分钟采样一次。详细信息见表2。

image-20240910224537550

5.2 基线

STGAFormer 在 PeMS03、PeMS04、PeMS07 和 PeMS08 数据集上相较于之前的24个基线方法取得了显著进展。之前的基线方法大致可以分为以下几类:

  • 传统时间序列预测方法,包括 HA、ARIMA、VAR 和 SVR。
  • 基于图神经网络的方法,包括 DSANet、STGCN、DCRNN、ASTGCN、MSTGCN、STSGCN、GraphWaveNet、AGCRN、MTGNN、STFGNN、STGODE、STGNCDE、Z-GCNETs、DSTAGNN 和 GDGCN。
  • 结合Transformer技术的方法,如 STTN、GMAN、TFormer、ASTGNN 和 PDFormer。

5.3 实验设置

在本次实验中,历史步数和预测步数均设置为12,意味着过去一小时的数据用于预测下一小时的交通流。每个数据集的训练集、验证集和测试集按6:2:2比例划分。所有实验均在NVIDIA RTX A6000上进行。PeMS03、PeMS04 和 PeMS08 数据集的批次大小设置为16,而PeMS07的数据集批次大小为4。此外,训练周期为200。模型的编码器层数 L L L 为6,隐藏维度 d d d 为64。STGAFormer 使用 AdamW 优化器,学习率为0.001。

5.4 评价指标

本文采用平均绝对误差 (MAE)、平均绝对百分比误差 (MAPE) 和均方根误差 (RMSE) 作为评估指标,同时排除了数据集中缺失的值:

M A E = 1 n ∑ i = 1 n ∣ y i − y ^ i ∣ , MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|, MAE=n1i=1nyiy^i,
M A P E = 1 n ∑ i = 1 n ∣ y i − y ^ i y i ∣ × 100 % , MAPE = \frac{1}{n} \sum_{i=1}^{n} \left|\frac{y_i - \hat{y}_i}{y_i}\right| \times 100\%, MAPE=n1i=1n yiyiy^i ×100%,
R M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 , RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}, RMSE=n1i=1n(yiy^i)2 ,

其中, y i y_i yi y ^ i \hat{y}_i y^i 分别表示预测的交通值和真实的交通值。

5.5 比较结果

image-20240910224628637

表3展示了在PeMS数据集系列上的不同模型的性能。为了验证我们模型的优越性,绝大多数标准基线的结果参考了官方记录和发布的工作。显而易见,结合时空图神经网络的方法显著优于之前的线性时间预测模型,因为它们充分利用了复杂的空间关系和动态时间依赖性。

本研究归属于利用Transformer进行交通流预测的工作范畴。实际上,本文在模型的输入阶段通过嵌入和融合各种维度的特征至高维表示方面表现突出,随后利用多头注意力机制提取时空特征。因此,与之前使用GCN的模型相比,本文模型在大多数指标上表现出了显著的提升。

5.6 消融研究

STGAFormer 模型由三个重要模块组成:多维输入嵌入、距离空间自注意力模块和门控时间自注意力模块。为了验证每个模块的有效性,基于 PeMS08 数据集进行消融实验。实验设置详见表4。

image-20240910224645590

  • STGAFormer w/o 多维输入嵌入:不再考虑动态图和周期嵌入。
  • STGAFormer w/o 距离空间自注意力:不再使用基于距离的区分,而是直接通过全局注意力提取空间特征。
  • STGAFormer w/o 门控时间自注意力:移除门控时间自注意力结构。

我们使用 MAE、RMSE 和 MAPE 评估 STGAFormer 及其变体的性能。

image-20240910224707969

如图5所示,STGAFormer 在所有指标上都表现出色。提出的门控时间自注意力模块对性能的提升贡献最大,使 MAE 提高了3.41%。这表明该模块的优越性,因为它有效地考虑了时间特征的局部关系,同时也考虑了全局关系。此外,由于 MAE 对异常值敏感,因此 MAE 值的显著提升是该模块在应对突发交通场景方面优越性的有力证据。

此外,借助多维输入嵌入模块,前一天周期信息的结合以及动态图的构建在减少 RMSE 方面也取得了良好的效果。在空间特征提取部分,距离空间注意力模块也对模型的预测作出了贡献。这是因为该模块评估距离,将整个图分为两部分。它允许不同的自注意力头专注于其各自的专业领域,从而提供更准确的预测。

5.7 门控时间自注意力结构的研究

为了分析门控时间自注意力在长期预测中的优势,进行了更详细的实验。我们计算了每个未来12步的 MAE、RMSE 和 MAPE,并绘制了变化图,如图6所示。

image-20240910224738431

为了确保模型输入的公平性,我们在复制之前模型的过程中加入了周期性。因此,大多数复制的结果优于原文报告的结果。同时,由于复制过程的参数未设置为最佳状态,一些模型表现不佳,但它们能够反映模型的优越性。

如图6所示,STGAFormer 在所有时间段的三个指标上都优于其他模型。此外,与之前表现最好的模型 PDFormer 相比,我们提出的模型在短期预测中表现相似。然而,在长期预测中,它超越了 PDFormer。这凸显了门控时间自注意力模块在整合时间序列中的局部和全局特征方面的有效性,能够实现综合规划并在长期交通流预测中取得进展。

5.8 时间嵌入

为了强调时间相关数据作为输入参数的重要性,本研究调查了工作日和周末的交通模式变化。首先,从 PeMS08 数据集中选择了一个特定的传感器,并生成了其交通流的每周热力图。图7直观地展示了交通流从周一到周五的一致性,而周六和周日则明显不同。工作日的交通流通常从凌晨5点左右开始增加,而周末通常从早上10点左右开始增加。
image-20240912153606848
此外,从 PeMS08 数据集中随机选择了24个传感器,收集了为期一个月的周三和周六的交通流数据。周三代表工作日,而周六代表假日。如图8所示,横轴标示了一天中的24小时,纵轴代表选择的24个传感器,色谱显示了不同的交通流量水平。在观察到的四周中,每个传感器在周三表现出一致的交通流模式,而周三和周六之间的交通流差异显著。因此,结合星期几作为时间信息证明了在捕捉时间序列中的周期性方面具有优势。
image-20240912153632021

6. 结论

综上所述,提出的时空门控注意力Transformer (STGAFormer) 模型在交通流预测中展示了有希望的能力。具体而言,多维输入嵌入能够更有效地动态融合时空特征。此外,距离空间自注意力模块能够更好地识别远距离节点之间的相似性特征,并关注相邻节点间的依赖特征。最后,新提出的门控时间自注意力模块增强了模型有效捕捉局部和全局时间特征的能力。

因此,STGAFormer 在真实数据集上展示了最先进的性能。未来的工作将重点优化模型的效率,以便在实际场景中应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

holdoulu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值