(PDFormer)Propagation Delay-Aware Dynamic Long-Range Transformer for Traffic Flow Prediction
作者:Jiawei Jiang, Chengkai Han, Wayne Xin Zhao, Jingyuan Wang
机构:Beihang University, Pengcheng Laboratory, Renmin University of China
文章目录
摘要
交通流量预测是智能交通系统的核心技术之一,其主要挑战在于有效建模交通数据中的复杂时空依赖性。现有的基于图神经网络(GNN)的模型存在三个主要限制:静态空间依赖性建模、短程空间信息考虑不足、忽略交通条件传播的时间延迟。为此,本文提出了一种新的传播延迟感知的动态长程变换器(PDFormer),用于准确的交通流量预测。具体来说,设计了空间自注意力模块来捕捉动态空间依赖性,引入了两个图掩码矩阵来突出短程和长程空间依赖性,并提出了交通延迟感知的特征转换模块来显式建模空间信息传播的时间延迟。在六个真实世界的公共交通数据集上的广泛实验结果表明,PDFormer不仅能够实现最先进的性能,还表现出竞争性的计算效率。此外,通过可视化学习到的时空注意力图,使模型具有高度的可解释性。
引言
近年来,快速的城市化对现代城市交通管理提出了巨大挑战。智能交通系统(ITS)作为现代智能城市的重要组成部分,已经被开发出来,用于分析、管理和改善交通状况。交通流量预测作为ITS的核心技术,已经被广泛研究,旨在基于历史观测预测交通系统的未来流量。准确的交通流量预测对于各种与交通相关的应用(如路线规划、车辆调度和拥堵缓解)都非常有用。
主要贡献
- 提出了基于时空自注意力机制的PDFormer模型,用于准确的交通流量预测。该方法全面解决了交通数据复杂特性(动态性、长程性和时间延迟)引起的问题。
- 设计了一个空间自注意力模块,通过不同的图掩码方法建模局部地理邻域和全局语义邻域,并进一步设计了一个交通延迟感知的特征转换模块,显式建模空间信息传播的时间延迟。
- 在六个真实世界的公共数据集上进行了多步和单步交通流量预测实验。结果表明,PDFormer模型显著优于现有的最先进模型,并展现出竞争性的计算效率。此外,通过可视化实验表明,通过学习到的时空注意力图,PDFormer方法具有高度的可解释性。
方法
PDFormer模型包括数据嵌入层、堆叠的时空编码器层和输出层。数据嵌入层将输入转换为高维表示,包括空间图拉普拉斯嵌入、时间周期嵌入和时间位置编码。时空编码器层基于自注意力机制设计,核心包括空间自注意力模块、延迟感知特征转换模块和时间自注意力模块。通过多头自注意力块融合异构注意力,减少模型的计算复杂度。
-
数据嵌入层(Data Embedding Layer):将输入数据转换为高维表示,包括空间图拉普拉斯嵌入、时间周期嵌入和时间位置编码。
-
输入转换:原始输入数据 X X X 通过一个全连接层转换为 X data X_{\text{data}} Xdata ,其中 d d d 是嵌入维度。
-
空间图拉普拉斯嵌入:拉普拉斯特征向量映射了图形欧几里得空间,并保留了全局图形结构信息。
-
使用图拉普拉斯矩阵的特征向量来编码道路网络结构。首先计算归一化的拉普拉斯矩阵 Δ = I − D − 1 / 2 A D − 1 / 2 \Delta = I - D^{-1/2}AD^{-1/2} Δ=I−D−1/2AD−1/2 ,其中 A A A 是邻接矩阵, D D D 是度矩阵, I I I 是单位矩阵。
-
通过特征值分解 Δ = U T Λ U \Delta = U^T\Lambda U Δ=UTΛU 获取特征值矩阵 Λ \Lambda Λ 和特征向量矩阵 U U U 。
-
使用最小的 k k k 个非平凡特征向量通过线性投影生成空间图拉普拉斯嵌入 X spe X_{\text{spe}} Xspe。
-
-
时间周期嵌入:
-
引入周和日的时间周期性,分别表示为 t w ( t ) t_w(t) tw(t) 和 t d ( t ) t_d(t) td(t)。
-
通过函数 w ( t ) w(t) w(t) 和 d ( t ) d(t) d(t) 将时间 t t t 转换为周索引(1到7)和分钟索引(1到1440)。
-
通过连接所有 T T T 时间片的嵌入来获取时间周期嵌入 X w X_w Xw, X d X_d Xd。
-
-
时间位置编码:
- 使用Transformer的时间位置编码 X tpe X_{\text{tpe}} Xtpe 引入输入序列的位置信息。
-
输出生成:
-
数据嵌入层的输出是通过将上述嵌入向量简单相加得到的:
X emb = X data + X spe + X w + X d + X tpe X_{\text{emb}} = X_{\text{data}} + X_{\text{spe}} + X_w + X_d + X_{\text{tpe}} Xemb=Xdata+Xspe+Xw+Xd+Xtpe
-
-
-
时空编码器层(Spatial-Temporal Encoder Layer):基于自注意力机制设计,包含空间自注意力模块、延迟感知特征转换模块和时间自注意力模块。
-
空间自注意力模块(Spatial Self-Attention, SSA):
-
设计用于捕捉交通数据中动态空间依赖性的模块。
-
通过自注意力操作,模型可以在空间维度上建模节点间的交互,从而获得空间依赖性(注意力分数)。
-
在时间步 t,首先计算自注意力操作的查询、键和值矩阵:
Q ( S ) t = X t : W S Q , K ( S ) t = X t : W S K , V ( S ) t = X t : W S V Q(S)_t = X_{t:}W_{SQ}, \quad K(S)_t = X_{t:}W_{SK}, \quad V(S)_t = X_{t:}W_{SV} Q(S)t=Xt:WSQ,K(S)t=Xt:WSK,V(S)t=Xt:WSV
其中 W S Q W_{SQ} WSQ, W S K W_{SK} WSK, W S V W_{SV} WSV 是可学习的参数, d ′ d' d′ 是查询、键和值矩阵的维度。
-
通过自注意力操作计算节点间的注意力分数:
A ( S ) t = Q ( S ) t K ( S ) t T d ′ A(S)_t = \frac{Q(S)_t K(S)_t^T}{\sqrt{d'}} A(S)t=d′Q(S)tK(S)tT
-
这些注意力分数反映了在时间步 t t t 时,所有节点间的相互依赖性。
-
-
地理空间自注意力(Geographic Spatial Self-Attention, GeoSSA):
-
使用地理掩码矩阵 M geo M_{\text{geo}} Mgeo 来突出显示短程空间依赖性。
GeoSSA ( Q ( S ) t , K ( S ) t , V ( S ) t ) = softmax ( A ( S ) t ⊙ M geo ) V ( S ) t \text{GeoSSA}(Q(S)_t, K(S)_t, V(S)_t) = \text{softmax}(A(S)_t \odot M_{\text{geo}})V(S)_t GeoSSA(Q(S)t,K(S)t,V(S)t)=softmax(A(S)t⊙Mgeo)V(S)t
-
只有当两个节点在图中的距离(即图中的跳数)小于阈值 λ \lambda λ 时,掩码矩阵中的权重才为1,否则为0。
-
-
语义空间自注意力(Semantic Spatial Self-Attention, SemSSA):
-
使用语义掩码矩阵 M sem M_{\text{sem}} Msem 来突出显示长程空间依赖性。
SemSSA ( Q ( S ) t , K ( S ) t , V ( S ) t ) = softmax ( A ( S ) t ⊙ M sem ) V ( S ) t \text{SemSSA}(Q(S)_t, K(S)_t, V(S)_t) = \text{softmax}(A(S)_t \odot M_{\text{sem}})V(S)_t SemSSA(Q(S)t,K(S)t,V(S)t)=softmax(A(S)t⊙Msem)V(S)t
-
通过Dynamic Time Warping(DTW)计算节点间历史交通流量的相似性,并选择相似度最高的 K K K个节点作为语义邻居,构建掩码矩阵。
-
-
延迟感知特征转换模块(Delay-aware Feature Transformation, DFT):
-
基本原理:
- 现实世界中的交通条件传播存在时间延迟,例如交通事故的发生可能需要几分钟时间才能影响到邻近地区的交通状况。
- DFT模块通过捕捉这种时间延迟,将历史交通流量中的短期模式显式地融入到模型中,从而提高预测的准确性。
-
历史交通流量的表示:
- 通过滑动窗口从历史交通数据中提取一系列交通流量序列,并使用kShape聚类算法对这些序列进行聚类。
- kShape算法是一种保持时间序列形状的时间序列聚类方法,对缩放和平移不变。
-
聚类中心:
- 每个聚类中心 p i p_i pi 代表一个典型的短期交通模式,聚类结果 P P P 可以被视为一组短期交通模式。
-
特征转换:
- 对于每个节点 n n n,将 S S S 步历史交通流量序列 x ( t − S + 1 : t ) n x(t-S+1:t)_n x(t−S+1:t)n 通过嵌入矩阵 W u W_u Wu 转换为高维表示 u t n u_t^n utn。
- 将聚类中心 p i p_i pi 通过嵌入矩阵 W m W_m Wm 转换为记忆向量 m i m_i mi。
-
相似性计算:
-
计算每个节点的历史交通流量表示 u t n u_t^n utn 与聚类中心记忆向量 m i m_i mi 之间的相似性,得到相似性向量 w i w_i wi:
w i = softmax ( u t n T m i ) w_i = \text{softmax}(u_t^{n^T} m_i) wi=softmax(utnTmi)
-
-
历史序列表示的融合:
-
根据相似性向量 w w w 对聚类中心 P P P 进行加权求和,得到综合的历史序列表示 r t n r_t^n rtn:
r t n = ∑ i = 1 N p w i ( p i W c ) r_t^n = \sum_{i=1}^{N_p} w_i (p_i W_c) rtn=i=1∑Npwi(piWc)
其中 W c W_c Wc 是可学习的参数矩阵。
-
-
键矩阵更新:
-
将综合的历史序列表示 R t R_t Rt 更新到键矩阵 K ( S ) t K(S)_t K(S)t 中,以显式建模时间延迟:
K ~ ( S ) t = K ( S ) t + R t \tilde{K}(S)_t = K(S)_t + R_t K~(S)t=K(S)t+Rt
其中 R t R_t Rt 是通过连接所有节点的综合表示 r t n r_t^n rtn 得到的。
-
-
-
时间自注意力模块(Temporal Self-Attention, TSA):
- 用于发现交通数据中的动态和长程时间模式。
- 通过自注意力操作在时间维度上建模不同时间片之间的依赖性。
-
异构注意力融合:
- 将地理、语义和时间自注意力的结果融合到一个多头自注意力块中,以减少模型的计算复杂度。
- 结果通过拼接和投影来获得最终输出,允许模型同时整合空间和时间信息。
-
输出层:
- 使用跳跃连接和1×1卷积将每个时空编码器层的输出转换为跳跃维度 X sk X_{\text{sk}} Xsk。
- 最终隐藏状态 X hid X_{\text{hid}} Xhid 通过将每个跳跃连接层的输出相加获得。
-
-
输出层:使用跳跃连接和 1 × 1 1×1 1×1卷积将最终隐藏状态转换为预测结果。
实验
在六个真实世界的公共交通数据集上验证了PDFormer的性能,包括三个基于图的高速公路交通数据集(PeMS04、PeMS07、PeMS08)和三个基于网格的城市交通数据集(NYTaxi、CHBike、TDrive)。与9个基线模型(包括基于图神经网络的模型和基于自注意力的模型)进行了比较。实验结果表明,PDFormer在所有数据集上的所有指标上均显著优于基线模型。