【论文翻译】STGormer：导航时空异质性，一种用于交通预测的图Transformer方法

holdoulu

已于 2024-10-11 15:46:22 修改

阅读量1.2k

点赞数 18

分类专栏：论文研读文章标签： transformer 深度学习人工智能

于 2024-09-10 21:19:34 首次发布

本文链接：https://blog.csdn.net/double_piga/article/details/142109422

版权

论文研读专栏收录该内容

17 篇文章

订阅专栏

题目	Navigating Spatio-Temporal Heterogeneity: A Graph Transformer Approach for Traffic Forecasting 导航时空异质性：一种用于交通预测的图Transformer方法
论文链接	https://arxiv.org/abs/2408.10822v2
源码地址	https://github.com/jasonz5/STGormer
关键词	交通预测、时空异质性、Transformer、专家混合

摘要

交通预测已成为智慧城市发展中的一个重要研究领域。尽管已经开发了各种复杂架构的神经网络来解决这一问题，但它们仍然面临两个主要挑战：

i) 最近用于建模时空关联的网络设计进展在性能提升方面开始呈现边际效益递减；

ii) 此外，大多数模型没有考虑交通数据中固有的时空异质性，即不同地区的交通分布差异显著，交通流模式在不同时间段波动很大。

为了解决这些挑战，我们提出了时空图Transformer (STGormer)，该模型有效地结合了交通数据中的属性和结构信息来学习时空关联，并通过混合专家模块捕捉空间和时间轴上的异质性。

具体来说，我们设计了两种基于图结构的简单而有效的空间编码方法，并将时间位置信息编码集成到基础Transformer中，以捕捉时空交通模式。此外，增强的混合专家前馈神经网络 (FNN) 模块通过时空门控网络自适应地为不同的模式分配合适的专家层，从而进一步提高整体预测精度。
在实际交通数据集上的实验表明，STGormer在预测性能上达到了最先进的水平。

1 引言

交通预测由于其在城市交通管理和规划中的关键作用，已经引起了学术界和工业界的广泛关注。其目标是利用历史数据预测道路网络中的未来交通模式。该研究领域的特点是需要解码复杂的时间和空间模式，时间维度通常表现出每日或每周的周期性趋势，而空间维度则以城市各个位置之间的连接性和交互为特征。近年来，已经开发了多种深度学习方法，能够有效捕捉交通数据中固有的时空依赖性。尽管有这些进展，当前的模型仍面临两个主要限制。

第一个限制是不断演变的复杂架构的性能增益有限。为解决交通预测问题，近年来提出了各种深度学习模型。其中，时空图神经网络（STGNN）因其预测的准确性而备受关注。它们将图神经网络（GNN）与序列模型结合，前者捕捉时间序列之间的依赖关系，后者识别时间模式。其他研究则采用了注意力模型来增强动态空间建模，利用了无空间约束的优势，例如GMAN和STAEformer。尽管基于注意力的模型通过一步一步融合时空表示，但最近的研究表明它们经常难以生成有意义的注意力图，而是将注意力权重扩散到所有节点上。而且这些模型在计算注意力时往往忽略了图中嵌入的空间结构信息。其他复杂模型也被用于探索交通预测，例如跨区域网格上的创新图卷积、学习图结构的算法以及高效的注意力机制。然而，这些网络架构的增强在性能改进方面开始呈现边际效益递减的趋势。这一观察引发了从模型设计复杂性到为底层数据开发有效表示技术的重点转移。

第二个限制是缺乏对时空异质性的建模。时空异质性指的是不同区域的交通分布差异显著，交通流模式在不同时段波动。例如，在图1b中，传感器20和301在相同的时间框架内表现出非常相似的模式，因为它们在交通网络中的接近性，而传感器110则显示出不同的趋势。我们还可以从图1a中观察到它们交通流分布的类似关系。此外，图1c揭示了工作日和周末的不同交通模式，特别是在高峰时段。工作日显示出明显的早高峰，而周末则表现出全天的更均匀分布，没有明显的峰值，突显了每周模式中的时间异质性。

当前的方法通常使用统一的参数空间来分析所有的交通数据，这往往难以准确捕捉潜在嵌入空间中的时空异质性。此外，最近的趋势是将自监督学习技术集成，以动态建模各种交通模式。然而，这些方法通常涉及复杂的模型架构和复杂的训练范式，这可能会使其实际部署变得复杂。

为有效建模时空相关性和异质性，我们提出了时空图Transformer（STGormer）用于交通预测，并在三个真实的交通数据集上达到了最先进的性能。为建模时空相关性而不依赖复杂的架构，我们的STGormer是基于Transformer模型构建的，该模型结合了若干属性和结构嵌入。具体来说，我们在输入层的节点特征中添加了时间位置信息和度中心性。此外，我们将图的结构信息集成到空间注意力层中，使模型能够有效地捕捉交通数据中的时空依赖性。为解决时空异质性问题，我们的方法包括了一个增强的混合专家FNN模块。该模块通过时空门控网络自适应地为不同的模式分配适当的专家层，同时揭示了数据中复杂的时空关系。

我们的主要贡献可以总结如下：

我们提出了一种新颖的时空图Transformer模型，称为STGormer，用于交通预测。具体来说，该模型结合了交通数据中的属性和结构信息，能够有效地建模时空相关性，并通过混合专家模块捕捉交通流预测中的时空异质性。
通过结合来自时空图的简单但有效的结构编码，该模型显著提高了预测准确性，并增强了Transformer理解图结构信息的能力。
在三个真实的交通数据集上进行的广泛实验研究表明，STGormer在交通预测准确性上大幅超越了基线模型，同时展示了在建模交通模式方面的卓越能力。

2 准备工作

2.1 公式化

定义1. 时空图：我们将交通流数据定义为时空图 $G = (V, E, A, X)$ ，其中 $V$ 是道路或传感器的集合， $∣ V ∣ = N$ 表示道路网络中所有道路或传感器的数量， $E$ 是表示节点之间连接的边的集合， $\in \mathbb{R}^{N \times N}$ 是表示图拓扑的矩阵， $\in \mathbb{R}^{T \times N \times C}$ 定义了交通流量，其中 $T$ 是时间步的数量， $N$ 是变量的数量， $C$ 是输入特征的数量。

定义2. 交通预测：我们将预测问题公式化为基于 $T$ 个历史输入数据预测未来 $T^{'}$ 的交通流：

$\left[ X^{(t-T+1)}, \dots, X^{(t)} \right] \xrightarrow{f(\cdot)} \left[ X^{(t+1)}, \dots, X^{(t+T')} \right]$

其中 $X^{(i)} \in \mathbb{R}^{N \times C}$ 。我们的目标是训练映射函数 $f(\cdot) : \mathbb{R}^{T \times N \times C} \to \mathbb{R}^{T' \times N \times C}$ ，根据给定的 $T$ 个观察值来预测接下来的 $T^{'}$ 步。

定义3. 专家：专家是一个设计用于分析时空依赖性的子网络。该子网络与一个门控网络结合，允许针对不同的时空模式进行处理。

2.2 相关工作

2.2.1 时空预测

时空预测已经研究了几十年，旨在通过分析历史数据预测未来的状态。最初，传统的时间序列模型主导了该领域，但它们在处理复杂的时间和空间相关性方面的能力有限，导致采用了更高级的方法。卷积神经网络（CNNs）和循环神经网络（RNNs）的引入标志着显著的改进，它们能够更好地处理交通时间序列数据的复杂性。然而，真正的突破来自时空图神经网络（STGNNs），它结合了图神经网络（GNNs）和序列模型的优点，使得能够联合建模时空依赖性。

多个STGNNs模型已经在近年来被提出，并在城市交通流预测任务中取得了显著的结果，如Graph WaveNet、STGCN、DCRNN和AGCRN。此外，注意力机制由于其在建模交通数据中的动态依赖性方面的有效性，变得越来越流行，例如GMAN和ASTGCN等模型用于时空关系建模。尽管基于注意力的模型表现出色，但它们难以充分捕捉交通流数据中的固有空间结构。本文介绍了几种简单但有效的结构编码技术来增强基础Transformer，使其能够有效捕捉时空相关性。

2.2.2 混合专家

混合专家（MoEs）技术自引入到语言建模以来，因其能够高效、准确地处理复杂数据而获得了广泛关注。MoEs已被应用于多种机器学习领域，包括计算机视觉、自然语言处理和视觉语言建模等。近年来，MoEs也被用于交通预测。例如，TESTAM使用了各种空间建模方法作为专家，以实现更灵活的空间建模，而ST-ExpertNet使用三个空间专家处理与工作、娱乐和通勤相关的流量模式。

STGormer通过在空间和时间层面集成了MoE增强的FNN来区分自己，强调专家的专门化，以有效应对时空异质性问题。

3 方法

时空图Transformer（STGormer）框架由时空编码层、沿空间和时间轴的MoE增强的Transformers以及用于交通流预测的回归层组成。STGormer的架构如图2所示。

3.1 时空编码层

为了捕捉时空表示，我们引入了一个时空编码层，该层集成了交通流图中的空间和时间静态上下文。

对于时间位置信息嵌入，我们结合了诸如顺序时间点或时间戳等特征。
对于空间输入编码，我们利用了度中心性，它表示了交通网络中每个节点的重要性。
这些时空属性和结构嵌入被整合到交通流数据中，然后输入到MoE增强的时空Transformers中。

3.1.1 时间输入编码

时间特征（如一天中的时间和一周中的天）作为具有内在周期性的全局位置指示符。我们利用Time2Vec嵌入来有效地捕捉时间特征中的周期性和线性方面。具体来说，对于给定的时间上下文 $t$ ，我们计算时间输入编码 $t_{in} \in \mathbb{R}^{T \times d}$ ，该向量由可学习的参数 $w_i$ 和 $b_i$ 为每个维度 $i$ 参数化，如下所示：

$t_{in}[i] = \begin{cases} w_i * v(t)[i] + b_i, & \text{if } i = 0 \\ F(w_i * v(t)[i] + b_i), & \text{else} \end{cases}$

其中 $F$ 表示一个周期性激活函数。通过整合Time2Vec嵌入，模型有效地利用了与标签相关的时间信息。

3.1.2 空间输入编码

在用于捕捉时空表示的层中，我们采用了基于注意力的模型。这种方法可以同时对不同时间步的顺序交通模式和不同空间区域的地理关系进行建模。尽管基于注意力的模型以其在时间序列预测中的有效性而闻名，但在建模空间表示方面，它们遇到了困难。这是由于其模型结构本质上缺乏从图中内嵌的空间先验知识。

为克服这些挑战，我们提出了两种简单有效的方法，将空间结构信息嵌入输入编码层和空间注意力层。

在时空编码层中，我们通过引入度中心性作为空间输入编码 $s_{in}$ 来利用图的结构特性。度中心性定义为预定义邻接矩阵中连接相邻节点的数量，量化了节点在图中的重要性。例如，在交通网络中，代表运输枢纽的节点由于其对交通流动态的影响，被认为至关重要。尽管其重要性，节点重要性这一方面在Transformer模型的注意力计算中通常被忽略。我们建议将该信息作为一个有价值的信号，以提高模型性能。具体来说，对于交通流图，空间输入编码 $s_{in}$ 的计算公式如下：

$s_{in} = z^-_{deg^-}(v_i) + z^+_{deg^+}(v_i)$

其中 $z^-, z^+ \in \mathbb{R}^d$ 表示可学习的嵌入向量，分别对应于节点 $v_i$ 的入度 $deg^-(v_i)$ 和出度 $deg^+(v_i)$ 。对于无向图， $deg^-(v_i)$ 和 $deg^+(v_i)$ 收敛为 $deg(v_i)$ 。通过将节点中心性编码为输入，我们的模型使softmax注意力机制能够识别并利用查询和键向量中的节点重要性，从而不仅捕捉语义相关性，还捕捉图中的中心性信号。

3.1.3 时空输入编码融合

在通过时空Transformer处理之前，交通流嵌入 $X$ 与时间输入编码 $t_{in}$ 和空间输入编码 $s_{in}$ 进行融合。该拼接向量然后映射到隐藏维度 $d$ ，如下所示：

$H = FC(X \| t_{in} \| s_{in}),$

其中 $\in \mathbb{R}^{T \times N \times D}$ 表示隐藏的时空表示。此步骤至关重要，因为它同时结合了空间和时间静态上下文，增强了Transformer分析交通流数据中复杂依赖关系的能力。

3.2 MoE增强的时空Transformer

为了建模时空表示，我们采用了注意力机制，专注于捕捉空间或时间维度的时空相关性。具体来说，对于空间注意力，我们使用由图拓扑结构中节点的最短路径导出的空间注意力偏差矩阵。然后将注意力层的输出输入到基于前馈神经网络( Feed Forward Neural Network，FNN )的专家混合( Mixture-of-Experts，MoE )模型中，该模型由E个重复的FNN组成，每个FNN作为学习时空异质性的“专家”。MoE增强的Transformer的最终时空特征通过回归层进行处理，以实现最终的预测任务，有效利用了网络捕捉的复杂时空动态。

3.2.1 时空注意力

我们沿时间轴和空间轴应用注意力层，以捕捉复杂的交通关系。注意力计算与Transformer中使用的相同，在时间或空间维度上采用多头自注意力（MSA）。然而，针对空间注意力做了一些轻微的修改，集成了空间结构信息。

给定隐藏的时空表示 $\in \mathbb{R}^{T \times N \times D}$ ，其中 $T$ 表示时间步长， $N$ 表示空间节点，作为自注意力模块的输入。输入 $H$ 被通过三个矩阵 $W_Q, W_K, W_V \in \mathbb{R}^{d \times d}$ 投影，以得出相应的查询、键和值矩阵，公式如下：

$HW_Q, \quad K = HW_K, \quad V = HW_V,$

接下来我们计算自注意力分数 $A$ ，并得出隐藏的时空表示 $H^{'}$ ，如下所示：

$\frac{QK^T}{\sqrt{d}}, \quad H' = \text{Softmax}(A)V$

关于自注意力分数 $A$ ，对于时间注意力， $A_t \in \mathbb{R}^{N \times T \times T}$ 按照上述方法计算。然而，对于空间注意力，计算方式略有不同，集成了空间结构信息。

为了在注意力机制中编码图的空间信息，我们采用了受Graphormer启发的空间注意力偏差矩阵。具体来说，对于任意图 $G$ ，我们考虑任意两个连接节点之间的最短路径距离（SPD）。如果节点未连接，则将SPD输出设为特殊值，在本文中设为-1。我们通过逐元素嵌入SPD矩阵与可学习的标量来计算空间注意力偏差矩阵 $S_{A_{bias}}$ ，公式如下：

$A_s = \frac{QK^T}{\sqrt{d}} + S_{A_{bias}},$

$S_{A_{bias}} = \phi(SPD(G)),$

其中，SPD 表示计算节点之间最短路径距离的算法， $S_{A_{bias}} \in \mathbb{R}^{N \times N}$ ， $G$ 是交通流图的邻接矩阵， $\phi$ 是所有空间注意力层中共享的逐元素可学习标量。

在得到时空中间隐藏表示 $H^{'}$ 后，我们将其传递给时空路由器网络，这将在后续部分详细讨论。

3.2.2 时空路由器

为了增强模型捕捉时空异质性的能力，我们利用了一个混合专家（MoEs）增强的FNN模块。

门控网络

采用细粒度的路由策略进行专家选择，我们利用从时空注意力层派生的表示作为门控网络的输入。该网络使用带有softmax函数的简单MLP计算专家的权重分布：
$\text{Softmax}(\text{MLP}(H'))$

输出聚合

然后，我们将从时空注意力层派生的表示作为输入传递给专家层，并整合每个专家的所有预测。计算公式如下：
$\sum_{i=1}^{E} G_i(H') \odot E_i(H')$

其中， $G_i(H')$ 和 $E_i(H')$ 分别表示门控网络的输出和第 $i$ 个专家网络对给定输入 $H^{'}$ 的输出。在我们的设置中，我们采用两个不同的路由网络： $G_s$ 和 $G_t$ ，分别专门用于处理空间和时间关系。在此架构中，每个专家由一个独立的神经网络表示，每个专家使用自己的一组参数来学习独特的时空模式。

负载均衡

在模型训练过程中，我们遇到了一个现象，即门控网络倾向于为少数专家分配不成比例的较高权重，这一现象在其他相关工作中也曾被观察到。为了解决这一问题，我们引入了负载均衡的概念。该策略旨在确保专家之间的利用负载更加均衡分配。数学上，我们定义负载均衡损失项为：
$L_{lb} = \frac{1}{E} \sum_{i=1}^{E} f_{ji}^2$

其中， $E$ 表示专家的数量， $f_i$ 表示分配给专家 $i$ 的概率质量的比例。

3.3 模型训练

为了训练STGormer模型，我们利用由MoE增强的时空Transformer生成的最终表示 $H_{\text{final}} \in \mathbb{R}^{T \times N \times D}$ 。该表示被输入到回归层中，以便预测未来时间步的交通流，表达式如下：

$\hat{Y} = FC(H_{\text{final}}),$

为了优化模型，我们最小化预测值 $\hat{Y}$ 和真实值 $Y$ 之间的平均绝对误差（MAE）。总损失函数定义如下：

$L(\theta) = \text{MAE}_{\text{loss}}(Y - \hat{Y}) + \alpha L_{\text{lb}},$

其中， $\theta$ 表示STGormer中所有可学习的参数， $\alpha$ 是一个用于平衡负载均衡损失项影响的参数。

4 实验

4.1 实验设置

4.1.1 数据集和指标

为了全面评估所提出的STGormer模型，我们在三个真实世界的交通数据集上进行了广泛的实验，如表1所示：NYCTaxi、NYCBike1 和 NYCBike2。

对于这些数据集，我们使用前2小时的流量和前3天的流量来预测下一个时间步的流量，确保与之前工作中的公平比较。所有数据集按7:1:2的比例划分为训练集、验证集和测试集。

我们使用了交通预测领域中常用的三个评估指标来公平评估预测性能：平均绝对误差（MAE）、均方根误差（RMSE）和平均绝对百分比误差（MAPE）。MAE和RMSE衡量绝对预测误差，而MAPE衡量相对预测误差。对于所有这些指标，数值越小表示性能越好。

4.1.2 实现细节

我们使用PyTorch工具包在配备NVIDIA GeForce RTX 3090 GPU的Linux服务器上实现了模型。嵌入维度 $D$ 设置为64。空间和时间MoE增强的Transformer块的数量设置为3。每个注意力头的数量设置为4。每个空间和时间路由器网络包含6个专家。优化是通过Adam优化器进行的，学习率从0.001开始衰减，批量大小设置为32。我们应用了提前停止机制，如果验证误差在连续25个步骤内收敛，则停止训练。超参数基于常用的值选择，并通过初步实验进行调整，而无需广泛的消融或超参数优化。

4.1.3 基线

在本研究中，我们将提出的方法与领域中几种广泛使用的基线方法进行了比较。历史平均值（HA）和支持向量回归（SVR）是传统统计方法。对于深度学习方法，我们包括了ST-ResNet、STGCN、GMAN、Graph WaveNet 和 AGCRN 等模型，每个模型在捕捉数据集中的空间和时间依赖性方面展现了显著能力。此外，我们选择了STID、STAEformer 和 ST-SSL 作为最新的模型，探索了先进的神经网络架构和输入嵌入方法。

4.2 主要结果

表2表明，我们的STGormer框架在所有数据集的大多数指标上展现了增强的性能，证实了我们方法的有效性。请注意，NYCBike1/2和NYCTaxi数据集的基线结果差异源于我们使用了ST-SSL的评估方法，特别是计算了交通流中超过非零阈值的值的预测误差。其他时空模型也展现了强劲的结果，将其成功归因于对时空依赖性的熟练处理。相反，传统的非深度学习技术（如HA和SVR）效果最差，难以对真实世界数据集中复杂的非线性空间和时间动态进行建模。

总而言之，STGormer框架显著推进了交通预测领域的技术前沿，展示了其捕捉复杂时空动态的能力。

4.3 消融研究

为了评估STGormer的有效性，我们进行了四个变体的消融研究，具体如下：

w/o $t_{in}$ : 该变体省略了作为时间位置指标的时间输入编码 $t_{in}$ 。
w/o $s_{in}$ : 该变体省略了表示图中每个节点的重要性的空间输入编码 $s_{in}$ 。
w/o $S_{A_{\text{bias}}}$ : 该变体移除了空间注意力偏差矩阵 $S_{A_{\text{bias}}}$ ，该矩阵用于将空间关系整合到注意力层中。
w/o STMoE: 该变体禁用了MoE增强的前馈神经网络，而仅仅依赖于原始逐点前馈网络来捕捉时空表示。

图3展示了不同组件对模型在NYCTaxi数据集上性能的影响。时间输入编码 $t_{in}$ 对于捕捉时间特征中的周期性和线性方面至关重要。此外，移除空间输入编码 $s_{in}$ 和空间注意力偏差矩阵 $S_{A_{\text{bias}}}$ 所带来的显著性能下降，表明我们提出的空间结构嵌入能够有效建模交通数据中的固有空间模式，并增强了Transformers对时空关系的建模能力。移除STMoE变体突出了混合专家（MoE）在增强前馈网络捕捉时空模式中的关键作用，专门的路由器将输入指向适当的专家，从而改进了复杂交通模式的管理。总的来说，结果强调了我们提出的时空图Transformer在交通预测中的价值。

4.4 超参数研究

我们进行了实验，分析了两个超参数的影响：每个时空Transformer中的块数，以及这些块的顺序。我们在NYCBike1数据集上呈现了结果。

块数：我们首先通过调整Transformer块的数量进行了超参数研究，设置空间和时间组件的块数相等，取值为{1, 2, 3, 4}。我们的分析确定了一个最佳平衡，表明模型复杂度和性能效率之间的微妙相互作用。如图4a所示，块数少于最佳值的配置会简化模型复杂度，降低其预测能力。相反，块数过多可能导致模型过拟合，捕捉噪声而非有意义的模式，从而降低其在未见数据上的泛化性能。
块顺序：我们进一步研究了空间和时间Transformer块排列顺序的影响，重点关注诸如SSSTTT、STSTST等配置以及它们的时间优先配置TTTSSS和TSTSTS。我们结果（如图4b所示）表明，优先进行空间建模的配置在所有评估指标上均表现出最低值，优于那些以时间建模为起点的配置。该发现突出了空间处理作为基础步骤的重要性，这显著增强了空间和时间维度之间的协同作用。通过从空间建模开始，模型更好地捕捉有效的时空表示，从而提高了其在交通预测任务中的预测准确性。

4.5 定性研究

空间结构嵌入的可视化

为了展示空间结构嵌入在捕捉重要空间信息方面的能力，我们使用了NYCBike1数据集进行实证研究，并呈现了基于网格的可视化。

如图5a所示，嵌入 $s_{in}$ 通过度中心性量化了每个节点的重要性，增强了模型对重要节点的敏感性。

度中心性反映了一个节点在图中的连接程度，度数越高，节点越重要。

边缘的节点度数较低（显示为浅色），而中间区域的节点度数较高（显示为深色）。这意味着模型认为中间区域的节点在捕捉交通流中更为重要。

此外，图5b可视化了空间注意力偏差矩阵 $S_{A_{\text{bias}}}$ 中一个焦点节点（红色圆圈突出显示）与其他节点的注意力得分。该矩阵基于两个连接节点之间的最短路径距离计算，使Transformer能够有效地整合图结构信息。这些嵌入对于建模空间关系至关重要，有助于提高交通预测任务的性能。

焦点节点的注意力分数随着节点距离的增加而逐渐降低，这种分布反映了空间上更接近的节点对焦点节点有更强的影响力，而距离较远的节点影响较小。

学习的时空表示

为了进一步了解STGormer模型如何实现卓越的交通预测准确性，我们对NYCBike1数据集的学习嵌入进行了t-SNE可视化。嵌入表示是跨所有区域的最终输出，基于交通数据统计（均值、中位数、标准差）进行聚类，以突出具有异质数据分布的区域之间的空间模式。为了比较，我们还分析了来自一个更简单模型STformer的嵌入，该模型仅利用时空注意力机制。

t-SNE可视化（如图5c所示）表明，STGormer对相同类别区域生成了更紧凑的聚类，并且不同类别之间具有明显的分离。这一区别强调了STGormer在识别空间异质性和有效地跨相似区域传递信息方面的能力，从而促进了更准确的预测。

5 结论与未来工作

在本文中，我们介绍了时空图Transformer（STGormer），以有效捕捉交通预测任务中的时空相关性和异质性。我们的框架将时间和空间静态上下文整合到交通流数据的分析中。生成的融合表示随后被输入到MoE增强的时空Transformer中，后者在注意力层和时空门控网络中整合了空间上下文。最终，利用学习到的时空表示，我们的框架产生了优越的预测结果。在真实交通数据集上进行的广泛实验验证了STGormer的有效性，表现优于现有的交通预测模型。

在未来的研究中，我们计划进一步增强和扩展STGormer的应用，将其应用于各种时空预测任务，超越交通预测。此外，我们还旨在探索其他空间结构嵌入技术，以提高Transformer在建模空间关系方面的能力，从而提升整体预测性能。