【论文翻译】COOL:A Conjoint Perspective on Spatio-Temporal Graph Neural Network for Traffic Forecasting

holdoulu

已于 2024-09-06 16:28:54 修改

阅读量1k

点赞数 34

分类专栏：论文研读文章标签：深度学习智慧城市 python

于 2024-07-18 12:49:30 首次发布

本文链接：https://blog.csdn.net/double_piga/article/details/140520057

版权

论文研读专栏收录该内容

17 篇文章

订阅专栏

题目	COOL: A Conjoint Perspective on Spatio-Temporal Graph Neural Network for Traffic Forecasting（交通预测中一种联合时空图神经网络的视角）
作者	共一：博士后琚玮、研二赵禹昇；通讯作者：罗霄、张铭
作者团队	北京大学张铭老师课题组
期刊	Information Fusion
论文链接	https://www.sciencedirect.com/science/article/pii/S1566253524001192

摘要

本论文研究了交通预测，旨在根据历史情况预测未来的交通状态。该问题在各种场景中受到了越来越多的关注，并促进了诸如城市规划和交通管理等众多下游应用的发展。然而，由于现有方法倾向于独立建模时间和空间关系，从而未能充分考虑两者的复杂高阶交互，其效果仍然不尽如人意。此外，交通预测中转移模式的多样性使得现有方法难以捕捉，亟需更深入的探索。

为此，本文提出了联合时空图神经网络（简称COOL），该方法通过先验和后验信息的异构图联合捕捉高阶时空关系。

一方面，构建连接顺序观测的异构图，通过先验信息传递提取复合时空关系。
另一方面，我们通过构建的亲和图和惩罚图来建模动态关系，这些图引导后验信息传递，将补充语义信息整合到节点表示中。
此外，为了捕捉多样的转移属性以增强交通预测，我们提出了联合自注意解码器，该解码器通过多阶和多尺度视角建模多样的时间模式。

四个流行基准数据集的实验结果表明，我们提出的COOL相比竞争基线方法提供了最先进的性能。

1 引言

1.1 背景

时空预测因其在众多下游应用中的相关性，已成为一个突出的研究领域。从城市规划和环境管理到物流优化及其他方面，准确预测实体在时间和空间上的演变至关重要。在该领域中，一个特别关键的现实问题是交通流量预测，它旨在根据历史情况预测未来的交通状况。它涉及预测交通动态的各个方面，包括交通量、速度和拥堵模式，涵盖不同地点和时间间隔。交通流量预测的应用范围广泛，影响着智能交通系统、交通管理、路线规划，最终有助于减少拥堵、提高运输效率和增强城市宜居性。

1.2 相关研究

最近，已经提出了一系列有效的交通流量预测算法，大致分为基于物理的和基于学习的方法。前者通常依赖微分方程形式化地描述交通系统，在模拟环境中表现出色，但由于其苛刻的模型假设，往往难以适应复杂的现实场景。相反，基于学习的方法因其能够利用历史观测优化机器学习模型而广泛应用，成为预测未来趋势的热门选择。早期研究尝试使用传统模型如自回归综合滑动平均和支持向量机来解决这一挑战，但其建模能力不足以适应大规模复杂数据。近年来，基于深度学习的方法因其利用深度神经网络强大的表示学习能力，显著提升了性能。一方面，它们采用循环神经网络或时序卷积网络来捕捉交通数据中的时间依赖性；另一方面，图神经网络被用于从道路网络中提取结构化的空间关系。通过结合这两方面的优势，当前算法能够有效捕捉时空信息，促进了准确的交通流量预测。

GDGCN开发了一种新的时间图卷积模块，用于灵活的时间关系，并通过动态图构造器来同时建模时间特定的空间依赖性和变化的时间交互。
DS-TGCN则结合了空间-时间相似性特征和注意机制的卷积，有效提取复杂的时空关系。

1.3 关键缺陷

尽管现有的交通流量预测技术取得了令人印象深刻的性能，但它们仍存在两个关键缺陷：

未能有效捕捉复合的时空关系。 例如，无法充分建模交通拥堵与当地天气条件（如雨雪）之间的相互作用，而这可以显著影响交通流动态。现有的时空算法通常通过在交通网络中融合相应的表示来组合图神经网络（GNNs）和循环神经网络（RNNs）。然而，这种简单的组合将时空相关性的挖掘分离开来。这些方法在提取空间信息时无法获取各种时间信息，从而错失高阶复合关系。此外，它们通常从道路网络中提取空间相关性，忽略了交通系统中的动态语义相关性，导致交通预测性能不佳。
未能充分捕捉多样的转移模式。 由于不同交通需求，不同地点或时间可能表现出多样的转移模式。例如，现有模型可能难以准确预测常规工作日交通流与节假日或特殊活动（如音乐会或体育比赛）期间高度可变的交通模式之间的转变。此外，它们可能无法有效捕捉工作日和周末之间的转变模式，这通常由于通勤行为的变化而表现出不同的交通动态。正如图1所示，不同地点可能由于日常或每周例行公事表现出不同的周期模式。然而，现有方法大多无法通过标准序列模型有效建模复杂的时间依赖性，从而阻碍了其进行准确交通流预测。

1.4 提出方法

在本文中，我们提出了一种名为COOL的新方法用于有效的交通预测。从高层次上讲，COOL通过先验和后验信息联合探索高阶时空关系。

一方面，我们将先验信息引入到由空间和时间连接的异构图中。
另一方面，我们通过构建的亲和图和惩罚图建模动态关系，然后开发后验消息传递层以将相似性和不相似性整合到序列节点表示中。
此外，为了捕捉多样的转移属性以增强交通预测，我们开发了一种联合自注意解码器，通过建模多样的时间模式来聚合序列表示，从多阶和多尺度视角进行。

在具体操作中，我们不仅利用不同大小的变换矩阵提供多阶注意矩阵以建模多样的内在模式，还涉及多尺度池化以生成子序列表示来捕捉各种周期模式。最终，我们自适应地组合获得的全局表示以生成交通预测。

与当前最先进的基线方法STAEformer相比，该方法主要通过不同的Transformer层依次建模时间和空间信息，分别建模这两个固有耦合方面通常会导致次优性能。相比之下，我们提出的COOL通过构建异构图自然地将时间和空间信息结合起来。通过先验和后验消息传递，COOL进一步捕捉高阶时空依赖性。此外，STAEformer没有考虑实际交通流预测场景中存在的丰富时间模式，而我们的COOL利用自注意机制来建模这些模式并更真实地捕捉动态。

1.5 主要贡献

本文的主要贡献如下：

我们提出了一种新的时空图卷积网络模型COOL，该模型通过先验和后验信息联合探索高阶时空关系。
为了捕捉各种长期转移模式，COOL引入了一种联合自注意解码器，通过多阶和多尺度注意分支聚合序列表示。
在四个基准数据集上的大量实验结果表明，我们提出的COOL取得了有希望的结果，并大幅优于竞争基线方法，验证了我们方法的有效性。

2. 相关工作

2.1 图神经网络

近年来，图神经网络（GNNs）由于其在建模具有复杂关系的结构化数据中的有效性而获得了显著的普及。GNNs 的基本思想是通过聚合来自邻居的信息来学习图中节点的表示，从而捕捉到内在的图结构。GNNs 已广泛应用于各种下游任务，包括节点分类、图分类和图聚类，并展示了令人印象深刻的性能。

在时空分析的背景下，GNNs 也得到了广泛应用。时空分析中的一些先前工作利用 GNNs 来建模各种现象。例如，

Graph WaveNet 使用自适应依赖矩阵通过节点嵌入来捕捉时空依赖性，并通过堆叠的扩张 1D 卷积组件高效地处理长序列。
STSGCN 通过设计的同步建模机制有效捕捉局部化的时空相关性，并通过多个时间周期模块考虑局部时空图中的异质性。
CNFGNN 提出了一个联邦时空模型，利用基于 GNNs 的架构来编码图结构，通过跨节点的联邦学习来解耦时空动态，同时减少通信成本。

尽管基于 GNNs 的时空分析方法已做出显著贡献，但我们的 COOL 通过解决关键限制并在捕捉复杂时空关系和交通数据中的多样转移模式方面提供优越性能，脱颖而出。这些创新带来了更准确和更稳健的交通流预测。

2.2 交通流量预测

交通流量预测是该领域中一个公认且广泛研究的问题，吸引了大量关注和兴趣。为此任务提出了许多时空预测方法，取得了显著的成果。

解决这一挑战的主要方法基于机器学习算法，这些算法利用从各种传感器收集的时空数据来预测未来的交通状况。传统方法如k近邻、自回归综合移动平均和支持向量机已被使用，但它们在有效建模交通数据中固有的复杂空间关系方面往往表现不佳。

随着深度神经网络的快速发展，基于深度学习的方法已成为主导范式，专注于在交通流量数据中精细建模时空依赖性。这需要利用深度神经网络架构来捕捉这些依赖性，包括利用GNNs来提取编码在道路网络中的结构化空间关系，同时，序列神经网络在时间上捕捉依赖性。这两种互补方法通常结合起来，开发出能够处理交通流量预测复杂性的综合模型。例如，

ASTGCN通过时空注意机制、图卷积和标准卷积，分别建模最近、每日周期性和每周周期性的交通依赖，并将输出融合以进行预测。
GMAN引入了一种图多重注意网络，使用编码器-解码器架构和时空注意块在道路网络图上预测未来的交通状况。
DGCRN利用超网络提取动态节点属性，并在每个时间步生成动态滤波器以过滤节点嵌入。

然而，现有的时空GNN方法在捕捉高阶关系和多样转移属性方面仍存在一些局限性。为了解决这些问题，我们提出了一种名为COOL的新方法，不仅通过先验和后验信息联合探索构建的异构图中提取的高阶时空相关性，还引入了一种联合自注意解码器，该解码器通过利用多阶和多尺度自注意来捕捉多样的时间转移模式。

3 方法

本文提出了一种名为COOL的交通流量预测新方法。如图2所示，COOL由联合时空图编码器和联合自注意解码器组成。

在编码器中，我们从先验和后验信息中联合提取高阶时空相关性。
- 一方面，我们在构建的包含空间和时间连接的异构图的指导下执行消息传递。
- 另一方面，我们构建语义亲和图和惩罚图来表征动态关系，然后将相似性和不相似性整合到序列节点表示中。
在解码器中，我们通过从多阶和多尺度视角探索多样的转移模式来聚合序列表示。

问题定义 我们将道路网络的交通图表示为 $\mathcal{G} = (\mathcal{V}, \mathcal{E})$ ，其中节点集为 $\mathcal{V}$ ，边集为 $\mathcal{E}$ 。邻接矩阵表示为 $\in \mathbb{R}^{N \times N}$ 。历史观测记为 $\{X_1, X_2, \ldots, X_T\}$ ，其中 $X_t \in \mathbb{R}^{N \times F}$ 表示时间步 $t$ 的观测值， $F$ 为每个观测值的维度。交通流量预测的目标是预测未来的观测值 $X_t (t > T)$ 。

3.1 联合时空图编码器

编码器由两个组件组成。首先构建异构图进行先验消息传递，然后推断亲和图和惩罚图以进行后验消息传递。

3.1.1 异构图生成器

为了学习复合的时空关系，我们提出了一种异构图，该图将时间和空间视角的观测连接起来。

具体来说，我们在每个异构图 $G_{[t-r+1:t]}^H$ 中考虑了 $r$ 个时间步，该图包含 $\times N$ 个观测值 $\{v_i^t\}_{t \in [t-r+1:t], v_i \in \mathcal{V}}$ 。两个观测值通过空间边连接，即 $w_{v_i^t, v_j^t} = A_{ij}$ 在每个时间步长，而连续的观测值也通过时间边连接，即 $w_{v_i^t, v_i^{t+1}} = 1$ 。

3.1.2 先验消息传递

接下来，我们引入先验消息传递以捕捉交通数据中的复合相关性。具体来说，我们利用消息传递机制，通过从其邻域中聚合信息来更新每个表示。形式上，第 $k$ 层中节点 $v_i^t$ 的表示 $h_i^{t,(k)}$ 可以表示为：
在这里插入图片描述

其中， $\mathcal{N}(v_i^t)$ 表示节点 $v_i^t$ 的邻居， $\mathcal{A}_\theta^{(k)}$ 和 $\mathcal{C}_\theta^{(k)}$ 分别表示第 $k$ 层参数化的聚合和组合操作。节点 $v_i$ 在时间步 $t$ 和第 $K$ 层中的最终嵌入表示为 $h_i^t = h_i^{t,(K)}$ 。

3.1.3 亲和图和惩罚图生成器

然而，先前的消息传递仅考虑了节点对之间的亲和性，通常对不同的节点赋予零权重以表征不相似性。然而，直观上考虑节点之间的不相似性是有益的，因为它可以表示节点之间的互补关系，对交通条件建模具有重要意义。为了说明这一点，考虑一个交通网络，其中不同的节点，例如一条主要公路和一条狭窄的小巷，或一个繁忙的城市交叉口和一条安静的郊区街道，可能表现出截然不同的交通模式。捕捉这种不相似性可以为准确预测交通条件提供有价值的见解。不幸的是，对于每个节点，其不相似的节点通常不参与消息传递，这可能导致信息丢失和性能下降。为了解决这个问题，我们同时提供语义亲和图和语义惩罚图，以对交通网络中的多样关系进行建模。

具体来说，我们首先使用余弦相似性计算节点对之间的相关分数。形式上，给定在道路网络上的邻域聚合后的嵌入 $h_i^t$ ，我们有：

在这里插入图片描述

其中 $w$ 是一个可学习向量，用于决定不同维度的重要性， $\odot$ 是Hadamard积。 $\phi(\cdot, \cdot)$ 计算两个向量之间的余弦相似性。注意相关分数可以是正的或负的。在此基础上，我们在 $t$ 时步构建语义亲和图 $W_{ij}^t$ 和语义惩罚图 $P_{ij}^t$ 。形式上，

在这里插入图片描述

同样，我们通过聚合时间跨度 $[t - r + 1, t]$ 之间的观察，构建两个图的异构版本。公式如下：
在这里插入图片描述

注意，亲和图和惩罚图在处理图构建中的噪声以确保稳健性方面也起到了关键作用。

(i) 亲和图 $W_{ij}^t$ ：这些图基于余弦相似性分数捕捉节点对之间的正相关。具有相似交通模式的节点通过非零权重连接，强调其正关系。这有助于在图中保留有意义的连接。

(ii) 惩罚图 $P_{ij}^t$ ：这些图侧重于节点对之间的负相关。具有不同交通模式的节点通过非零权重连接，表示其不相似性。这对于显式考虑对比关系和防止由于不同节点导致的信息丢失是必不可少的。

通过在模型中结合这两种类型的图，系统解决了传统消息传递中经常忽略不相似性的问题。这种显式建模正负关系的方法增强了图表示对噪声的稳健性，确保模型能够有效捕捉交通网络的多样动态。这使得通过同时考虑节点之间的互补和对比关系，能够实现更准确和更有弹性的交通条件预测。

3.1.4 后验消息传递

直观上，亲和图中连接的节点表示应当靠近，而惩罚图中连接的节点表示应当远离。为此，我们提出了一个相关学习优化目标，作为辅助损失函数，具体如下：
在这里插入图片描述

其中， $\{u_i^{t'}\}_{t' \in [t-r+1,t],i \in \mathcal{V}}$ 表示需要优化的节点表示， $\gamma$ 是嵌入空间中的距离度量， $\beta$ 是平衡不同损失贡献的超参数（在我们的实验中默认值为1）。第一个项最小化亲和图中连接的节点之间的距离，而第二个项对惩罚图中连接的节点起到相反的作用。最后一个项旨在减少节点表示的方差，以保证模型的稳定性。为了便于优化， $\gamma(\cdot,\cdot)$ 设置为 $l_2$ -范数。这里，公式 (7) 有一个封闭解，通过计算偏导数，可以得出归一化的最优节点表示 $u_i^{t'*}$ ，具体如下：
在这里插入图片描述

通过后验消息传递，我们在节点表示中结合了相似性和相异性，从而实现了有效的交通预测。最后，对于每个节点，将最优节点表示连接成一个张量： $U_i = [u_i^1, \cdots, u_i^T] \in \mathbb{R}^{T \times d},$ 其中 $d$ 是节点表示的嵌入维度。

3.2 联合自注意解码器

实际上，交通网络中的不同位置可能表现出多样的转移属性。例如，一些位置可能表现出每日或每月例行模式。为了描述交通网络中的这些多样模式，我们提供了一种新颖的联合自注意解码器，它充分地从多阶和多尺度视角探索长期相关性。

3.2.1 多阶自注意分支

近年来，Transformer被广泛用于深度学习中探索大规模数据。受此启发，我们提出利用自注意机制识别交通数据中的长期时间关系。为了减少参数并避免过拟合，我们寻求使用低维查询向量和值向量进行低阶注意矩阵。此外，由于不同的阶层可能探索不同的特征（如方差），我们的自注意分支涉及多个阶层以生成多个序列嵌入。

具体来说，我们以一个给定的阶层 $\mu$ 为例。在这一部分，我们忽略 $U_i$ 的下标，因为不考虑空间相关性。在这个分支中，对于每个节点，表示 $u_i$ 被转换为一个查询向量和一个键向量，并采用它们的点积来度量当前时间步语义的重要性。为了压缩嵌入矩阵，我们引入两个低维左变换矩阵 $\tilde{K}^\mu$ 和 $\tilde{V}^\mu$ ，它们的维度为 $\mathbb{R}^{(T/r) \times T}$ ，其中 $r$ 是头的数量。按照Transformer的范式，定义三个额外的右变换矩阵 $Q^\mu$ 、 $K^\mu$ 和 $V^\mu$ ，其维度为 $\mathbb{R}^{d \times d}$ ，用于生成查询、键和值矩阵。公式如下：
在这里插入图片描述

其中 $\Gamma^\mu = [\gamma_i^\mu, \ldots, \gamma_i^T] \in \mathbb{R}^{T \times d}$ 。最后，我们总结所有时间步的嵌入，生成特定于阶层的序列嵌入 $\gamma^\mu \in \mathbb{R}^d$ ，并采用均值池化。同样，对于不同的阶层，我们可以获得各种特定于阶层的序列嵌入。在我们的实现中，我们选择了三个阶层 $\mu_1$ 、 $\mu_2$ 和 $\mu_3$ ，它们分别生成三个序列嵌入，即 $\gamma^{\mu_1}$ 、 $\gamma^{\mu_2}$ 和 $\gamma^{\mu_3}$ 。

3.2.2 多尺度自注意分支

此外，考虑到不同位置潜在的周期性模式，我们提出了一个多尺度自注意力分支。该分支涉及在不同尺度上对表示序列进行池化，然后利用自注意力机制有效融合这些子序列嵌入。

类似地，对于每个窗口大小 $\epsilon$ 和每个节点，我们可以通过以下公式获得子序列嵌入： $\delta^k = Pool(u^{k\epsilon - \epsilon + 1}, \cdots, u^{k\epsilon})$ ,随后，叠加的矩阵 $\Delta^\epsilon = [\delta^1, \cdots, \delta^{T / \epsilon}] \in \mathbb{R}^{T / \epsilon \times d}$ 被输入到自注意力模块中，该模块将其聚合成一个尺度感知的序列嵌入。这里， $Q^\epsilon, K^\epsilon$ 和 $V^\epsilon \in \mathbb{R}^{d \times d}$ 表示查询、键和值的转换矩阵。然后，我们使用点积计算权重，以量化每个子序列的重要性，并结合这些子序列表示以获得全局表示。公式如下：
在这里插入图片描述

同样地，通过沿时间维度的均值池化操作，我们可以生成最终的全局表示 $\gamma^\epsilon$ 。再次选择三个窗口大小，即 $\epsilon_1, \epsilon_2$ 和 $\epsilon_3$ ，生成来自不同视图的三个嵌入 $\gamma^{\epsilon_1}, \gamma^{\epsilon_2}$ 和 $\gamma^{\epsilon_3}$ 。

最后，我们引入可学习参数来聚合这些学到的嵌入。特别是，利用 $\{w^{\mu^j}\}_{j=1}^3$ 和 $\{w^{\epsilon^j}\}_{j=1}^3$ ，我们可以生成最终嵌入 $g$ ：
在这里插入图片描述

该嵌入 $g$ 将与最后一步的状态 $u^T$ 结合，使用多层感知机（MLP）生成预测值：
在这里插入图片描述

其中 $\hat{Y}$ 是预测值， $∣∣$ 表示连接操作。我们通过最小化标准平均绝对误差（MAE）损失优化整个框架，公式如下：
在这里插入图片描述

整个算法在算法1中进行了总结。

输入：路网的交通图 $\mathcal{G}$ ，过去时间步长 $X$ 的交通信号；

输出：未来时间步长的交通信号预测；

通过异构图生成器（在3.1节）构建异构图；
重复
3. 通过公式（1）计算每个节点的前置表示 $h_i^t$ ；
4. 通过公式（3）和（4）构建亲和图和惩罚图；
5. 通过公式（8）计算每个节点的后置表示 $u_i^t$ ；
6. 通过公式（11）计算全局嵌入 $g$ ；
7. 输出最终预测结果并通过公式（13）计算MAE损失；
8. 反向传播并通过梯度下降更新参数；
直到收敛。

4 实验

4.1 实验设置

数据集和指标：为了全面评估我们提出的COOL模型的性能，我们在四个真实世界的交通数据集（PEMS-BAY、PEMS08、METR-LA和PEMS07）上进行实验，并在表1中总结了这些数据集的统计信息。

对于每个数据集，我们利用60分钟的历史数据来预测接下来60分钟的交通状况。为了评估预测的准确性，我们采用了三个常见指标：平均绝对误差（MAE）、平均绝对百分比误差（MAPE）和均方根误差（RMSE），考虑了预测的3、6和12个时间步长，全面评估了COOL在不同数据集和预测期间的预测能力。

基线模型：为了全面评估我们提出的COOL模型的性能，我们将其与一组基线模型进行了对比，这些基线模型包括传统方法和最先进的神经网络方法。传统方法包括：

HA（历史平均）：HA是一种基线预测方法，利用过去数据的平均值作为简单的预测策略。
VAR（向量自回归）：VAR是一种时间序列模型，将自回归扩展到多个变量，捕捉变量之间的相互依赖性。
SVR（支持向量回归）：SVR采用线性支持向量机进行回归，适用于经典的时间序列分析领域。

神经网络方法包括：

DCRNN：DCRNN将交通流建模为有向图上的扩散过程，利用图上的双向随机游走和编码-解码架构，通过调度采样捕捉时空依赖性。
STGCN：STGCN采用完全卷积结构，结合图卷积层和卷积序列学习层，建模空间和时间依赖性。
ASTGCN：ASTGCN采用时空注意力机制，捕捉交通流中的时空相关性，利用图卷积和标准卷积挖掘静态时空特征。
STSGCN：STSGCN设计了时空同步建模机制和多种不同时间段的模块，捕捉局部相关性和异质性。
MTGNN：MTGNN提出了一种新的混合跳跃传播层和扩张的Inception层，捕捉时空依赖性，具有自动提取单向关系的功能。
GMAN：GMAN在编码-解码架构中结合了多个时空注意力块，建模时空因素的影响。
DGCRN：DGCRN利用过滤的节点嵌入生成动态图，并与预定义的静态图结合，共同促进拓扑建模。
DSTGCN：DSTGCN通过相似度学习提取复杂的时空关系，利用卷积模块和注意力机制动态提取时空依赖性。
PDFormer：PDFormer提出了空间自注意模块和交通延迟感知特征转换模块，分别建模动态时空依赖性和空间信息传播的时间延迟。
STAEFormer：STAEFormer设计了时空自适应嵌入，捕捉复杂的时空交通模式，解决性能下降问题。

实现细节：我们提出的COOL模型在NVIDIA RTX GPU上进行了优化，利用其并行处理能力加速训练和推理任务。对于我们的模型，我们将编码器的嵌入维度 $d$ 设置为64。编码器包括六个前置消息传递层，使模型能够高效地处理和传播图结构上的信息。对于解码器，我们仔细调整了两个关键组件：秩（ $\mu_1, \mu_2, \mu_3$ ）和窗口大小（ $\epsilon_1, \epsilon_2, \epsilon_3$ ）。具体来说，我们选择了值为 [3, 4, 6] 的秩和窗口大小。该配置被发现是最佳的，并在不同数据集和预测水平上展示了稳健的性能。在解码器的末端，我们采用了两层全连接神经网络，将学习到的表示转换为最终预测。为了优化整个框架，我们利用了Adam优化器，这是一种广泛使用的优化算法，在训练过程中适应学习率。模型训练了100个周期以确保收敛，学习率为0.001，批次大小为32，所有参数均经过精心选择以平衡训练效率和模型性能。

4.2 COOL的性能

在我们的实验中，我们遵循之前工作的标准数据集划分协议。为了确保稳健的评估，我们对每个数据集采用了以下数据划分策略：

对于PEMS-BAY和METR-LA数据集，我们分配了70%的数据用于训练，10%用于验证，其余20%用于测试。对于PEMS08数据集，我们采用了稍微不同的划分策略，60%的数据用于训练，20%用于验证，最后20%用于测试。我们的实验结果与一系列不同基线进行对比，如表2所示。

我们还在表3中提供了PEMS07数据集的更详细结果，其中展示了12个预测时长的结果。

从这些结果中，我们有以下三个观察：

一般来说，传统方法在与最先进的神经网络方法相比时表现出较差的性能。这种性能差距可以归因于传统方法主要考虑时间相关性，而忽略了数据中的关键空间依赖性。
我们提出的COOL在大多数设置和数据集中表现出最佳性能，突显了我们新框架的有效性。请注意，基于transformer机制的PDFormer和STAEformer在PEMS08数据集的3和6个预测时长上表现出略微优越的性能。这可能归因于时空transformer在中到长期间隔内有效捕捉依赖性的能力。然而，随着时间跨度增加（预测时长为12），我们的方法在长期预测中的优越性变得更加明显。这一显著成功主要归因于两个关键因素。首先，我们提出的COOL利用联合时空图编码器，促进了高阶关系的探索，使其能够捕捉交通流数据中的复杂依赖性。其次，我们的模型结合了多秩和多尺度自注意力分支，使其能够有效捕捉各种序列趋势。
为了展示我们提出的COOL在不同时间跨度上的优越性，我们在PEMS07数据集上将其与最先进的基线（如PDFormer和STAEformer）进行比较。我们使用MAPE作为不同时间跨度（从预测时长1到12）的指标进行性能评估。结果显示，如表3所示，我们的模型在所有不同时间跨度上始终优于竞争方法。这清楚地突显了我们提出的模型在探索时空依赖性方面的卓越能力。
值得注意的是，我们的模型在PEMS-BAY和PEMS07数据集上表现出最显著的改进，这些数据集是我们考虑的最大和最具挑战性的数据集之一。这强调了我们的模型在大规模交通预测任务中面临的可扩展性和稳健性。

4.3 消融研究

在本小节中，我们进行了全面的消融研究，以评估我们提出的COOL框架中各个组成部分的有效性。我们的评估在PEMS08和METR-LA数据集上进行。为了进行这些消融实验，我们系统地移除个别组件，包括先前的图卷积、后续的图卷积、多秩自注意力和多尺度自注意力。随后，我们评估了移除这些组件后的模型性能。

这些消融实验的结果详细报告在表4中。

从结果可以看出，移除任何单一组件都会不可避免地导致显著的性能下降。这些有力的证据突显了我们框架中每个模块的关键有效性。值得注意的是，单独移除先前图卷积或后续图卷积不会显著影响结果。这表明这两个图卷积组件之间存在一定的互补性，进一步说明了COOL模型的内在稳健性。

4.4 超参数分析

在这一部分，我们研究了模型超参数的敏感性，特别关注多秩和多尺度自注意力机制中使用的不同秩和窗口大小。我们的研究结果在图3中详细呈现：

图3：Hyperparameter study of the proposed COOL on PEMS08 and METR-LA.

我们区分了在PEMS08数据集上（图a和b所示）和在METR-LA数据集上（图c和d所示）进行的实验。图a和c深入探讨了在多秩自注意力背景下超参数 $\mu_1, \mu_2, \mu_3$ 的影响，而图b和d则分析了多尺度自注意力中 $\epsilon_1, \epsilon_2, \epsilon_3$ 的影响。总体而言，我们提出的COOL在这些超参数的变化中表现出稳健性。然而，值得注意的是，窗口大小 [3, 4, 6] 的组合在多秩和多尺度自注意力分支中始终表现出略优的性能。这种现象可能是由于中等大小的窗口具有增强捕捉交通状况微妙变化的能力，而不是较大的窗口大小。

4.5 效率分析

为了评估我们模型相对于最先进基线模型的性能效率，特别是与PDFormer和STAEformer在参数数量、每个epoch的训练时间和测试时间方面进行比较。

结果清楚地表明，我们的COOL模型具有显著较少的参数数量，表明在模型大小方面的更高效率。此外，COOL的训练时间与基线模型相当，展示了其在学习中的效率。而且，我们的COOL在测试时间上比两个基线模型都要短，突显了其在推理速度和操作效率方面的优越性能。这表明COOL在平衡模型复杂性和计算效率方面的有效性，使其在需要快速预测的应用中具有高度竞争力。

4.6 预测结果的可视化

在这一部分中，我们提供预测结果的可视化。图4展示了6月13日至15日传感器No.19和No.194的预测结果和真实值。

除了一些噪声（可能由突发事故或传感器故障引起）外，提出的COOL模型以令人印象深刻的准确性预测了交通状况。
在传感器No.19中，模式是规律的：每晚由于拥堵交通速度下降。模型轻松捕捉到这一模式并提供了良好的预测。
在传感器No.194中，交通状况更加多样和复杂：下午交通速度显著下降，但拥堵的开始时间和持续时间在这三天中非常不同。第一天，这种下午的拥堵出现得较晚且很快结束，而在最后一天则出现得较早且持续时间更长。

通过处理这些多样的交通状况，我们提出的COOL模型在这种复杂情况下成功预测了交通速度，并验证了我们方法的优越性。

4.7 学习到的注意力的可视化

在本小节中，我们提供学习到的注意力的可视化。更具体地说，我们可视化了COOL模型的多尺度自注意力的注意力得分。实验在METR-LA数据集上进行，多尺度的学习注意力通过热图展示。实验结果显示在图5中。

从结果可以看出，不同尺度的注意力表现出不同的模式，这表明提出的注意力模块能够在不同的尺度上捕捉有意义的信息。

例如，在图5（a）中，我们使用窗口大小为4，注意力均匀地分布在输入内。相比之下，当窗口大小设置为3时（如图5（b）所示），第一个窗口捕捉到的有意义的信息受到了其他输入的关注。这表明在不同尺度上排列时间输入并学习随后关注的输出是一种从不同角度查看数据的方法，更可能在特定尺度上捕捉到重要信息。

4.8 案例研究case study

本节提供了一个案例研究，以展示模型捕捉时空依赖关系和多样过渡的能力，结果如图6所示。

图的左侧展示了亲和图矩阵，图的右侧展示了两个传感器（即传感器9和传感器10）的交通流量数据。

从亲和矩阵的可视化中可以看出，传感器9和传感器10（由矩阵第10行和第9列指示）具有很高的亲和分数，这表明它们在交通流特征方面高度相关。
图的右侧展示了这一点，其中传感器9和传感器10的交通流量显示出相似的模式，并且传感器9的交通流量数据滞后于传感器10的数据一步。这表明我们的模型能够捕捉交通流量数据中的空间和时间相关性。

4.9 潜在的局限性和缺点

对先验信息的有限探索：虽然COOL将先验信息引入异构图中，但从这些信息中捕捉高阶时空关系的有效性可能有限。模型的性能可能对引入的先验知识的质量和相关性敏感，并且需要进一步探讨不同类型的先验信息对预测准确性的影响。
对构建的亲和图和惩罚图的依赖：依赖构建的亲和图和惩罚图来建模动态关系增加了额外的复杂性。COOL的性能可能会受到这些图构建准确性的影响，并且需要研究在数据质量或构建过程中的噪声变化下方法的稳健性。
对新交通情景的适应性：提出的COOL在捕捉多样过渡模式方面的有效性已在基准数据集中得到验证。然而，其对新交通情景的适应性，例如在快速变化的城市环境中出现的新兴交通模式，仍是一个开放性问题，需要进一步研究。

5 结论

本文研究了交通流预测并提出了一种名为COOL的新方法来解决该问题。我们提出的COOL从先验和后验信息中联合探索高阶时空关系。

特别地，我们不仅将道路网络扩展到用于先验消息传递的异构图，还使用亲和图和惩罚图来建模动态关系进行后验消息传递。此外，我们开发了一个联合自注意力解码器来捕捉交通数据中的多样时间属性。三个交通数据集的实验结果证明了我们提出的COOL模型的优越性，优于最先进的基线方法。

未来，我们计划通过整合额外的数据源（如实时天气和事件数据）来扩展我们的基于GNN的交通预测模型，以进一步提高预测准确性。此外，我们旨在探索强化学习技术的整合，以优化交通信号控制并减少拥堵。此外，研究我们模型在更大城市网络中的可扩展性以及在各种交通条件下的稳健性是未来研究的重要方向。最后，我们将继续探索新方法，以提高模型预测的解释性和可视化，从而增强其在城市交通管理中的实际应用价值。