【论文翻译】ICDE2023 | Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting

ICDE2023 |Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting
image-20240718204538818

题目Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting
交通流量预测的动态超图结构学习
作者共一:赵禹昇(22级硕士)、罗霄(UCLA博士后)
琚玮、陈冲、华先胜、张铭(通讯作者)
机构PKU、UCLA
期刊2023 ICDE —— CCF A
论文链接Dynamic Hypergraph Structure Learning for Traffic Flow Forecasting
关键词动态超图,超图结构学习,交通流量预测

摘要

这篇论文研究了交通流量预测问题,旨在根据道路网络和过去的交通状况预测未来的交通状况。通常通过建模复杂的时空关系来解决这个问题,使用时空图神经网络(GNNs)。然而,这些方法的性能仍然不尽如人意,因为GNNs在处理复杂的交通网络时通常具有有限的表示能力。图结构本质上难以捕捉非成对的关系。更糟的是,现有的方法遵循信息传递的范式,线性地聚合邻居信息,无法捕捉复杂的时空高阶交互

  • 为了解决这些问题,本文提出了一种名为**动态超图结构学习(DyHSL)**的新模型用于交通流预测。
  • 为了学习非成对关系,DyHSL提取超图结构信息以建模交通网络中的动态关系,并通过聚合来自其相关超边的消息来更新每个节点的表示。
  • 此外,为了捕捉道路网络中的高阶时空关系,我们引入了一个交互图卷积模块,该模块进一步建模每个节点的邻域交互。
  • 最后,我们将这两种视角整合到一个整体的多尺度相关性提取模块中,通过不同尺度的时间池化来建模不同的时间模式。

对四个流行的交通基准数据集的广泛实验表明,与多种竞争基线相比,我们提出的DyHSL模型具有显著的效果。

1 引言

1.1 背景及相关研究

时空预测一直是一个基本的课题,涵盖了包括交通流量预测、物理规律分析、疾病传播理解在内的一系列应用。在各种相关的实际问题中,交通流量预测旨在根据道路网络和过去的交通状况预测未来的交通状况。这个问题在城市系统中起着重要作用,可以显著改善拥堵管理。

在文献中,已经开发出一系列交通流量预测方法,这些方法大致可以分为基于物理的方法和基于学习的方法。通常,基于物理的方法利用耦合微分方程来表征交通系统。在理论保证的前提下,这些方法通常在模拟数据中表现优异。然而,它们通常依赖于强模型假设,而这些假设在现实复杂情况中难以满足。相比之下,基于学习的方法试图利用历史观测数据来优化机器学习模型,这在各种解决方案中非常流行。

早期的努力尝试将传统模型如自回归综合滑动平均(ARIMA)和支持向量机(SVM)应用于这一问题。最近,基于深度学习的方法由于深度神经网络的表示能力而取得了更好的性能。一方面,这些方法通常利用图神经网络(GNNs)从道路网络中提取结构化的空间关系。另一方面,它们利用循环神经网络(RNNs)或时间卷积网络(TCNs)来提取时间关系。通过将不同的网络整合到时空图神经网络(STGNNs)中,它们可以提供准确的交通预测。

1.2 现有方法的不足

然而,现有的交通流量预测方法存在两个显著的缺点,导致性能不佳。首先,无法捕捉动态的非成对关系。现有方法通常利用图来表征动态交通系统中的关系,这些图只能捕捉成对关系。然而,系统中可能存在大量的非成对结构关系。如图1所示,一场车祸可能影响动态交通网络中的多个位置,模型需要捕捉这种动态的非成对影响。类似地,住宅区或商业区周围的位置可能共享相似的交通状况,当涉及多个节点共享相似属性时,成对关系建模效率低下。因此,关系描述的能力不足限制了时空GNNs的性能。其次,无法充分探索高阶关系。当前的方法通常利用GNNs在每个时间步长上提取空间特征,并使用RNNs或TCNs聚合每个时间步长的特征。这些方法通常遵循消息传递的范式,线性地聚合邻居信息。实际上,真实的交通数据非常复杂,每个观测的邻域中可能存在大量高阶信息。无法建模高阶时空相关性,阻碍了模型进行准确交通预测的能力。

image-20240718212813349

1.3 提出方法

为了克服上述缺点,我们提出了一种名为动态超图结构学习(DyHSL)的新方法用于交通流预测。

  • 首先,我们将先前的道路信息扩展到包含空间和时间边的时间图中,便于使用图卷积探索时空相关性。
  • 为了建模动态的非成对关系,我们提出了一个动态超图结构学习(DHSL)模块,在时空网络中的观测之间构建超图。
  • 为了减少模型参数,超图的关联矩阵从每个时间戳的节点状态表示中推导出来。
  • 然后,我们提出了超图卷积范式,通过从相关的超边中获取信息来更新节点表示,从而捕捉交通网络中的更复杂关系。
  • 此外,为了探索道路网络中的高阶时空关系,我们引入了一个交互图卷积(IGC)模块,利用组合和聚合算子探索邻域交互。
  • 然后,将邻域嵌入与线性聚合的邻域嵌入相结合,更新节点表示。
  • 最后,我们将这两个模块整合到一个多尺度整体相关性提取(MHCE)模块中,该模块首先使用不同粒度的时间池化来建模不同的时间模式。
  • 然后,数据被并行地输入到两个模块,即DHSL模块和IGC模块中,并聚合其输出以迭代地更新状态表示。

1.4 主要贡献

对三个流行交通数据集的广泛实验表明,我们提出的DyHSL在不同设置下能够取得优越的性能。总之,本文的贡献有三点:

  • 我们提出了一种新模型DyHSL用于交通流预测,通过超图结构学习建模动态非成对关系,并通过超图卷积捕捉交通网络中的复杂关系。
  • 为了探索道路网络中的高阶时空关系,DyHSL引入了一个交互图卷积模块,在该模块中,邻域中的节点嵌入以非线性方式聚合。
  • 在四个著名的数据集上进行了综合实验,结果表明,DyHSL在各种竞争基线中表现优异。

2 相关工作

A. 图神经网络

图神经网络(GNNs)作为一种有效的工具,将深度神经网络扩展到处理结构化数据,已被广泛应用于各种任务,包括图分类、节点分类和链路预测。

现有的GNN方法通常遵循迭代消息传递范式,通过递归地将图转化为低维嵌入空间,以捕捉结构信息和节点属性。

最近,提出了多种GNN变体,以更好地提取结构化数据中的空间关系。

  • Bilinear GNN试图在消息传递过程中建模相邻节点之间的交互,以增强其表示能力。
  • SimP-GCN通过充分探索图结构来保持节点相似性。
  • HGCN使用图胶囊来获取层次语义。

我们提出的DyHSL与HGCN在三个方面有所不同:

  1. DyHSL专注于动态图学习,而HGCN处理静态图。
  2. HGCN通过底层异构因素构建解耦的图胶囊。相比之下,我们的DyHSL通过低秩矩阵分解学习时间超图,既高效又能够同时捕捉复杂的空间和时间关系,从而有效地进行交通流量预测。
  3. 我们的方法利用超图来建模复杂的高阶交通关系,而HGCN利用图胶囊来获取层次语义。

B. 超图神经网络

作为图的推广形式,超图由节点和超边组成。与图结构数据不同,超图可以描述非成对的连接,因为每个超边可以连接多个节点。由于在各种应用中出现了大量复杂的结构化数据,如推荐系统、链路预测和社区检测,超图学习最近引起了更多关注。由于超图是图的推广形式,这些方法通常是图神经网络的扩展。

早期工作利用p-拉普拉斯算子,将图上的谱方法扩展到超图。超图神经网络(HGNN)是第一个基于空间的方法,通过研究高阶结构信息发现潜在的节点表示。然而,大多数这些工作集中于静态超图。最近的努力已经开始从动态超图中学习来解决这一问题。动态超图神经网络(DHGNN)是第一个处理超边发展的尝试,构建动态超图并迭代执行超图卷积。

与DHGNN使用kNN和K-Means算法聚类节点特征来构建超图相比,我们的DyHSL通过低秩矩阵分解显式地学习超图结构,这更加高效且有效。动态超图卷积网络(DyHCN)在动态超图中使用注意力机制研究高阶相关性。然而,当前研究通常集中于从超图中学习,而我们的模型通过超图结构学习来揭示交通网络中动态复杂的相关性。

C. 交通流量预测

近年来,交通流量预测受到了广泛关注,提出了许多时空预测方法来解决这个问题。解决这个问题的大部分方案基于机器学习算法,这些算法根据从众多传感器收集的时空数据预测未来的交通状况。传统方法包括k-近邻算法(kNN)、自回归综合滑动平均(ARIMA)和支持向量机(SVM),它们通常无法充分建模空间关系。随着深度神经网络的发展,基于深度学习的方法成为主流解决方案。这些方法的本质是使用深度神经网络建模交通数据中的时空相关性。在各种神经网络架构中,图神经网络(GNNs)非常适合从道路网络中提取结构化的空间关系,而序列神经网络可以轻松提取时间关系。

最近,提出了各种时空GNN方法,捕捉复杂的时空关系,以有效的交通预测。例如,

  • STSGCN构建了一个时空图,并在其上执行局部化图卷积。
    • 相比于STSGCN专注于捕捉成对和局部化的时空依赖性,提出的DyHSL学习交通数据下的超图结构,有助于模型捕捉长程和非成对关系。
  • ASTGCN将注意力机制引入时空图。
    • 然而,这导致了二次复杂度,而提出的DyHSL在图和观测长度上都实现了线性复杂度。
  • LRGCN也被提出用于更高效地编码时空图。
    • 然而,它倾向于在空间和时间上捕捉局部和成对关系。与LRGCN相比,提出的DyHSL可以通过动态超图结构学习捕捉多个节点之间的长依赖关系。

超图也被用于时空预测。然而,大多数现有工作(例如HGC-RNN和DSTHGCN)需要预定义的超图作为输入,而我们的DyHSL学习时空数据下的结构。更详细的这些时空GNN方法的描述可以在第五章A3节中找到。

3 预备知识

A. 问题定义

在交通流预测问题中,我们提供了一个道路网络和历史交通数据。道路网络被表示为一个加权图 G = ( V , E , A ) G = (V, E, A) G=(V,E,A),其中 V V V 表示道路网络中不同位置的一组 N N N 个节点, E E E 表示一组边,可以在权重邻接矩阵 A ∈ R N × N A \in \mathbb{R}^{N \times N} ARN×N 中总结。我们将历史交通观测数据表示为图信号张量 X = [ X 1 , X 2 , ⋯   , X T ] ∈ R T × N × F X = [X_1, X_2, \cdots, X_T] \in \mathbb{R}^{T \times N \times F} X=[X1,X2,,XT]RT×N×F,其中 T T T 表示观测长度, F F F 表示节点属性的维度。我们的目标是学习一个函数,将历史的 T T T 个观测值映射到预测未来 T ′ T' T 步的交通状况。在公式(1)中,
[ X t 0 − T + 1 , ⋯   , X t 0 ; G ] → [ X ^ t 0 + 1 , X ^ t 0 + 2 , ⋯   , X ^ t 0 + T ′ ] . [X_{t^0-T+1}, \cdots, X_{t^0}; G] \rightarrow \left[ \hat{X}_{t^0+1}, \hat{X}_{t^0+2}, \cdots, \hat{X}_{t^0+T'} \right]. [Xt0T+1,,Xt0;G][X^t0+1,X^t0+2,,X^t0+T].
此外,为了清楚起见,本文中使用的符号如下表所示:

符号描述
G = ( V , E , A ) G = (V, E, A) G=(V,E,A)
T T T观测的长度
X X X图信号张量
G = ( V , E ) G = (V, E) G=(V,E)超图
Λ \Lambda Λ关联矩阵
G H G_H GH时间图
h i ( t , l ) h_i^{(t, l)} hi(t,l)先前图卷积中的状态表示
A ^ \hat{A} A^时间图的邻接矩阵
A ˉ \bar{A} Aˉ时间图的归一化邻接矩阵
F F F第一个模块中的节点嵌入矩阵
R R R第二个模块中的节点嵌入矩阵
Δ ϵ l \Delta \epsilon^l Δϵl整体状态表示矩阵
γ i \gamma_i γi最终的全局嵌入

B. 超图

一个超图可以表示为 G = ( V , E ) G = (V, E) G=(V,E),其中 V V V 表示节点集, E E E 表示超边集。与图不同,超图允许多个节点与一个超边相连。同样,一个节点可以与多个超边相关联。因此,我们使用关联矩阵 Λ ∈ R ∣ V ∣ × ∣ E ∣ \Lambda \in \mathbb{R}^{|V| \times |E|} ΛRV×E 来表示超图的结构。形式上,对于 v ∈ V v \in V vV e ∈ E e \in E eE,我们有公式(2):
Λ ( v , e ) = { 1 , if  v ∈ e , 0 , otherwise . \Lambda(v, e) = \begin{cases} 1, & \text{if } v \in e, \\ 0, & \text{otherwise}. \end{cases} Λ(v,e)={1,0,if ve,otherwise.
我们可以简单地将关联矩阵扩展为加权形式,公式(3)
Λ ( v , e ) = { w ( v , e ) , if  v ∈ e , 0 , otherwise . \Lambda(v, e) = \begin{cases} w(v, e), & \text{if } v \in e, \\ 0, & \text{otherwise}. \end{cases} Λ(v,e)={w(v,e),0,if ve,otherwise.
其中 w ( v , e ) w(v, e) w(v,e) 表示节点 v v v 和超边 e e e 的交互得分。

4 方法

本研究提出了一种名为DyHSL的新模型用于交通流预测。DyHSL首先将道路信息扩展到包含时空边的时序图,然后进行图卷积。为了建模动态的非配对关系,我们引入了动态超图结构学习(DHSL)模块,以构建一个节点为所有时间戳观测值的时序超图。为了减少模型参数,时序超图的关联矩阵由每个节点状态表示的低秩形式推导出。接下来,我们引入超图卷积,通过其关联的超边更新节点表示。此外,我们引入了交互式图卷积(IGC)模块,以探讨道路网络中的高阶时空关系。在这个模块中,通过组合和聚合算子测量邻域交互,以更新节点表示。最后,我们将这两个模块整合到一个整体多尺度相关性提取模块中,该模块首先进行不同尺度的时序局部池化以建模不同的时序模式,然后并行地将数据输入到两个模块中。模型框架如图2所示。

image-20240718224214936

A. 前置图编码器

首先,我们利用前置图编码器来捕捉道路网络的基本时空信息。在我们的编码器中,我们首先基于道路网络构建时序图,然后进行前置图卷积以获取节点状态表示。

时序图构建

以往的方法通常在每个时间步对道路网络(或其他预定义图)进行图卷积操作,以学习空间相关性。然而,它们在图卷积期间无法从其他时间步获取时序信息,无法同时建模时空交互。为了解决这个问题,我们引入了时序图,其中节点是由时间-位置对确定的观测值,通过时序边和空间边连接。这样,时空关系可以在图卷积期间联合建模。

具体而言,T个时间步在时序图GH中共生成了TN个节点 { v t } t ∈ [ 1 : T ] , v ∈ V \{v_t\}_{t\in[1:T],v\in V} {vt}t[1:T],vV。在每个时间步,空间边与原始道路网络中的相同,而当两个观测值是连续的,则存在时序边。公式化地,带有自循环的邻接矩阵 A ^ ∈ R T N × T N \hat{A} \in \mathbb{R}^{TN \times TN} A^RTN×TN被推导如下:公式(4)
A ^ ( v i t , v j t ′ ) = { A i j , t = t ′ , 1 , i = j , t ′ = t + 1  or  t , 0 , otherwise . \hat{A}(v_i^t, v_j^{t'}) = \begin{cases} A_{ij}, & t = t', \\ 1, & i = j, t' = t + 1 \text{ or } t, \\ 0, & \text{otherwise}. \end{cases} A^(vit,vjt)= Aij,1,0,t=t,i=j,t=t+1 or t,otherwise.

前置图卷积

接下来,我们介绍图卷积,它在交通数据中学习联合时空关系。考虑到时序信息已被插入到时序图中,我们在此采用标准图卷积层,遵循消息传递机制。具体而言,对于每个观测值,我们通过聚合前一层所有邻居(包括自身)的状态嵌入向量来更新其表示。公式化地,节点 v t i v_{ti} vti在第l层的状态表示 h i , ( l ) t h_{i,(l)}^t hi,(l)t计算如下:公式(5)
h i , ( l ) t = ϕ ( ∑ v j t ′ ∈ N ( v i t ) A ˉ ( v i t , v j t ′ ) f j , ( l − 1 ) t ′ W ) , h_{i,(l)}^t = \phi \left( \sum_{v_j^{t'} \in \mathcal{N}(v_i^t)} \bar{A}(v_i^t, v_j^{t'}) f_{j,(l-1)}^{t'} W \right), hi,(l)t=ϕ vjtN(vit)Aˉ(vit,vjt)fj,(l1)tW ,
其中, A ˉ ( v t i , v t ′ j ) \bar{A}(v_{ti}, v_{t'j}) Aˉ(vti,vtj)表示归一化的邻接矩阵,满足 ∑ j , t ′ A ˉ ( v t i , v t ′ j ) = 1 \sum_{j,t'} \bar{A}(v_{ti}, v_{t'j}) = 1 j,tAˉ(vti,vtj)=1 ϕ ( ⋅ ) \phi(\cdot) ϕ()是一个非线性激活函数。 A ˉ ( v t i , v t ′ j ) \bar{A}(v_{ti}, v_{t'j}) Aˉ(vti,vtj)是时间t和节点i的邻接矩阵。

通过Lp层前置图卷积后,我们可以获得时间步t处节点i的隐藏状态嵌入 h i t = h i , ( L p ) t h_i^t = h_{i,(Lp)}^t hit=hi,(Lp)t

B. 动态超图结构学习

尽管如此,交通系统受到道路网络和动态交通状况的双重影响。因此,我们需要基于隐藏嵌入来模拟实时交通情况。以往的方法大多基于动态图/超图,存在预定义结构、高计算成本或无法捕捉非成对关系等缺点。为了解决这些问题,我们转向用于复杂关系建模的时间超图,其中每个节点也是给定时间戳的观测。此外,我们明确地以低秩方式学习超图结构。

时间超图结构学习

为了探索交通网络中的动态复杂关系,我们引入可学习的超图结构矩阵,这些矩阵与网络参数一起优化。为了减少参数量和防止过拟合,我们利用矩阵分解来构建一个低秩结构矩阵。

具体来说,时间超图的关联矩阵表示为 Λ ∈ R N T × I \Lambda \in \mathbb{R}^{NT \times I} ΛRNT×I,其中 I I I 是超边的数量。我们将矩阵分解为两个低秩矩阵,使用它们的隐藏状态表示如下:公式(6)

Λ = H W \Lambda = HW Λ=HW

其中, H ∈ R N T × d H \in \mathbb{R}^{NT \times d} HRNT×d 由堆叠所有状态表示得到, W ∈ R d × I W \in \mathbb{R}^{d \times I} WRd×I 是可学习的权重矩阵。通过这种方式,学习关联矩阵只引入了 O ( I × d ) O(I \times d) O(I×d) 的参数 ( d ≪ N T d \ll NT dNT),显著提高了模型效率。

时间超图卷积

然后,我们介绍一种超图卷积范式,用于从时间超图中学习,从而可以从动态交通网络中提取高阶复杂信息。具体来说,在每一层,我们首先通过聚合所有连接节点的信息生成每个超边的嵌入。然后,使用超边嵌入更新节点嵌入,从而在交通网络中进行高阶相关性学习。整个过程如图3所示。

QQ截图20240718220814

在矩阵形式中,超边嵌入矩阵 E ∈ R I × d E \in \mathbb{R}^{I \times d} ERI×d 由状态表示矩阵和关联矩阵推导得出:公式(7)

E = ϕ ( U Λ T H ) + Λ T H . E = \phi(U\Lambda^T H) + \Lambda^T H. E=ϕ(UΛTH)+ΛTH.

其中,我们另外引入了一个可学习的矩阵 U H ∈ R I × I U_H \in \mathbb{R}^{I \times I} UHRI×I 来表征超边之间的隐含关系。然后,这些超边嵌入被聚合生成节点嵌入矩阵:公式(8)

F = Λ E = Λ ( ϕ ( U Λ T H ) + Λ T H ) . F = \Lambda E = \Lambda(\phi(U\Lambda^T H) + \Lambda^T H). F=ΛE=Λ(ϕ(UΛTH)+ΛTH).

通过堆叠 L H L_H LH 层超图卷积层,我们可以在每个时间戳通过学习复杂的非成对相关性更新节点嵌入矩阵, F = B L O C K H ( H ) ∈ R N T × d . F = BLOCK_H(H) \in \mathbb{R}^{NT \times d}. F=BLOCKH(H)RNT×d.

C. 交互图卷积

此外,路网中仍然存在大量的高阶时空相关性,这些相关性无法通过之前的图卷积捕获。因此,我们引入了另一个模块,利用交互邻域聚合来充分建模时空图中的高阶信息,使用组合和聚合操作。在这种方式下,我们可以学习到邻域共现下的信号。

详细来说,我们回顾时间图 G H G^H GH,但进一步建模 N ( v i t ) N(v_i^t) N(vit) v j t ′ v_j^{t'} vjt v j ′ t ′ ′ v_{j'}^{t''} vjt′′ 的交互。形式上,给定每个状态表示 h i t h_i^t hit,其交互表示向量表示如下:公式(9)

π i t = AGG ( { COM ( h j t ′ , h j ′ t ′ ′ ) , ∀ v j t ′ , v j ′ t ′ ′ ∈ N ( v i t ) } ) , \pi_i^t = \text{AGG}(\{\text{COM}(h_j^{t'}, h_{j'}^{t''}), \forall v_j^{t'}, v_{j'}^{t''} \in N(v_i^t)\}), πit=AGG({COM(hjt,hjt′′),vjt,vjt′′N(vit)}),

其中 COM 计算每对节点的耦合表示,AGG 聚合每个中心节点的所有邻域节点对,需要满足置换不变性。在本文中,我们利用独立的投影器,后跟 Hadamard 乘积实现 COM,并利用激活函数后的和池化实现 AGG:公式(10)
π i t = ϕ ( ∑ v j t ′ , v j t ′ ′ ∈ N ( v i t ) A ˉ i t , j t ′ A ˉ i t , j t ′ ′ h j t ′ W 1 ⊙ h j t ′ ′ W 2 ) , \pi_i^t = \phi \left( \sum_{v_j^{t'}, v_j^{t''} \in \mathcal{N}(v_i^t)} \bar{A}_{i_t,j_{t'}} \bar{A}_{i_t,j_{t''}} h_j^{t'} W_1 \odot h_j^{t''} W_2 \right), πit=ϕ vjt,vjt′′N(vit)Aˉit,jtAˉit,jt′′hjtW1hjt′′W2 ,
其中 ⊙ \odot 表示两个向量的 Hadamard 乘积, W 1 W_1 W1 W 2 W_2 W2 表示可学习的权重矩阵。公式 (10) 可以重写为:公式(11)
ϕ ( ∑ v j t ′ ∈ N ( v i t ) A ˉ i t , j t ′ h j t ′ W 1 ⊙ ∑ v j t ′ ∈ N ( v i t ) A ˉ i t , j t ′ h j t ′ W 2 ) \phi \left( \sum_{v_j^{t'} \in \mathcal{N}(v_i^t)} \bar{A}_{i_t,j_{t'}} h_j^{t'} W_1 \odot \sum_{v_j^{t'} \in \mathcal{N}(v_i^t)} \bar{A}_{i_t,j_{t'}} h_j^{t'} W_2 \right) ϕ vjtN(vit)Aˉit,jthjtW1vjtN(vit)Aˉit,jthjtW2
此外,我们还将线性聚合邻域的信息纳入模块中,这也可以提供关于路网的基本信息。因此,更新的时间状态表示 r i t r_i^t rit 表示如下:公式(12)
r i t = π i t + ϕ ( ∑ v j t ′ ∈ N ( v i t ) A ˉ i t , j t ′ h j t ′ W 3 ) r_i^t = \pi_i^t + \phi \left( \sum_{v_j^{t'} \in \mathcal{N}(v_i^t)} \bar{A}_{i_t,j_{t'}} h_j^{t'} W_3 \right) rit=πit+ϕ vjtN(vit)Aˉit,jthjtW3
最后,我们可以推导出更新的状态表示矩阵 R = BLOCK I ( H ) ∈ R N T × d R = \text{BLOCK}_I(H) \in \mathbb{R}^{NT \times d} R=BLOCKI(H)RNT×d,其中矩阵的每一行对应于每个观测值。这个模块的整个过程如图4所示。

image-20240718220757422

D. 多尺度整体相关性提取

在这一部分,我们将前面介绍的两个模块集成到一个整体复杂相关性提取框架中。这两个模块可以互为补充,因为超图结构学习倾向于提取超越成对关系的动态信号,而交互图卷积则倾向于基于路网学习高阶关系。受到交通网络中多样化模式的启发,我们首先在嵌入序列上进行不同窗口大小的局部池化,然后使用这两个模块在不同尺度上提取相关性。

具体来说,在进行先前的图卷积后,我们首先确定几个窗口大小的候选项。以窗口大小 ϵ \epsilon ϵ 为例,我们生成每个节点的一系列子序列嵌入,使用局部最大池化:

{ δ i 1 , … , δ i T / ϵ } , \{\delta_i^1, \ldots, \delta_i^{T/\epsilon}\}, {δi1,,δiT/ϵ},

其中,

δ i k = Pool ( h i k ϵ − ϵ + 1 , … , h i k ϵ ) . \delta_i^k = \text{Pool}(h_i^{k\epsilon - \epsilon + 1}, \ldots, h_i^{k\epsilon}). δik=Pool(hikϵϵ+1,,hikϵ).

然后,我们将连接的子序列嵌入 Δ ϵ ∈ R N T / ϵ × d \Delta^\epsilon \in \mathbb{R}^{NT/\epsilon \times d} ΔϵRNT/ϵ×d 输入到动态超图结构学习模块和交互图卷积模块中。在第一个模块中,我们构建时间超图以进行超图卷积,而在第二个模块中,我们沿子序列构建时间图以进行图间卷积。最后,我们取两者输出的平均值。此外,这一过程以迭代方式进行。公式化表示,我们在第 l l l 层的整体状态表示矩阵 Δ l ϵ ∈ R N T / ϵ × d \Delta_l^\epsilon \in \mathbb{R}^{NT/\epsilon \times d} ΔlϵRNT/ϵ×d 为:公式(13)

Δ l ϵ = 1 2 ( BLOCK H ( Δ l − 1 ϵ ) + BLOCK I ( Δ l − 1 ϵ ) ) , \Delta_l^\epsilon = \frac{1}{2} (\text{BLOCK}_H(\Delta_{l-1}^\epsilon) + \text{BLOCK}_I(\Delta_{l-1}^\epsilon)), Δlϵ=21(BLOCKH(Δl1ϵ)+BLOCKI(Δl1ϵ)),

其中, BLOCK H ( ⋅ ) \text{BLOCK}_H(\cdot) BLOCKH() BLOCK I ( ⋅ ) \text{BLOCK}_I(\cdot) BLOCKI() 分别表示 DHSL 和 IGC 模块。经过 L s L_s Ls 层堆叠后,我们最终得到 Δ L s ϵ \Delta_{L_s}^\epsilon ΔLsϵ。然后我们将矩阵分解为一个张量 Γ ϵ ∈ R N × T / ϵ × d \Gamma^\epsilon \in \mathbb{R}^{N \times T/\epsilon \times d} ΓϵRN×T/ϵ×d,并沿时间维度聚合嵌入矩阵,生成每个节点的序列嵌入 γ i μ ∈ R d \gamma_i^\mu \in \mathbb{R}^d γiμRd。在实践中,采用均值池化进行聚合。考虑到不同尺度可以表征交通数据中不同的内在属性,如流量的变化,我们选择了 J J J 个不同的窗口大小 ϵ 1 , ϵ 2 , … , ϵ J \epsilon_1, \epsilon_2, \ldots, \epsilon_J ϵ1,ϵ2,,ϵJ,分别生成三个粒度感知的序列嵌入 γ i ϵ 1 , γ i ϵ 2 , … , γ i ϵ J \gamma_i^{\epsilon_1}, \gamma_i^{\epsilon_2}, \ldots, \gamma_i^{\epsilon_J} γiϵ1,γiϵ2,,γiϵJ

总之,我们获得全局序列嵌入,然后自适应地决定它们对最终全局嵌入的贡献。具体来说,我们引入 J J J 个可学习参数 { w ϵ j } j = 1 J \{w^{\epsilon_j}\}_{j=1}^J {wϵj}j=1J,最终的全局嵌入表示为:公式(14)

γ i = ∑ j = 1 J exp ⁡ ( w ϵ j ) γ i ϵ j ∑ j = 1 J exp ⁡ ( w ϵ j ) . \gamma_i = \frac{\sum_{j=1}^J \exp(w^{\epsilon_j}) \gamma_i^{\epsilon_j}}{\sum_{j=1}^J \exp(w^{\epsilon_j})}. γi=j=1Jexp(wϵj)j=1Jexp(wϵj)γiϵj.

全局嵌入 γ i \gamma_i γi 然后与最后一个时间步的局部嵌入向量,即 h T h^T hT 连接,形成每个节点的最终输出 y ∈ R T ′ × 1 y \in \mathbb{R}^{T' \times 1} yRT×1,通过一个全连接层。模型使用标准平均绝对误差 (MAE) 损失进行回归优化。整个算法在算法1中总结。

image-20240718220946483

算法1的计算复杂度主要取决于步骤4-5。回顾一下,节点数量和观测长度分别表示为 N N N T T T L s L_s Ls 表示多尺度整体相关性提取中的隐藏层数。 ∥ A ∥ 0 \|A\|_0 A0 表示邻接矩阵中的非零元素数量。 d d d 表示隐藏维度。一方面,我们的动态超图结构学习模块的复杂度约为 O ( N T I L s ) O(NTIL_s) O(NTILs)。另一方面,交互图卷积模块的复杂度约为 O ( L s ∥ A ∥ 0 F T + L s N F 2 T + N T F ) O(L_s \|A\|_0 FT + L_s NF^2 T + NTF) O(LsA0FT+LsNF2T+NTF),这与 ∥ A ∥ 0 \|A\|_0 A0 T T T 都线性相关。这表明计算时间随着交通网络大小 ( ∥ A ∥ 0 \|A\|_0 A0) 和观测长度 ( T T T) 的增加而线性增长。此外,我们的方法采用低秩关联矩阵,这在更少参数的情况下更高效。

5 实验

在本节中,我们进行实验以证明所提出的 DyHSL 的有效性。此外,我们还提供了关于模型性能以及动态超图结构学习作用的全面分析。

A. 实验设置

数据集

在实验中,我们使用了四个广泛采用的、公开可用的数据集:PEMS03、PEMS04、PEMS07 和 PEMS08。这些数据集由加利福尼亚运输局 (CalTrans) 的性能测量系统 (PEMS) 收集。交通数据每 30 秒收集一次,并汇总为 5 分钟的时间步长。我们使用与之前工作一致的标准数据处理和发布方法。

每个数据集的空间图是根据实际的道路网络构建的。在所有实验中,采用的都是标准的空间图,这些空间图也是由之前的工作提供的。表 II 列出了上述数据集的空间图的详细统计数据和时间范围。

image-20240718223738837

评估设置和指标

模型以 60 分钟(12 个时间步长)的历史数据作为输入,并输出下一个 60 分钟(12 个时间步长)的交通流量预测。我们遵循标准的数据集划分,使用 60% 的数据进行训练,20% 的数据进行评估,其余 20% 的数据用于测试模型的性能。为了评估预测误差,我们使用了标准的指标,包括平均绝对误差 (MAE)、均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE)。

基线

我们将提出的 DyHSL 与大量的基线方法进行了比较,这些方法从传统的基于统计的方法到最近的基于神经网络的方法。基线的详细信息如下:

传统的基于统计的方法

  • HA:历史平均使用历史数据的加权平均值作为未来值的预测。
  • ARIMA:自回归积分滑动平均是一种广泛用于时间序列预测的著名统计方法。
  • VAR:向量自回归是另一种传统的时间序列预测方法。
  • SVR:支持向量回归使用支持向量机进行回归。

不使用空间图的神经网络方法

  • FC-LSTM:具有完全连接的隐藏单元的 LSTM 网络,是一种著名的模型,用于捕捉序列依赖性。
  • TCN:时间卷积网络使用一堆膨胀的因果卷积层,具有指数增长的膨胀因子。还展示了无因果卷积的性能。
  • GRU-ED:具有编码器-解码器架构的门控循环单元,也是多步时间序列预测中常用的基线。
  • DSANet:双重自注意力网络是一种强大的多变量时间序列预测方法,利用了 CNN 和自注意力机制。

使用空间图的神经网络方法

  • STGCN:该模型结合了图卷积和时间卷积。
  • DCRNN:扩散卷积循环神经网络使用扩散卷积来替代 GRU 中的全连接层。
  • Graph WaveNet:该方法使用膨胀卷积和扩散图卷积,并提出了自适应邻接矩阵。
  • ASTGCN:该模型结合了空间注意力和时间注意力。表 III 中的 ® 表示仅包含用于公平比较的周期建模的最近组成部分。
  • STG2Seq:该工作采用一个序列到序列框架,具有多个门控图卷积模块和多步预测的注意力机制。
  • DHGNN:该方法使用 kNN 和 K-means 算法学习超图并基于它们进行卷积。我们在交通流量预测中进行了调整。
  • LRGCN:该方法使用 LSTM 和图卷积网络来编码时空图。我们在交通流量预测中也采用了这种方法。
  • LSGCN:该工作使用空间门控块和门控线性单元结合注意力机制和图卷积。
  • STSGCN:该方法同步建模了空间和时间依赖关系,并采用了局部时空子图模块。
  • AGCRN:自适应图卷积循环网络学习节点特定特征和节点之间的隐藏相互依赖关系。
  • HGC-RNN:该方法使用超图卷积结合 RNN。我们在交通流量预测中采用了这种方法。
  • DSTHGCN:该方法使用动态超图处理时空数据。由于它最初是为地铁客流预测提出的,我们在交通流量预测中对其进行了调整。
  • STFGNN:该模型利用空间融合图和生成的时间图。
  • STGODE:该模型采用常微分方程进行交通流量预测。
  • Z-GCNETs:该方法引入了锯齿持久性,可以用于跟踪随时间变化的观测数据中的重要拓扑特征。
  • STG-NCDE:该工作设计了两个神经控制微分方程,分别用于空间和时间处理。
  • DSTAGNN:该模型学习时空图,并使用多头注意力来表示动态空间相关性。

实施细节

所提出的模型使用 PyTorch 实现,并在 NVIDIA RTX GPU 上训练。在先前的图卷积中,我们使用 6 个卷积层(即 L p = 6 L_p = 6 Lp=6)。在动态超图结构学习模块中,我们使用 32 个超边(即 I = 32 I = 32 I=32)。在多尺度整体相关性提取中,我们使用 6 组窗口大小,即 J = 6 J = 6 J=6 ϵ ∈ { 1 , 2 , 3 , 4 , 6 , 12 } \epsilon \in \{1, 2, 3, 4, 6, 12\} ϵ{1,2,3,4,6,12},并且隐藏层的数量设置为 2(即 L s = 2 L_s = 2 Ls=2)。隐藏特征的维度设置为 64(即 d = 64 d = 64 d=64)。关于模型中超参数的更多分析可以在第 V-E 节中找到。为了优化,我们使用 Adam 优化器并训练模型 100 个周期,将学习率设置为 0.001,批次大小为 32。

B. DyHSL的性能

DyHSL与基线的性能比较列在表III中。

image-20240718223826562

根据结果,我们有以下几个观察。

首先,提出的DyHSL在四个数据集上的所有三个指标上都表现出一致的领先优势,这显示了所提出的动态超图结构学习(DHSL)模块、交互图卷积(IGC)模块和多尺度整体相关性提取(MHCE)的优越性。更具体地说,显著的改进可归因于以下三个方面:

  1. 该模型能够学习多个节点之间的复杂动态结构。大多数现有工作(例如DCRNN、STSGCN、DSTAGNN)建模了节点之间的成对依赖关系,而我们的模型还考虑了多个节点之间的相关性。
  2. 提出的IGC模块能够捕捉图中的高阶交互,而许多现有工作在学习相邻节点的交互方面表现不佳。
  3. 多尺度框架适合捕捉具有不同周期性的交通模式,而许多现有算法忽略了这一点。

此外,所提出的模型在PEMS07数据集上实现了更大的改进(即,MAE相对提高8.2%,RMSE相对提高6.5%,MAPE相对提高7.8%),这是四个数据集中最大的。这表明我们的模型能够更有效地处理大规模交通数据。

通常,传统的基于统计的方法(例如ARIMA、SVR)表现不如深度学习算法,因为它们需要平稳性假设(在现实世界中经常被违反)并忽略了空间拓扑。一些深度学习方法(例如FC-LSTM、TCN、GRU-ED)只考虑时间依赖性,从而导致与基于GNN的方法相比表现较弱。最近提出的基于GNN的方法能够捕捉空间和时间关系,导致与以前的方法相比表现更好。在这些方法中,DyHSL取得了最佳性能,这显示了所提出的DHSL模块、IGC模块和MHCE的有效性。

C. 可扩展性研究

表IV列出了DyHSL与一些基线模型相比的参数数量、训练时间和测试时间(以秒为单位)。结果表明,我们的模型在三个模型中参数最少。此外,我们的模型的训练和测试时间与当前最先进的方法相当。与大多数交通流量预测模型一样,所提出的DyHSL的扩展性与图的大小和观测长度成线性关系(如第IV-D节所解释)。总之,所提出的DyHSL在参数数量和训练/测试时间方面也具有竞争力。

image-20240718223852827

D. 消融研究

在本小节中,我们进行了消融研究,以评估每个提出的动态超图结构学习模块、交互图卷积模块和多尺度整体相关性提取的有效性。

动态超图结构学习模块

在表V中,我们通过比较不同结构学习(SL)方法的模型对动态超图结构学习(DHSL)模块进行了消融研究。第1行(DHSL)是使用DHSL的原始模型。第2行是没有结构学习的模型(NSL)。比较第1行和第2行,我们可以看到,所提出的动态超图结构学习模块对于交通预测非常重要,因为删除该模块导致所有指标的显著性能下降。这也表明预定义的道路网络并不完美。可能存在不完整或损坏的数据,更重要的是,超越拓扑邻近性的语义信息丢失。为了解决这个问题,一个简单的方法是从头开始学习邻接矩阵(即使用可学习的邻接矩阵作为参数),如第3行所示(FS)。可以看出,从头开始学习所有节点的邻近性是灾难性的,我们将其归咎于结构学习和数据学习的耦合,导致在没有适当监督的情况下参数过多。相比之下,所提出的“低秩”解决方案和超图结构学习导致更少的参数,并具有更好的监督效果。

image-20240718223912564

交互图卷积模块

表VI列出了关于DyHSL中的交互图卷积(IGC)模块的消融研究结果。可以看出,删除IGC模块导致所有指标的预测误差上升,这证明了所提出机制的有效性。值得注意的是,没有IGC模块的情况下,RMSE显著增加,RMSE更侧重于大误差,MAPE更侧重于实际值较小的误差(一个极端示例是:如果真实交通流量为4,预测值为20,则预测的MAPE将为500%;如果真实值为100,预测值为116,同样的MAE下,此预测的MAPE将降至16%)。一方面,RMSE的变化表明IGC模块可以使预测更合理,避免较大错误。在某种程度上,这表明使用邻居之间的高阶交互特征会为中心节点产生更稳健的表示。另一方面,MAPE的变化表明IGC模块可以帮助模型在交通流量较低的情况下(例如车祸等突发事件)表现更好。这一现象的一个可能解释是,学习相邻位置之间复杂的高阶交互有助于检测突发外部事件,并推理它们对交通流量的影响。

image-20240718223927653

多尺度整体相关性提取

表VII显示了与多尺度整体相关性提取(MHCE)有关的结果。第一行显示了仅使用一个尺度的模型性能;第二行显示了使用两个尺度的性能(即 J = 2 J=2 J=2 ϵ ∈ { 1 , 3 } \epsilon \in \{1,3\} ϵ{1,3});第三行显示了使用六个尺度的性能,这是DyHSL的设计选择。可以看出,增加尺度的数量可以提高预测性能。这表明存在具有不同周期性的交通模式,需要在不同粒度上进行捕捉。所提出的DyHSL从各种尺度中提取特征,使模型能够捕捉具有不同粒度的模式。

image-20240718223944410

E. 超参数分析

在这里,我们研究DyHSL的超参数。具体来说,我们关注MHCE中的隐藏层数量(即 L s L_s Ls)、DHSL模块中的超边数量(即 I I I)以及特征的隐藏维度(即 d d d)。在两个数据集(PEMS04和PEMS08)上的实验结果如图5所示。

image-20240718224006415

注意,当研究一个超参数的影响时,其他参数保持默认值。我们的观察和分析总结如下:

  • 总体而言,所提出的DyHSL对超参数的变化不敏感。从数据可以看出,改变隐藏层的数量和超边的数量对性能影响不大,在大多数情况下(除非使用较小的隐藏维度,如16和32),误差(MAE、RMSE、MAPE)的变化很小。这显示了我们模型的鲁棒性。我们还观察到,与PEMS04数据集相比,模型对PEMS08数据集的超参数变化较不敏感。这可能是因为PEMS08中的交通流量更容易预测(PEMS08中的预测误差低于PEMS04中的预测误差)。

  • 我们在隐藏层数量范围 {1, 2, 3, 4} 内进行了实验。图5的第一行显示了结果。尽管性能变化不大,但最佳性能是通过2个隐藏层实现的。一个可能的解释是,模型需要足够多的层来扩大感受野并学习结构化数据中的高阶关系。另一方面,较深的层引入了额外的参数,可能难以学习。因此,DyHSL采用了适中的隐藏层数量(即2)。

  • 我们还对DHSL模块中的超边数量( I I I)进行了实验。具体来说,我们在 {8, 16, 32, 64} 范围内改变了超边数量,结果如图5的第二行所示。从结果可以看出,使用32个超边在两个数据集上表现较好。一个可能的原因是,较少的超边只能使模型捕获图中的粗略信息,这妨碍了预测准确性。相反,过多的超边带来了额外的结构相关性,可能引入不必要的噪声。因此,中等数量的超边对模型更有帮助。

  • 对于隐藏维度( d d d),我们在 {16, 32, 64, 128} 范围内进行了变化,结果如图5的第三行所示。从数据可以看出,当隐藏维度非常小时,模型表现很差,这影响了模型捕获复杂时空动态的能力。另一方面,当隐藏维度超过64时,没有显著的性能提升。因此,我们将模型的隐藏维度设置为64。

F. 案例研究

在本小节中,我们将PEMS08数据集的四个预测结果与实际数据进行了对比,并在图6中进行了可视化。

image-20240718224044244

左上角的图是传感器105在2016年8月23日至25日的预测结果,这三天都是工作日。从结果可以看出,每天的模式相似,模型可以轻松学习这些模式。右上角的图是传感器5在2016年8月25日至27日的预测结果,前两天是工作日,最后一天是星期六。可以看出,最后一天的交通模式与前两天不同。尽管这种模式变化,模型可以很好地适应。例如,在8月27日凌晨12点左右,交通流量突然减少,模型快速适应变化并预测出较低的交通流量。

左下角的图是传感器49在2016年8月22日至25日的预测结果,尽管这三天都是工作日,但交通信号中存在很多噪声,这使得预测任务变得具有挑战性。从预测结果可以看出,我们的模型给出了合理的预测,这表明模型对交通流量信号中的噪声具有鲁棒性。右下角的图是传感器78在2016年8月21日至23日的预测结果,该传感器表现出一种奇怪的模式:晚上交通流量降到60左右,然后在该点附近保持稳定。这可能是数据中的缺陷,或可能是一些常规事件(例如警察巡逻)的结果。尽管我们的模型在这些时间段内没有给出一个恒定值,但这可能是大多数数据驱动方法的一个缺点。

G. 动态超图结构学习分析

在本小节中,我们对模型中的动态超图结构学习模块进行了进一步分析。图7显示了关联矩阵(即公式6中的 Λ \Lambda Λ)的可视化结果。

image-20240718224104684

请记住,关联矩阵中的条目表示节点与超边之间的亲密度:值越大,节点与超边的亲密度越高。为了更好地可视化,图中仅显示了关联矩阵的子矩阵。从结果可以看出,不同节点与不同超边的亲密度不同。例如,在左边的矩阵中,节点0和2更接近超边2,而节点4和5更接近超边3。这表明,不同节点通过不同的超边链接,这样我们就可以更有效地学习超图上多个节点之间的关系。

此外,节点和超边之间的亲密度随时间变化,这表明超图学习可以捕捉交通数据中的时空动态。图7显示了时间图数据中三个时间步(时间步1、时间步6和时间步12)的可视化结果。如我们所见,节点和超边之间的亲密度随时间变化。例如,在时间步1,节点0与超边2紧密相关。然而,在时间步6,节点正在离开超边2并加入超边7。这表明我们的模型可以捕捉交通网络中跨时间的影响变化。例如(如图1所示),住宅区附近的一个节点可能会与住宅区内的其他节点表现出相似的模式(因此它们更接近超边A,更受此超边的影响)。然而,附近的一场车祸可能会改变该节点的未来交通模式,节点趋向于离开超边A并加入超边B,这代表了车祸的影响。

有趣的是,一些超边表现出类似于交通流量预测中常用的其他组件(或更广泛地,多变量时间序列预测)的功能。例如,时间步12的超边1连接到大多数节点,类似于某个时间步的空间聚合。另一个例子是,时间步12的超边6接近一些节点并远离其他节点。当节点特征聚合到这个超边时,一些特征被乘以正值,而另一些特征被乘以负值,这表明该超边正在对节点特征进行卷积操作,其功能类似于图卷积。

6 结论

本文提出了一种名为DyHSL的新模型,用于交通流量预测,该模型在交通网络中建模了非成对和高阶关系。为了描述非成对动态交互,我们提供了一个模块,用于构建时间超图,其中所有节点在每个时间戳都有观测值。然后,我们开发了超图卷积,通过相关超边的数据更新节点表示。此外,为了研究道路网络中的高阶时空交互,我们引入了交互图卷积模块。最后,我们将这两个模块结合到一个综合的多尺度相关性提取框架中。我们的模型的一个局限性是,尽管我们尝试减少参数,但它仍可能存在过拟合的风险。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

holdoulu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值