【文献阅读-综述】图神经网络 Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing

最新推荐文章于 2024-05-02 17:52:46 发布

torch_M

最新推荐文章于 2024-05-02 17:52:46 发布

阅读量906

点赞数

分类专栏：图神经网络文献阅读文章标签：神经网络人工智能深度学习论文阅读

本文链接：https://blog.csdn.net/torch_m/article/details/133822128

版权

图神经网络文献阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

【文献阅读-综述】时空图神经网络 Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey（2023）

文献链接：https://arxiv.org/abs/2303.14483

Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey
用于城市计算预测学习的时空图神经网络：一份调研
作者：Guangyin Jin, Yuxuan Liang, Yuchen Fang, Jincai Huang, Junbo Zhang, Yu Zheng

文章目录

摘要
一、前言 Introduce
- 相关研究
- 本文贡献
二、时空图结构 Spatio-Temporal Graph Construction
三、主要应用领域及预测学习任务 Main Application Domains and Predictive Learing Tasks
四、STGNN的基本神经架构 Basic Neural Architecture for STGNN
五、STGNN时空依赖性学习改进方法 Improved Spatio-Temporal Dependencies Learning Methods for STGNN
六、挑战和未来方向 Challenges and Future Directions
七、总结 Conclusion

摘要

围绕城市系统中时空数据的分析，对STGNN框架及其应用进行介绍，提出新技术的结合、局限性、研究方向。

随着精密传感器和大型数据库技术的发展，记录和存储的城市系统时空数据（spatio-temporal data）越来越多。对这些时空数据的演变模式进行预测学习是城市计算中一个基本而重要的环节，可以更好地支持城市智能管理决策，特别是在交通、环境、安全、公共卫生等领域。由于传统的统计学习和深度学习方法难以捕捉城市时空数据中的复杂相关性，近年来有人提出了时空图神经网络（STGNN）框架。STGNNs能够通过整合图神经网络（GNNs）和各种时间学习方法来提取复杂的时空依赖关系。但对于不同的预测学习任务，在STGNN的框架下有效设计空间依赖学习模块、时间依赖学习模块和时空依赖关系融合方式，是一个富有挑战性的任务。本文全面介绍了 STGNN 技术在城市计算预测学习方面的最新进展。首先简要介绍时空图数据的构建方法和 STGNN 中流行采用的深度学习模型。然后梳理现有文献中的主要应用领域和具体的预测学习任务。接着分析STGNN 框架的设计方法以及与近年来一些先进技术的结合。最后总结现有研究的局限性，并提出一些潜在的研究方向。

以下是正文内容

一、前言 Introduce

感知和数据流处理技术的进步，使得越来越多城市系统中的数据得到有效收集和存储，为城市计算时代的到来奠定基础。城市计算旨在从交通、环境、安全等大数据爆炸的不同应用领域了解城市的模式和动态。根据城市计算理论¹，基于这些海量城市数据的预测学习是最重要的一环，是智慧城市进行智能决策、调度和管理的基础。此外，城市大数据的可预测性为一些新技术如数字孪生城市（数字孪生城市成熟度）和元宇宙的发展提供了可能 ²。

城市数据多是时空数据，并不是只和空间位置有关，而是会随时间发生变化。相关性（correlation）和异质性（heterogeneity）是城市系统中时空数据的普遍特性³。

相关性：数据不仅在时间维度上自相关，在空间维度上也自相关；
异质性：数据在不同的时空范围内表现出不同的模式。

为了更直观地说明时空异质性，图1给了一个例子。如图1(a)所示，城市网络中存在不同的分区，例如住宅区、休闲区和商业区。图1(b)展示了不同地区不同节点的人流量统计。可以发现，尽管所选节点都具有明显的峰值模型，不同地区的节点人流量统计还是存在很大的差异。但在同一区域内，即使是不同节点，人流量统计也比较近似，例如节点3和节点4。由于这些复杂的时空特性，特征工程的难度增加，一些在传统数据预测中表现出色的方法，例如支持向量回归（SVR）⁴ 、随机森林（RF）⁵ 、梯度提升决策树（GBDT）⁶ 等，都很难获得更准确的预测结果。近十年随着深度学习技术的发展，一些基于卷积神经网络（CNN）⁷ 和循环神经网络（视频讲解）（RNN）⁸ 的混合神经网络逐渐被应用在城市时空数据的预测学习中，如ConvLSTM ⁹ 、PredRNN¹⁰ 等，取得显著优势。但这些方法最大的局限在于无法直接从非欧几里得空间数据中学习，如交通网络数据、传感器网络数据、语义网络数据等。

近年来，以图神经网络（GNN）为代表的深度学习技术在非欧几里得空间数据的表征学习方面取得了重大突破，为复杂多样城的市数据的预测学习奠定基础。考虑到一些典型城市数据（如交通网络流量、环境监测数据等）的时空特性，过去一些研究将图神经网络与多种时序学习网络相结合，捕捉空间和时间维度上的动态特性³。这种混合神经网络架构统称为时空图神经网络（STGNN）。近五年，时空图神经网络已经被广泛应用于城市计算的预测学习场景，包括交通、环境、安全、公共卫生、能源、经济等领域。基于关键词检索（谷歌学术），过去五年公开发表的相关论文统计结果如图2 所示，与STGNN相关的论文呈现逐年增加的趋势，2018年相关论文数量不足20篇，2022年已经接近140篇，这一发展趋势意味着与STGNN相关的应用近几年已经成为热点研究话题，此外，过去五年的大多数文献都重点关注预测学习任务。

在这里插入图片描述

本文贡献

第一篇全面回顾近期探索STGNN用于城市计算领域预测学习任务的工作的综述研究。通过大量文献，从应用和方法论的视角回顾STGNN的进展。
首次根据现有文献对STGNN在城市计算中的主要应用领域和具体预测学习任务进行分类。此外，整理了一些之前有关STGNN的工作所附带的公共数据集。
深入分析STGNN的时间依赖学习、空间依赖学习和时空依赖混合方法，回顾了一些近年来流行的与STGNN结合的先进方法。
总结STGNN用于城市计算预测学习任务的挑战，提出一些解决这些挑战难题的未来方向。

二、时空图结构 Spatio-Temporal Graph Construction

介绍时空图结构，分类

时空图序列数据： $X=\{x_t\in\mathbb{R}^{N\times F}|t=0,\cdots,T\}$
N是空间顶点数，F是特征数。对于此类数据，时空图是一种有效结构，可以描述一定时空范围内不同顶点之间的关系。
时空图： $G_t=(V,E_t,A_t)$
V是顶点集， $E_t$ 和 $A_t$ 分别表示 t 时刻的边集和邻接矩阵。大多数时候V是常数， $E_t$ 的大小可以是时变的也可以是时不变的， $A_t\in\mathbb{R}^{N\times N}$ 随 $E_t$ 变化。
从连通性的角度，时空图可以是有向的、无向的、加权的或不加权的。从进化的角度，时空图结构可以是静态的，也可以是动态的。静态和动态时空图的差别如图3 所示，具体构建哪种时空图，需要根据具体任务和给定数据条件来定。

在这里插入图片描述

一般来说，城市系统中预定义的时空图构建方法可以分为四类：基于拓扑的、基于距离的、基于相似性的和基于交互的。

2.1 基于拓扑的图 Topology-based graph

城市系统中，基于拓扑的图是基于给定拓扑结构构建的例如道路网络¹⁵ ¹⁶ 。
邻接矩阵：
$a_{ij}^t=\begin{cases}1,\,if\,v_i\,connects\,to\,v_j\\0,\,otherwise\end{cases} \qquad(1)$
$a_{ij}^t$ 代表 t 时刻邻接矩阵中的一个元素，vi和vj是图中不同顶点。由于拓扑结构中的连接可以是对称或非对称的，基于拓扑的图也可以是有向或无向的。拓扑只表示非欧几里得空间中的连接，因此基于拓扑的图是不加权的。此外，社会系统中的拓扑结构通常在相当长的一段时间内都是固定的，因此可以视为静态图。

2.2 基于距离的图 Distance-based graph

根据几何学的一项定律”所有事物相互联系，但距离更近的事物联系更紧密，在没有给定拓扑结构时，可以构建基于距离的图。大多数应用中，邻接矩阵中的元素需要被一个与距离相关的核函数计算¹⁷ ¹⁸ ¹⁹ ，常见的核函数包括高斯径向基函数（radial basis function，RBF）（参考资料1、参考资料2）和反函数。
使用高斯径向基函数的基于距离的图的邻接矩阵：
$a_{ij}^t=\begin{cases}exp(-\frac{\Vert d_{ij}^t\Vert^2}{\sigma^2}),\,if\,d_{ij}^t<\epsilon\\0,\qquad otherwise\end{cases} \qquad(2)$
$d_{ij}^t$ 是节点 i 和节点 j 在 t 时刻时的间距， $\epsilon$ 是预定义的阈值，控制邻接矩阵的稀疏度， $\sigma$ 是控制分布的超参数。

2.3 基于相似度的图 Similarity-based graph

相似度从语义的角度反映不同实体之间的关系。基于相似度的图可以根据时间序列相似性²⁰ ²¹ ²² 或空间属性的相似性（如POI ²³）来构建。在没有额外数据时，通常基于时间序列相似性（参考资料1、参考资料2）来构建图。皮尔逊相关系数（Pearson Correlation Coefficient，PCC）和动态时间规整（Dynamic Time Wrapping，DTW）是计算时间序列相似性的两种常用方法。
使用PCC计算的基于相似度的图的邻接矩阵：
$a_{ij}^t=\begin{cases}\frac{\sum_{i=1}^n(x_i^{0:t}-\overline{x_i^{0:t}})(x_j^{0:t}-\overline{x_j^{0:t}})}{\sqrt{\sum_{i=1}^n(x_i^{0:t}-\overline{x_i^{0:t}})^2}\sqrt{\sum_{j=1}^n(x_j^{0:t}-\overline{x_j^{0:t}})^2}}\\0,\quad otherwise\end{cases} \qquad(3)$
$x_i^{0:t}$ 和 $x_j^{0:t}$ 分别是节点 i 和节点 j 在时间跨度 t 内的时间序列。 $\overline{x_i^{0:t}}$ 和 $\overline{x_j^{0:t}}$ 分别是节点 i 和节点 j 时间序列的均值，n 是时间跨度 t 内的采样数。

2.4 基于交互的图 Interaction-based graph

从信息流的视角，不同位置的交互可以表示它们之间的联系¹⁷ ¹⁹。尤其是在表示流动性特征时，两个节点之间的流量比例越大，它们之间的联系就越紧密。
邻接矩阵：
$a_{ij}^t=\begin{cases}\frac{F_{ij}^t}{\sum_{m\in N(i)}F_{im}^t},\,if\,F_{ij}^t>0\\0,\quad otherwise\end{cases} \qquad(4)$
$F_{ij}^t$ 表示 t 时刻从 i 到 j 的流，N(i) 表示和 i 交互的所有节点， $F_{im}^t$ 表示 t 时刻从 i 到集合N(i) 中其它节点 m 的流。

除了上述常见的预定义图构建方法外，城市系统中的许多关系都是隐式的，难以直接预定义。因此，最近的一些研究提出了基于自适应学习的时空图，详见第5.1.2部分。

三、主要应用领域及预测学习任务 Main Application Domains and Predictive Learing Tasks

不同领域内可以用STGNN解决的预测学习任务

根据近几年的现有文献，统计总结城市计算中STGNN的主要应用领域和具体预测学习任务。如图4，主要应用领域包括交通、安全、环境和公共健康，其中交通是STGNN最普遍的应用领域，在文献中占比超过60%。

在这里插入图片描述

3.1 交通 Transportation

3.1.1 交通状态预测

在现代城市系统中，大量传感器分布在交通路网和关键区域，以记录不断变化的交通状态（如流量、速度）。这项任务旨在通过一定空间范围内的历史交通状态来预测未来的交通状态。交通状态预测可以分为两大类：全网预测（network-wide prediction）和全区域预测（region-wide prediction）。

全网预测的对象通常是给定道路网络上的交通流量或速度¹⁵ ¹⁸ ²⁴ ²⁵ ²⁶，基本图结构可以直接从道路网路转换而来。
全区域预测的对象通常是城市地区的人流量²⁷ ²⁸ ²⁹ ³⁰，这种情况下，将整个城市区域划分为网格区域，根据不同区域之间的距离、连通性、语义关联性等构建时空图。

在这里插入图片描述

总之，交通状态预测任务可以总结为：
$[X^{(t-T'+1)},\cdots,X^{(t)};\mathcal{G}]\stackrel{f(.)}{\longrightarrow}[X^{(t+1)},\cdots,X^{(t+T)}] \qquad(5)$
$X^{(t)}\in\mathbb{R}^{N\times d}$ 表示N个顶点在 t 时刻的交通状态矩阵， $\mathcal{G}$ 是构建的图结构， $f (.)$ 是用于预测的相关STGNN。

3.1.2 交通需求预测

准确预测不同地区城市交通需求（如出租车订单需求、轨道交通乘客需求、自行车需求等）的变化模式，有助于交通调度，缓解高峰时段的交通拥堵。交通需求大致可分为三大类：出发地需求、目的地需求和出发地-目的地需求。

预测出发地需求和目的地需求类似于区域交通状态预测，即通过 N 个区域的历史需求来预测未来需求¹⁹ ²³ ³¹ ³²。
出发地-目的地需求预测则有所不同，它需要通过历史出发地-目的地矩阵来预测未来的出发地-目的地矩阵³³ ³⁴ ³⁵ ³⁶ ³⁷。

始发地-目的地需求预测的输出结果是一系列大小为 N×N 的矩阵，这些矩阵可以表征这些地区之间的流量需求。

3.1.3 交通事故预测

随着车辆剧增，堵塞、事故等交通事件也越来越多，给社会交通管理带来巨大压力。交通事故预测任务的目的是预测路网中可能发生的交通事故的一些重要属性（如发生概率、发生时间等）³⁸ ³⁹ ⁴⁰ ⁴¹ [^42]。除了预测对象的差异，与交通状态预测任务类似，准确的交通事故预测也需要通过建立 STGNN 模型来捕捉路网的时空依赖关系。与相对宏观的交通状态预测相比，面向事件的预测能更准确地应对交通系统中的各种突发事件并进行预警。

3.1.4 交通时间预测

通行时间预测受到业界重视，尤其是在线地图导航和叫车软件，准确的旅行时间预测可以大大改善这类软件的用户体验。这项任务旨在通过道路网络上的历史交通状态预测给定轨迹的通行时间。为了更准确地预测时间，不仅需要考虑轨迹本身的特征，还需要捕捉道路网络的时空动态（如流量、速度等）。因此，本任务基于道路网络建立时空图，迄今为止，百度[^43] [^44] 、谷歌[^45] 、滴滴⁴² 等大型科技公司已经在网络平台上开发了可实际应用的通行时间预测功能。
基于STGNN的通行时间预测可以定义为：
$\mathcal{F}(P_t|X_{t-\omega:t},\mathcal{G})\rightarrow T_g,T_l \qquad(6)$
$P_t$ 表示出发时间为 t 的给定轨迹， $X_{t-\omega:t}$ 表示给定路网 $\mathcal{G}$ 历史时间窗 $\omega$ 内的时空特征。 $T_g$ 和 $T_l$ 分别表示整个轨迹的全局通行时长和路段的局部通行时间。

3.1.5 轨迹预测

轨迹预测是理解人类和车辆复杂群体动力学的一项重要任务 [^47] [^48] [^49] [^50] [^51] [^52]，有助于自动驾驶和城市监控技术的发展。群体中代理的移动模式存在一定的相关性或交互性，因此可以根据群体中不同代理之间的关系来构建时空图，如图6 [^47] 所示。

在这里插入图片描述

构建时空图后，可以设计 STGNN 模型，根据代理的历史遍历坐标，预测代理未来可能到达的坐标，从而实现对未来轨迹的预测。

3.1.6 其它预测任务

除了上述主流交通应用场景外，还有一些相对小众的应用场景使用 STGNN 技术来改善预测结果。

停车场可用性预测 [^53] [^54]
交通延迟预测 [^55] [^56]

交通管理领域的两项新兴任务，可与 STGNN 结合使用。与其它主流研究话题类似，这些预测任务采用STGNNs来更好地学习交通网络中的时空语境表征，以获得更准确的预测。

3.2 环境 Environment

3.2.1 空气质量预测

空气质量是一个亟待改善的热点问题。准确的空气质量预测不仅能帮助政府制定节能减排政策，还能为居民的户外活动提供参考。空气质量指数（AQI）、PM2.5 和排放是我们最关注的指标，这些相关数据由城市级或国家级观测站收集[^57] ⁴³ 。由于空气的流动性，距离较近或风向相同的观测站可能会收集到相互关联的结果[^59] [^61] 。因此，构建基于时空图的深度学习模型不仅能建立这种空间依赖关系，还能捕捉空气质量的时变动态。

3.2.2 气象预测

气象预测也是一个与人类社会和环境密切相关的研究课题，与空气质量数据类似，气象数据也通过分布式观测站收集，但不同站点之间的相关性可能更为复杂，易受更多因素的影响。近年来，STGNN 模型已逐步应用于温度预报[^62] [^63] ⁴⁴ 、霜冻预报[^65] 和风预报⁴⁵ [^67] [^68] 等多种气象预报场景，并显示出其优越性能。

3.3 安全 Security

3.3.1 犯罪频率预测

有效打击和预防犯罪是确保城市安全的基础。准确预测犯罪发生频率，有助于政府实时掌握犯罪动态，合理配置警力资源。现有工作大多侧重于城市地区的犯罪频率预测。由于不同的城市区域具有不同的功能、POI 和其他特征，因此也会导致不同的犯罪类型和趋势，但具有相似特征或距离较近的区域可能会在犯罪事件上有潜在关联⁴⁶ [^70] [^71] 。因此，先前许多研究⁴⁶ [^70] [^72] [^79] 引入STGNN模型来捕捉相关性，以获得更好的预测结果。

3.3.2 灾情预测

自古以来，灾害一直是人类社会安全面临的一大挑战。准确的灾情预测可以帮助政府提前部署防灾措施、调配救灾物资、疏散居民。为了对不同地理位置的相关和异构特征进行建模，STGNN 可以在这项任务中大显身手。目前，一些研究已将 STGNN 模型引入洪水预测[^80] [^81] 、火灾预测⁴⁷ [^83] 、台风预测[^84] [^85] [^86] 和地震预测[^87] [^88] [^89] 等情景。

3.4 公共健康 Public Health

3.4.1 疫情预测

流行病是公共卫生系统面临的最大挑战之一，尤其是近年来流行的新型冠状病毒，已在全球造成 600 多万人死亡，因此准确预测疫情的扩散是一件重要但又具有挑战性的任务，为城市公共健康系统采取强有力的策略提供数据支持。近期一些工作已经将STGNN模型用于解决国家层面[^90] [^91] [^92] [^93] [^94] [^95] 或国际层面[^96] 的疫情预测任务，许多都结合了疫情动态的数学公式和时空图模型，相较于传统方法能获得更好的预测结果[^95] [^96] [^97] [^98] [^99] 。

3.4.2 救护车需求预测

在老龄化严重的当代社会，救护车资源的分配是一项具有挑战性的任务，需要引起重视。准确的救护车需求预测可以有效减轻城市医疗系统的负担。由于社会系统中不同区域间的公共医疗资源、交通状况和需求模式可能存在时变相关性，为了学习这些多视角空间相关性，近年来 STGNN 方法逐渐在这一任务中得到推广⁴⁸ [^101] [^102] 。

3.5 其它应用领域

除了上述四个主要应用领域外，基于数据内在关系建立时空图结构的其他场景也是基于 STGNN 的预测学习模型的潜在发展对象。近年来，基于 STGNN 的预测学习模型也被推广到能源、经济、金融、生产等其他领域。

能源领域，STGNN 模型已被用于风电预测 [^103] [^104] 和光伏发电预测 [^105] [^106] ；
经济领域，STGNN 模型已被引入国家级区域经济预测 [^107] [^108] ；
金融领域，STGNN 模型被应用于股票预测[^109] [^110] [^111] ；
生产领域，Fan 等人首次采用 STGNN 模型预测农作物产量[^112] 。

3.6 主要应用领域的公共数据集

公共数据集的详细信息（例如，来源链接、参考文献）列于表1，见原论文。

在这里插入图片描述

四、STGNN的基本神经架构 Basic Neural Architecture for STGNN

STGNN框架下，广泛采用的基本深度学习架构
本节将介绍 STGNN 的基本神经架构。如图7 所示，用于预测学习的 STGNN 基本框架包含三个主要模块：数据处理模块（DPM）、时空图学习模块（STGLM）和任务感知预测模块（TPM）。

在这里插入图片描述

对于城市计算中的预测学习任务：

DPM 从原始数据中构建时空图数据；
STGLM 从复杂的社会系统中捕捉隐藏的时空依赖关系；
TPM 将 STGLM 中的时空隐藏表示映射到下游预测任务的空间中。

STGLM 是 STGNN 中最关键的部分，通过一定的时空融合神经架构将空间学习网络和时间学习网络有机结合。

对于空间学习网络，谱图卷积网络（Spectral GCNs）、空间图卷积网络（Spatial GCNs）和图注意网络（GATs）都可以作为选择对象；
对于时间学习网络，循环神经网络（RNNs）、时序卷积网络（TCNs）和时序自注意网络（TSANs）都可以作为替代方案。

与 STGLM 相比，TPM 是一种相对简单的神经网络，因此几乎所有的现有工作都集中在 STGLM 的神经架构设计上。

4.1 图神经网络 Graph Neural Networks

图神经网络（GNNs）是在非欧几里得空间进行空间依赖性学习的有效工具。近年来，流行的图神经网络可分为三类：频谱图神经网络（spectral GCNs）、空间图神经网络（spatial GCNs）和GATs。

4.1.1 谱域图卷积网络

在相对较早的阶段，大多数 GNN 都基于傅立叶变换，它将空间域的图形信号转换到频谱域，以进行卷积计算 [^149] 。
需要图傅里叶变和逆图傅里叶变换实现空域到谱域的变换：

$\begin{split} \mathcal{F}(x)=U^Tx \\ \mathcal{F}^{-1}(x)=Ux \end{split} \qquad(7)$
U是规范化图拉普拉斯矩阵的特征向量矩阵。
图卷积：
$g\star x=\mathcal{F}^{-1}(\mathcal{F}(g)\odot\mathcal{F}(x))=U(U^Tg\odot U^Tx) \qquad(8)$
$\odot$ 表示哈达玛乘积， $U^Tg$ 表示频域滤波器。
公式7 可以进一步简化：

$g_{\omega}\star x=Ug_{\omega}U^Tx \qquad(9)$
其中 $g_{\omega}=U^Tg$ 。后续很多基于频域的GNNs都是主要改进 $g_{\omega}$ 的计算方法。
例如ChebNet，是最广泛应用的频域GNN方法，它是基于 $g_{\omega}$ 可以用切比雪夫多项式的截断展开来近似⁴⁹ 的理论，Defferrard等人提出ChebNet⁵⁰ ，公式：
$\begin{split} \tilde{L}=\frac{2}{\lambda_{max}}L-I_N\\ g_{\omega}\star x=\sum\limits_{k=0}^K\omega_kT_k(\tilde{L})x \end{split} \qquad(10)$
其中 $\tilde{L}$ 是规范化的图拉普拉斯矩阵， $\lambda_{max}$ 是L的最大特征值， $T_k(x)$ 是到 k 阶的切比雪夫多项式， $\omega_k$ 是切比雪夫系数向量。ChebNet通过应用这种 K定位图卷积，而不需要计算拉普拉斯矩阵的特征向量。

4.1.2 空域图卷积网络

尽管谱域GCNs已经实现许多突破，但最大的限制在于它们依赖于图拉普拉斯矩阵，当图结构发生变化的时候，图拉普拉斯矩阵也需要重新计算，因此，谱域GCNs更适合图结构不随时间变化的情景。为了克服对图拉普拉斯矩阵的依赖，Kipf等人进一步简化图卷积操作⁵¹，令其可以直接在空间域计算，称之为空域GCN，定义为：
$g_{\omega}\star x=\omega(I_N+D^{-\frac{1}{2}}AD^{-\frac{1}{2}})x \qquad(11)$
其中 A 是邻接矩阵，D 是度矩阵， $\omega$ 是空域GCN的可学习参数。
空域GCN方法采用了全图输入，处理一些工业场景下的大型图比较困难，为了解决这个问题，GraphSAGE⁵² 采用了采样聚合的方法，实现在大型图上的灵活归纳学习。
GraphSAGE的聚合操作：
$\begin{split} &h_{\mathcal{N}(u)}^k\leftarrow Aggregate_k(\{h_{u'}^{k-1},\forall u'\in\mathcal{N}_k(u)\})\\ &h_u^k\leftarrow \sigma(W_k\cdot Concat(h_u^{k-1},h_{\mathcal{N}(u)}^k)) \end{split} \qquad(12)$
$\mathcal{N}_k(u)$ 表示 u 的邻居节点集， $h_{\mathcal{N}(u)}^k$ 表示聚合操作后节点u的嵌入。

4.1.3 图注意力网络

考虑到邻近节点在空间依赖性学习中的重要性，GAT ⁵³ 在节点聚合操作中加入了注意力机制：
$\begin{split} &h_v^{t+1}=\rho(\sum\limits_{u\in\mathcal{N}_u}\alpha_{vu}Wh_u^t)\\ &\alpha_{vu}=\frac{exp(LeakyReLU(a^T[Wh_v\Vert Wh_u]))}{\sum_{k\in\mathcal{N}_u}exp(LeakyReLU(a^T[Wh_v\Vert Wh_k]))} \end{split} \qquad(13)$
$\alpha_{vu}$ 表示邻居节点 u 相对于中心节点 v 的注意力分数，W是与每个节点的线性变换相关的权重矩阵， $a$ 是用于注意力输出的权重参数。为了进一步稳定注意力的计算过程，还可以在 GAT 中引入多头注意力形式：
$\begin{split} &h_v^{t+1}=\Vert_{k=1}^K\sigma(\sum\limits_{u\in\mathcal{N}_v}\alpha_{vu}^kW_kh_u^t)\\ &h_v^{t+1}=\sigma(\frac{1}{K}\sum\limits_{k=1}^K\sum\limits_{u\in\mathcal{N}_v}\alpha_{vu}^kW_kh_u^t) \end{split} \qquad(14)$
其中 $\alpha_{vu}^k$ 是第 k 个注意力头计算的归一化注意力分数。多个注意力头的聚合方法可以是串联聚合或平均聚合。

4.2 循环神经网络 Recurrent Neural Networks

循环神经网络（Recurrent Neural Networks，RNN）是一种通过递归计算进行深度序列建模的方法，已被广泛应用于时间序列学习中。
这里需要注意区分Recurrent Neural Network（循环神经网络）和Recursive Neural Network（递归神经网络）

循环神经网络也称为时间递归神经网络，是在时间序列上的展开。
（参考链接1、参考链接2）

梯度消失或梯度爆炸是初始版本RNN在训练过程中的最大问题，要解决这个问题，提出了两个变体：LSTM（Long-short term network）和GRU（Gated recurrent unit network）。

4.2.1 长短期记忆网络（LSTM）

LSTM首次引入门控机制来控制信息流——存储和遗忘时序信息。具体而言，门控机制就是有选择地保留和遗忘时序信息。
LSTM公式：
$\begin{split} &f_t=\sigma(W_f\cdot[h_{t-1},x_t]+b_f)\\ &i_t=\sigma(W_i\cdot[h_{t-1},x_t]+b_i)\\ &o_t=\sigma(W_o\cdot[h_{t-1},x_t]+b_o)\\ &\tilde{C}_t=tanh(W_C\cdot[h_{t-1},x_t]+b_C)\\ &C_t=f_t*C_{t-1}+i_t*\tilde{C}_t\\ &h_t=o_t*tanh(C_t) \end{split} \qquad(15)$
$f_t$ 代表遗忘门，其功能是按一定比例丢弃历史信息。
$i_t$ 代表输入门，用于更新当前时间的信息。
$o_t$ 代表输出门，用于按一定比例控制当前输出信息。
$\sigma(\cdot)$ 是sigmoid激活函数，将遗忘门、输入门和输出门的输出结果控制在0和1之间。
$C_t$ 代表LSTM单元经过遗忘门和输入门计算后的状态。遗忘门作用于上一时间步的 LSTM 单元的状态，输入门作用于当前候选 LSTM 单元的状态。最终这一时刻的隐藏状态由输出门获得。

4.2.2 门控循环单元网络（GRU）

由于引入了多个门控单元，LSTM 的计算负担相对较大，GRU将LSTM的门控单元简化到两个：更新门和重置门。
GRU⁵⁴公式：

$\begin{split} &u_t=\sigma(W_u\cdot x_t+U_u\cdot C_{t-1}+b_u)\\ &r_t=\sigma(W_r\cdot x_t+U_r\cdot C_{t-1}+b_r)\\ &\tilde{C}_t=tanh(W_C\cdot x_t+U_C(r_t\odot C_{t-1})+b_C)\\ &C_t=u_t\odot C_{t-1}+(1-u_t)\odot\tilde{C}_t \end{split} \qquad(16)$
$u_t$ 代表更新门，决定如何将新输入时间步的信息和先前时间步的记忆相结合。
$r_t$ 代表重置门，定义了从上一时间步到当前时间步的内存预留量。
虽然简化了 GRU 的可学习参数，但其性能可与前人研究中的 LSTM 相媲美，同时提高了训练和推理效率。

4.3 时序卷积网络 Temporal Convolutional Networks

基于 RNN 的时序学习网络已在许多时空建模任务中得到应用，但其缺点也很明显：循环结构使得序列必须在每个时间步进行计算，这大大增加了计算负担，降低了模型效率。相比之下，具有并行1D-CNN结构的时序卷积网络（Temporal convolutional networks，TCN）可以解决这一问题。与应用于图像识别的 2D-CNN 类似，1D-CNN 也是通过卷积核来操作和聚合特征，但其卷积核为一维的，并且只在时间轴上滑动。

4.3.1 门控时序卷积网络（Gated-TCN）

受LSTM和GRU门控机制的启发，可以将其与纯1D-CNN架构相结合，提高时序学习的能力，这种混合神经架构称为门控时序卷积网络⁵⁵。
计算过程：
$F(x)=tanh(\Theta_1\star x)\odot\sigma(\Theta_2\star x) \qquad(17)$
$\Theta_1$ 和 $\Theta_2$ 分别代表两个不同1D-CNNs中卷积核的可学习参数， $\star$ 代表卷积操作， $\odot$ 代表元素相乘机制， $\sigma(\Theta_2\star x)$ 代表门控单元，用来控制历史信息的利用率。

4.3.2 因果时序卷积网络

尽管1D-CNN是一种高效的并行神经架构，但它缺乏在时序学习中因果相关性的建模。通常在传统神经网络中，每一层神经元的连接都是全连接的形式。全连接违反了时间序列的基本约束，因为前面（前一时间步）神经元的输出连接到了后面（后一时间步）的输入神经元，这是不允许的。因此，可以采用掩码机制（mask mechanism）部分移除网络中层与层的链接，保留前一时间步到后一时间步的链接，使网络符合时间依赖性原则。为了更有效地捕捉长程时间依赖关系，逐层增加膨胀因子⁵⁶ 的 1D-CNN 具有从短程到长程学习时间依赖关系的能力，如图8 所示。

在这里插入图片描述

有膨胀因子的1D-CNN：
$F(s)=(x*_df)(s)=\sum\limits_{i}^{k=1}f(i)\cdot x_{s-d\cdot i} \qquad(18)$
s是时间序列输入，d是膨胀因子，当d=1时，普通卷积算子是膨胀卷积算子的特例。(s-d·i) 为某一历史信息的定位。

4.4 时序自注意力网络 Temporal Self-Attention Networks

自注意力网络是远距离时间学习的有效方法，最典型的代表是Transformer⁵⁷。

Transformer（参考资料1、参考资料2、参考资料3）模型主要由三部分组成：

缩放点积注意力网络
前馈网络
位置编码

在这里插入图片描述

缩放点积网络是Transformer的核心部分，注意力分数的计算：
$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V \qquad(19)$
输入索引/需求（Query/quires）Q、关键信息（Keys）K和值（Values）V是自注意力中的三个基础元素，对原始输入进行不同的线性变换得到。 $d_k$ 是缩放因子（归一化），其值和模型的维度相等。为了让训练过程更稳定，可以使用多头注意力机制。

由于Transformer不包含递归或卷积操作子，必须在序列中注入tokens的位置信息，以确定序列的顺序。基于三角函数的编码是一种常见的位置编码方法，论文⁵⁷ 中使用的就是这一方法：
$\begin{split} PE_{(pos,2i)}=sin(pos/10000^{\frac{2i}{d_{model}}})\\ PE_{(pos,2i+1)}=cos(pos/10000^{\frac{2i}{d_{model}}}) \end{split} \qquad(20)$
pos是位置，i是维度。该方法分别对偶数和奇数位置进行正弦编码和余弦编码，以区分不同的位置。

4.5 时空混合神经架构 Spatio-Temporal Fusion Neural Architecture

除了空间学习网络和时间学习网络，时空混合神经架构也是需要关注的重点，它决定了二者如何融合成完整的STGNN。传统混合神经架构可以分为两类：堆叠式神经架构和耦合式神经架构。

4.5.1 因子化神经架构（Factorized Neural Architecture）

因子化神经架构中，空间学习网络和时间学习网路像积木一样逐层并行或串行堆叠，图10和图11是STGNN模型中因子化神经架构的两个典型例子。

第一个是STGCN¹⁸，采用的时序学习网络是TCN。
在这里插入图片描述

在STGCN的每个ST-Conv块中都有两个TCNs和一个GCN串行堆叠，类似三明治结构。由于这个模型通过卷积结构获取时序信息，其时空依赖性学习方法是并行化的，也就是说同时接收指定时间窗口长度的所有信息作为输入。
ST-Conv块的计算：
$v^{l+1}=\Gamma_1^l*_{\tau} ReLU(\Theta^l*_{\mathcal{G}}(\Gamma_0^l*\mathcal{T}v^l)) \qquad(21)$
$\Gamma_0^l$ 、 $\Gamma_1^l$ 分别是块 $l$ 内的上层和下层时序卷积核， $\Theta^t$ 是图卷积的谱核。

第二个是T-GCN²⁴ ，采用的时序学习网络是GRU。
在这里插入图片描述

该模型以递归的方式捕捉时空依赖关系，在每个时间步图信号依次由GCN和GRU处理，分别学习空间和时间依赖性。
每个堆叠GCN和GRU的计算：
$\begin{split} &f(X,A)=\sigma(AXW_0)\\ &u_t=\sigma(W_u[f(A,X_t),h_{t-1}]+b_u)\\ &r_t=\sigma(W_r[f(A,X_t),h_{t-1}]+b_r)\\ &c_t=tanh(W_c[f(A,X_t),(r_t*h_{t-1})]+b_c)\\ &h_t=u_t*h_{t-1}+(1-u_t)*c_t \end{split} \qquad(22)$
$f(A,X_t)$ 是空间GCN在时间步 t 的输出，将 $f(A,X_t)$ 输入GRU获得 t 时刻的隐藏状态。

4.5.2 耦合神经架构

在耦合神经架构中，空间学习网络通常作为嵌入式组件集成到时间学习网络的架构中。在 STGNN 中，这类神经架构几乎完全出现在基于 GNN 的空间学习网络和基于 RNN 的时间学习网络的组合中。
例如DCRNN²⁶ 是具有耦合神经架构的STGNN模型。

在这里插入图片描述

在该模型中，GCN被嵌入到GRU的结构中，具体来说就是LSTM中原来的线性单元被图卷积算子替换掉。
$\begin{split} &r^{(t)}=\sigma(\Theta_r*\mathcal{G}[X^{(t)},H^{(t-1)}]+b_r)\\ &u^{(t)}=\sigma(\Theta_u*\mathcal{G}[X,H^{(t-1)}]+b_u)\\ &C^{(t)}=tanh(\Theta_C*\mathcal{G}[X^{(t)},(r^{(t)}\odot H^{(t-1})]+b_c)\\ &H^{(t)}=u^{(t)}\odot H^{(t-1)}+(1-u^{(t)})\odot C^{(t)} \end{split} \qquad(23)$
$\Theta_r*\mathcal{G}$ 代表有参数 $\Theta_r$ 的图卷积算子，和原始GRU的公式（16）相比，除了内部图卷积算子，循环网络的外部计算方法并无太大区别，与一些神经翻译模型相似⁵⁸，DCRNN可以使用Seq-to-Seq的结构改进预测能力。

一些经典现有模型的时空混合神经架构列于表2。

在这里插入图片描述

五、STGNN时空依赖性学习改进方法 Improved Spatio-Temporal Dependencies Learning Methods for STGNN

STGNN框架下神经架构的设计方法，和可以结合的先进技术

5.1 空间依赖性学习方法 Spatial Dependencies Learning Methods

5.1.1 多图卷积

城市系统中，空间范畴下存在多种关系，例如在交通系统中，相邻区域或具有类似POIs的区域可能会有类似的交通模式。因此，对于STGNN的时空依赖学习来说，同时考虑多种空间关系是不可忽略的。要解决这个问题，近年来提出一些使用多图卷积的STGNN模型，其中STMGCN²³ 是用于城市乘车需求预测的典型模型。

在这里插入图片描述

该模型首先基于邻域、功能相似性和连接性构造多图结构，用来描述多种空间相关性。
对于每个图，分别采用情景门控RNN（contexual gated RNN）和ChebNet来捕捉时间和空间依赖性。
最终通过融合并行的多图时空隐藏信息得到预测结果。

5.1.2 自适应图学习

多图模型可以在一定程度上描述多重空间相关性，但还有两个不足：

图结构的不充分，没有考虑其它隐藏的相关性。
图结构的合理性，没有足够的领域知识来支持图的构建。

自适应图学习方法逐渐发展起来克服这些问题。
根据现有文献，STGNN中的自适应图学习方法可以分为两大类：基于随机初始化和基于特征初始化。

基于随机初始化的自适应图学习方法通过随机初始化学习矩阵来实现自适应图结构学习³² ⁵⁹ ⁶⁰ ⁶¹ ⁶²。其中Graph WaveNet⁶⁰ 和MTGNN⁶² 分别提出两种典型的基于随机初始化的自适应图学习方法，通常在后续工作中加以应用或改进。
Graph WaveNet中的自适应图：
$\tilde{A}_{adp}=SoftMax(ReLU(E_1E_2^T)) \qquad(24)$
$E_1,E_2\in\mathbb{R}^{N\times C}$ 分别是源节点嵌入（source node embedding）和目标节点嵌入（target node embedding），是随机初始化的学习矩阵，N是图节点数量，C是embedding的维度。
MTGNN中的自适应图：

$\begin{split} &M_1=tanh(\alpha E_1\Theta_1)\\ &M_2=tanh(\alpha E_2\Theta_2)\\ &\tilde{A}_{adp}=ReLU(tanh(\alpha(M_1M_2^T-M_2M_1^T))) \end{split} \qquad(25)$
$E_1,E_2$ 分别是随机初始化的节点嵌入（node embedding）， $\theta_1,\theta_2$ 是模型参数， $\alpha$ 是控制激活函数饱和度的超参数。
在上述两种方法的基础上又提出许多基于随机初始化的自适应图学习方法。
CCRNN³² 提出一种逐层自适应图学习机制，逐层调整图结构。
DMSTGCN⁶³ 提出一种采用张量分解的自适应图学习方法。

基于特征初始化的自适应图学习方法通过给定的输入或隐藏状态实现自适应图结构学习⁴⁷ ⁶⁴ ⁶⁵ ⁶⁶ ⁶⁷。这类自适应图学习方法通常采用学习矩阵或注意力机制结合给定特征构建图结构。
DGCRN⁶⁴提出一种基于隐藏状态的循环自适应图学习机制，在每个时间步构建图结构。
DSTAGNN⁶⁵ 提出基于自注意力的自适应图学习方法，建立图结构和隐藏状态之间的联系。
BSTGCN⁶⁶设计了一种基于预定义图和输入特征的贝叶斯图学习机制。
GTS⁶⁷ 提出一种基于给定特征的新型概率图结构学习方法。

5.1.3 多尺度空间学习

由于城市系统的空间异质性，不同的实体可以划分为具有不同功能的社区，在同一社区内的实体具有社区内关联，在不同社区的实体具有跨社区关联。因此近年来提出了一些基于社区划分的多尺度空间学习方法，其中一些工作通过人工⁴¹ ⁶⁸ 或聚类算法¹⁹ ⁶⁹划分社区，另一些通过神经网络⁴⁶ ⁷⁰划分。
例如ST-SHN⁴⁶ 和ST-HSL⁷¹通过学习超图（hypergraph）的超边缘（hyperedges，这里指社群）来捕捉全局空间依赖性，进行犯罪预测。
此外，GAGNN⁷⁰是一个用于国家空气质量预测的群感知（group-aware）STGNN模型。

在这里插入图片描述
该模型首先提出用于学习分配矩阵的可微分分组网络，可以自动计算城市与城市之间的映射关系，然后分别计算社区内与跨社区这两种不同尺度图数据的空间GCNs，学习它们的时空依赖关系。
另有相关研究THINK⁷² 和DMGCRN⁷³在庞加莱球（Poincare ball）上建立双曲图神经网络，直接捕捉多尺度空间依赖关系，这是因为双曲空间特别适用于时空数据的层次结构，如局部和全局的依赖关系⁷⁴。

5.1.4 异构空间学习

与多尺度空间学习方法不同，有的研究直接对时空数据中精细的节点间异质关系建模。为了区分时空图中静态无向边（如基于距离的边）和动态有向边（如车辆移动导致的边）的影响，HMGCN⁴⁸在空间维度实现异构聚合。MasterGNN⁴³基于空气监测站和天气监测站之间的多重关系构造异构图。HTGNN进一步聚合了基于空间的内边、基于时间的间边和基于时空的跨时间边的异构信息。
另一种异构空间学习利用交通、时间和地理信息来捕捉错综复杂的时空信息传递。例如HeGA和MOHER（图15），设计基于交通模式的异构图来同时获取多来源的信息，如自行车、公交车、汽车等。

在这里插入图片描述

该模型的时空异构图是通过区域配对关系和模式间多重关系构建的，用来描述不同交通模式之间的相关性，然后异构图卷积算子与LSTM结合，捕捉复杂的时空依赖关系。
此外，DH-GEM提供了节点位置边（node-position edges），CAP则进一步设计了异构图中的节点时间（node-time）和节点定位（node-location）边，来获得时间和地理信息。

5.2 时间依赖性学习方法 Temporal Dependencies Learning Methods

5.2.1 多尺度时间学习

由于许多场景中的时空数据既有短程相关性，也有长程相关性，因此捕捉多尺度时间相关性也是改进时空相关性学习的一个重要方向。到目前为止，STGNN 中多尺度时空依赖学习的主流设计方向有两个：

通过具有不同尺度感受野的 TCN ⁴⁵, ⁶²；
通过整合不同的时间学习网络 ¹⁶, ¹⁹, ⁷⁵。

MTGNN⁶²使用多个具有不同核大小的TCN来学习不同尺度的时间依赖关系。
DMVST-VGNN ¹⁹ 利用TCN和Transformer联合进行长-短程时间学习。
Traffic STGNN ¹⁶ 通过多网络集成实现了多尺度时空学习（图16）。

在这里插入图片描述

该模型采用GRU进行短程时间依赖性学习，采用Transformer进行长程时间依赖性学习。

5.2.2 多粒度时间学习

在交通系统等一些特殊场景中，某一时刻的交通流量不仅与近期的交通流量相关，还可能与前一天甚至前一周该时刻的交通流量相似，这分别反映了交通流量的接近性（closeness）、周期性（periodicity）和趋势性（trend），为了考虑这三种不同粒度的时间特征，之前的许多研究²⁸ ²⁹ ³⁰ ⁷⁶都采用了三分支结构，分别学习不同时间粒度的特征，最后把学习到的隐藏状态融合在一起进行预测。
ASTGCN ⁷⁶ 采用典型的三分支结构进行多粒度时空学习。

在这里插入图片描述

其中 Xh、Xd 和 Xw 分别表示最近一小时的时空数据、前一天这一小时的数据和前一周这一小时的数据。这三个分支的数据分别经过多个 GCN 和 Attention 网络计算后，最终通过可学习的权重矩阵进行融合。

5.2.3 分解时序学习

在时空图数据中，单时序模式通常包含多种隐藏成分，如固有时间成分、扩散时间成分、周期时间成分等。为了更好地捕捉复杂的时间依赖关系，有人提出分解时间学习方法，通过专门设计的神经网络自动分解和整合不同的时间成分 ⁶¹, ⁷⁷ ⁷⁸ ⁷⁹。
FC-GAGA⁷⁷ 是采用 N-BEATS⁸⁰ 的减法残差来分解交通时间序列中的不同分量并对各分量的空间相关性进行建模的典型工作。

在这里插入图片描述

如图所示，FC-GAGA由多层堆叠而成。每一层都包含一个时间门块、一个图门块和多个全连接块。

时间门模块的目的是从模块输入中移除特定节点的乘法季节性，并在模块输出中重复使用；
图门模块的目的是捕捉来自不同个体的空间相关性；
全连接块与 N-BEATS⁸⁰中的块类似，作用于模型的最终输出，并通过预测映射和反预测映射两个分支为下游块去除不必要的时间成分。

在 FC-GAGA 的基础上，其它一些研究也采用了分解时间学习方法。例如，StemGNN ⁷⁹ 通过 N-BEATS 的减法残差分解了不同的时间成分，但在频谱域建立了空间相关性模型。
D2STGNN ⁸¹ 提出了一种与图结构学习相结合的时间残差分解方法。
STWave ⁷⁸ 直接利用离散小波变换从时空图数据中分离出事件和趋势。

5.3 时空依赖性混合方法 Spatio-Temporal Dependencies Fusion Methods

5.3.1 时空联合建模

4.5部分介绍了STGNN的基本时空混合神经架构，由空间学习网络和时间学习网络因子化或耦合而成。无论是因子化结构还是耦合结构，都只是分别学习空间和时间依赖关系，并将其叠加，而不是从联合的角度对时空依赖关系进行建模，因此很难学习到一些跨时间步的复杂时空关系。近年来，一些研究基于三维GCN⁸²、时空联合GCN（STJGCN）⁸³ 和时空同步GCN（STSGCN）⁸⁴ 对时空依赖关系进行联合建模。
其中，STSGCN已成为时空相关性融合的主流方法。这种神经结构可以在统一的图结构中建立时空依赖关系模型，取代分离的空间学习网络和时间学习网络。

在这里插入图片描述

STSGNN 的关键部分是构建时空同步图。原始的时空同步图很简单，相同位置的节点在相邻的时间步长内相互连接。这种图构建方法不仅能在空间尺度上描述相邻关系，还能在时间尺度上描述相邻关系，从而建立统一的时空关系。在构建图之后，STSGNN 直接采用简单的 GCN 模型来捕捉时空依赖关系
在 STSGNN 的基础上，近年来也有一些工作²¹ ⁸⁵ ⁷⁵ ⁸⁶ ⁸⁷进一步改进了时空同步图建模：
STFGNN⁷⁵ 不仅引入了基于拓扑的图，还引入基于相似性的图来构建时空同步图，使时空同步图的信息量更大。
S2TAT⁸⁷ 提出了一个时空同步Transformer的框架，利用注意力机制提高学习能力。

5.3.2 自动时空融合

由于STGNN中有许多复杂的组件，合理设计神经架构是一个具有挑战性的问题。现有的时空融合神经架构大多是根据经验设计的，无法适应不同的数据场景，因为不同场景的时空属性各不相同。神经架构搜索（Nerual architecture search，NAS）方法为 STGNN 中的时空依赖关系自动融合带来机遇。将 STGNN 中不同的空间学习网络或时间学习网络视为不同的区块，而这些区块如何组合则可以通过 NAS 方法来学习。
受到用于网格交通预测的 AutoST⁸⁸ 的启发，AutoSTG⁸⁹ 首次尝试将最经典的基于梯度的NAS方法 DARTS⁹⁰ 引入 STGNN。在 AutoSTG中，整个神经网络被划分为不同的堆叠单元，这些单元是执行 NAS 的基本单元。

在这里插入图片描述

在搜索阶段，DARTS 通过概率参数化方法获得每个中间隐藏状态的表示：
$\mathcal{H}^j=\sum\limits_{i<j}\sum\limits_{o\in\mathcal{O}}\frac{exp(\alpha_o^{(i,j)})}{\sum_{o'\in\mathcal{O}}exp(\alpha_{o'}^{(i,j)})}o(\mathcal{H}^i) \qquad(26)$
$\mathcal{H}^i$ 是第 i 个中间隐藏状态， $\mathcal{O}$ 是操作集，o是操作集中的一个具体操作， $\alpha_o^{(i,j)}$ 是从第 i 个隐藏状态到第 j 个隐藏状态的架构参数。搜索结束后，神经架构会根据有最高 $\alpha_o^{(i,j)}$ 值的操作固定下来。
受 AutoSTG 的启发，近年来也有一些工作 ²¹ ⁸⁶ ⁹¹ ⁹²将 NAS 集成到 STGNN 中：
AutoSTS²¹ 将 NAS 集成到时空同步图神经网络中，用于搜索不同 GCN 和 TCN 的最佳架构。
Auto-DSTSGN⁸⁶ 也将 NAS 集成到时空同步图神经网络中，但该模型侧重于搜索时空同步图的最优邻接矩阵。
AutoCTS⁹² 实现了对时空块和骨干神经架构的联合搜索。

5.4 与STGNN结合的先进方法 Advanced Methods Combined with STGNN

5.4.1 对抗学习（Adversarial Learning）

考虑到传统预测学习任务中通常使用 L1 和 L2 范数等数据点误差作为损失函数，这种优化目标缺乏对预测数据与真实数据之间的分布和相关性的测量，可能会导致预测结果失真。因此，可以引入对抗损失，与传统损失相结合，在一定程度上解决这一问题，对抗损失已被广泛应用于时间序列预测中。
对抗损失需要由生成式对抗网络（GANs）驱动，因此神经预测器通常被用作生成器，而判别器的神经结构则需要单独设计。近年来也有许多研究⁴³ ⁹³ 将对抗损失与 STGNN 架构相结合，用于预测学习任务，但对于社会系统中的某些预测学习场景，从时空尺度上区分预测结果是一项挑战。
例如，TFGAN⁹³ 提出了一种结合对抗损失的 STGNN 模型，用于流量预测，其判别器（discriminator）由 GCN 和 GRU 组成。

在这里插入图片描述

GCN 和 GRU 的组合可以共同从空间和时间维度对预测结果进行判别，从而确保预测结果在时空尺度上与真实数据分布相似。TFGAN 是通过生成器 G 和判别器 D 之间进行min-max博弈对抗训练的，该模型的生成器 G 是带有多图卷积的 STGNN。
TFGAN的损失函数：
$\begin{split} &\mathcal{L}_G=\mathbb{E}_{\hat{z}\sim P_{(F)}}[log(1-\bm{D}(\hat{z}))]\\ &\mathcal{L}_M=\frac{1}{b}\sum\limits_{i=1}^{b}\Vert Y^i-\mathcal{y}^i\Vert^2\\ &\mathcal{L}_D=\mathbb{E}_{z\sim P_{(R)}}[log(\bm{D}(z))]+\mathbb{E}_{\hat{z}\sim P_{(F)}}[log(1-\bm{D}(\hat{z}))]\\ &\theta_G,\theta_D=\mathop{\min}\limits_{\theta_G}[\lambda\mathcal{L}_M+\mathop{\max}\limits_{\theta_D}\mathcal{L}_D] \end{split} \qquad(27)$
$\mathcal{L}_G$ 是生成器损失， $\mathcal{L}_M$ 是预测结果和实际数据之间的均方差， $\mathcal{L}_D$ 是判别器损失， $\bm{D}(\cdot)$ 是判别器网络，生成器网络的参数 $\theta_G$ 和判别器网络的参数 $\theta_D$ 按照min-max目标进行优化。

5.4.2 元学习（Meta-Learning）

元学习是一种先进的学习范式，其重点是 “如何学会学习”。由于 STGNN 模型可以从原始数据中捕捉高维异质性和动态时空依赖性，因此教会其如何学习非常重要，让这些模型可以站在更高的起点上，显著提高预测性能。在大多数现有研究中，STGNN 模型中的元学习技术是通过使用元学习器提取额外的时空属性来实现的。
ST-MetaNet ⁹⁴ 是首个将元学习引入 STGNN 的工作。

在这里插入图片描述

该模型的神经结构主要由 RNN、MetaGAT 和 Meta-RNN 组成。为了充分利用额外的时空信息，ST-MetaNet 提出了两种元知识学习器：

节点元知识（node meta-knowledge，NMK）学习器，旨在从节点属性（如：距离、 RNs）中学习元知识。
边缘元知识（edge meta-knowledge，EMK）学习器，旨在从边缘属性（如：位置、 POIs）中学习元知识。

两种不同的元知识学习器都使用全连接网络作为基本学习网络。学到的元知识进一步用于学习 Meta-RNN 和 Meta-GAT 的权重。
任意空间节点 i 的Meta-RNN计算过程表述为：
$\begin{split} &W_{\Omega}^{(i)}=g_{W_{\Omega}}(NMK(v^{i}))\\ &U_{\Omega}^{(i)}=g_{U_{\Omega}}(NMK(v^{i}))\\ &b_{\Omega}^{(i)}=g_{b_{\Omega}}(NMK(v^{i}))\\ &h_{t}^{(i)}=GRU(z_t^{(i)},h_{t-1}^{(i)}|W_{\Omega}^{(i)},U_{\Omega}^{(i)},b_{\Omega}^{(i)})\\ \end{split} \qquad(28)$
$W_{\Omega}^{(i)},U_{\Omega}^{(i)}$ 和 $b_{\Omega}^{(i)}$ 是GRU中的学习参数，是由节点知识元学习器根据节点属性 $v^{(i)}$ 生成的。元学习器由三个不同的全连接网络 $g_{W_{\Omega}},g_{U_{\Omega}}$ 和 $g_{b_{\Omega}}$ 组成。
在 ST-MetaNet 的基础上，还提出了其他一些与元学习相结合的 STGNN 模型：
STMetaNet+ ⁹⁵ 融合了动态时空状态和元知识，用于生成 GAT 和 GRU 的权重。
AutoSTG ⁸⁹ 在引入神经架构搜索的同时也采用了与 ST-MetaNet 类似的元学习方法，利用元知识生成图卷积和时序卷积的权重参数。
MegaCRN ⁹⁶ 提出了一种基于注意力的记忆网络，用于记忆所见样本中的典型特征，以便进一步进行模式匹配，从而增强图结构学习的能力。
此外，元学习还可用于预测学习中的时空图知识转移 ⁹⁷, ⁹⁸。

5.4.3 自监督学习（Self-Supervised Learning）

自监督学习是一种通过自我构建标签，将无监督学习任务转化为有监督任务的方法，这种学习范式的目的是为下游监督任务学习更好的表征，也就是说，通过自监督学习，可以学习到具有强大泛化性能的表征。因此，STGNN 模型与自监督学习相结合，可以增强时空图学习的能力，提高下游预测学习任务的准确性。
对比学习（Contrastive learning）是通过构建正负样本实现的最重要的自监督学习方法之一，近年来已被引入 STGNN 模型。
STGCL ⁹⁹ 是首个将对比学习与 STGNN 架构相结合的工作。

在这里插入图片描述

首先进行数据增强，以构建正负样本，其中包括边缘屏蔽（edge masking）、输入屏蔽（input masking）和时移（temporal shifting）。
获得正样本和负样本后，使用相同的 STG 编码器分别学习原始数据和增强数据的时空图表示。
然后，STGCL 分裂为两个分支：预测分支和对比分支。

在预测分支中，STG 解码器直接输出预测结果，数据点误差（如 MAE）可用作损失函数。
在对比分支中，两类表征 H’ 和 H’’ 传递至映射头，进一步得到潜在表征 z’ 和 z’'。

对于双潜在表示，也可以采用GraphCL[^232] 中提出的对比损失：
$\mathcal{L}_{cl}=\frac{1}{M}\sum\limits_{i=1}^M -log\frac{exp(sim(\bm{z}_i',\bm{z}_i'')/\tau)}{\sum_{j\in x_i}exp(sim(\bm{z}_i',\bm{z}_j'')/\tau)} \qquad(29)$
sim(.)表示余弦相似性， $\tau$ 是温度参数。此外，STGCL 还提出，根据时空图数据的独特属性（如：每个节点的一阶邻居、接近性和周期性时间模式）过滤掉不合适的负样本，因为它们在潜空间中具有相似性。
在 STGCL 的基础上，近年来还提出了其他一些对比学习方法，以提高 STGNN 的学习能力。
SPGCL[^216] 提出通过最大化正负邻域之间的区分余量来学习信息关系，从而生成最佳图结构。
ST-SSL[^217] 提出了一种在属性和结构层面对时空图数据进行自适应增强的方法。
START[^140] 为轨迹表示学习提出了一种基于时空图的对比学习方法。该模型提出了多种负轨迹构建方法，如轨迹修剪和路段掩码，有助于 STGNN 模型在旅行时间预测任务中取得更好的性能。

5.4.4 连续时空建模（Continuous Spatio-Temporal modeling）

关于 STGNN 的现有研究大多以离散形式对空间和时间依赖关系进行建模，这会导致不连续的潜在状态轨迹和较高的预测误差。为解决这一问题，近年来有人提出了连续时空建模方法。受神经常微分方程（Neural-ODE）¹⁰⁰ 这一著名的连续系统建模方法的启发，STGNN 与神经常微分方程相结合，可以提高连续形式的时空图表征学习能力。STGODE[^218] 是第一个将Neural-ODE 引入 STGNN 的工作，但该模型只考虑了将Neural-ODE 与 GCN 集成，忽略了对时间模式的连续建模。为了实现时空依赖关系的联合连续建模，MTGODE [^219] 提出将Neural-ODE 与图卷积算子和时间卷积算子分别进行整合，其时空编码部分如图24 所示。

在这里插入图片描述

在这一模型中，带有残差连接的多层 GCN 被转换为连续形式，由常微分方程来表示：
$\frac{d\bm{H}^{G}(t)}{dt}=(\hat{\bm{A}}-\bm{I}_N)\bm{H}^G(t) \qquad(30)$
$\hat{\bm{A}}$ 是邻接矩阵， $\bm{H}^G(t)$ 是连续隐藏状态，在MTGODE中， $\hat{\bm{A}}$ 是一个自适应图，由公式25 得到。
为了获得 ODE 的近似解，ODESolver(.) 可以是文献¹⁰⁰ 中介绍的任何黑盒 ODE 求解器，如Euler、Euler-Cauchy 和 Runge Kuta 四阶求解器。给定初始隐藏状态 $\bm{H}^G(0)$ ，GCN在 t 时刻的连续隐藏状态就可以被近似计算：
$\bm{H}^G(t_i)=ODESolver(\bm{H}^G(0),\frac{d\bm{H}^G(t)}{dt},t_i) \qquad(31)$
与连续GCN类似，带有残差连接的多层TCN也被转换为连续形式，由方程表示：
$\frac{d\bm{H}^{T}(t)}{dt}=\mathcal{P}(TCN(\bm{H}^T(t),t,\bm{\Theta}),R) \qquad(32)$
$\mathcal{P}$ 是填充操作， $\Theta$ 是卷积核的参数，R是TCN的感受野。需要注意的是，时间维度需要保持一致，以确保隐藏状态的连续性，因此需要进行填充操作。TCN 中 t 时刻的连续隐藏状态可以通过 ODE 求解器近似计算：
$\tilde{\bm{H}}^T_{out}=ODESolver(\bm{H}^T(0),\frac{d\bm{H}^T(t)}{dt},t_i) \qquad(33)$
Social ODE[^234] 将基于ODE的STGNN扩展到多代理轨迹预测场景。
MixRNN+[^235] 将Nerual-ODE和RNN结合，用于连续循环隐藏状态的建模。
STG-NCDE[^220] 开发了一种 STGNN 与神经控制微分方程（Neural-CDE）相结合的方法，与基于 Neural-ODE 的方法相比，它能更好地进行连续建模。

5.4.5 物理信息学习（Physics-Informed Learning）

近年来，物理信息神经网络（physics-informed neural networks，PINNs）[236] 已成为探索和计算真实世界动力学的新范例，它将物理微分方程和具有强大拟合能力的神经网络融为一体。PINN 的优势在于可以将预测限制在符合物理定律的范围内。
受到基于简单神经网络的 PINNs 的启发，物理信息学习方法也可以与 STGNNs 相结合，尤其是在流行病预测任务中 [^95] -[^99]。
STAN 首先将 SIR 微分方程的约束条件整合到 STGNN 架构中。

在这里插入图片描述

该模型使用 GAT 和 GRU 分别捕捉空间和时间依赖关系，并进行多任务预测。
模型的输出有四个组成部分：传播率 β、恢复率 γ、随时间变化的感染数 ∆I 和恢复数 ∆R。它们需要满足以下基于 SIR 方程的物理约束条件：
$\begin{split} &\frac{dR}{dt}=\gamma I\\ &\frac{dI}{dt}=\beta S-\gamma I\\ &S=N-I-R \end{split} \qquad(34)$
S 表示幸存者，N 表示总人数。在 STAN 中，使用了约束损失来强制要求预测的时变感染率和恢复率与 SIR 方程计算出的感染率和恢复率相近。
除了流行病预测任务，STDEN ²⁵ 提出将交通势能场微分方程和神经网络统一到一个框架中，用于交通流预测。
文献 ⁴⁴ 提出从基于物理的模型中转移知识，指导循环图卷积神经网络的学习，从而预测河网中的流量和温度。

5.4.6 迁移学习（Transfer Learning）

由于某些时空图数据的稀缺性，迁移学习技术已成为将相同的 STGNN 基本模型扩展到不同数据场景的最低成本方法。然而，迁移学习与 STGNN 的结合存在两个主要限制：

空间结构的异质性；
不同场景中时间模式的异质性。

具体来说，在不同的场景中，空间拓扑结构、关系等完全不同，周期性和趋势等时间模式也完全不同。关于时空图迁移学习的现有文献可以被粗略划分为三类：基于聚类[^222]、基于区域自适应和基于元学习。
TL-DCRNN[^222] 提出一种图划分方法，将整个高速公路网络划分为不同的子簇，然后使用 DCRNN 模型学习从源子簇到目标子簇的时空依赖关系。
DASTNet[^223]将图表示学习和多域对抗适应方法相结合，获得域不变节点嵌入（domain-invariant node embedding），实现不同空间结构的不同场景之间的知识转移。
STGFSL⁹⁷ 首次提出用于跨城市知识迁移的模型识别元学习（MAML）方法。在该模型中，第一步是在多个源数据集上进行基础模型元训练，生成用于适应的参数，在适应阶段，基础 STGNN 的特征提取器由生成的参数初始化，然后在目标数据集上进一步联合训练特征提取器和预测器的参数。
为了给今后的研究打下坚实的基础，一些典型 STGNN 模型的源代码收集在表3 中，并根据改进后的时空相关性学习方法对它们进行了分类。

在这里插入图片描述

六、挑战和未来方向 Challenges and Future Directions

本文研究了 STGNN 在社会系统预测学习中的应用、基本神经架构和最新进展。虽然 STGNN 模型近年来取得了令人瞩目的成绩，但仍有一些具有挑战性的问题有待解决，这也指明了未来潜在的研究方向。

缺乏可解释性
迄今为止，绝大多数 STGNN 相关工作都侧重于通过复杂的模型设计来提高预测性能，关于模型可解释性的研究却相对缺乏，也就是说，我们无法清楚地了解哪些时空特征在提高预测性能方面起着主导作用。在最新的研究中，STNSCM[^241] 提出构建一个因果图来描述自行车流预测，并分析时空特征与预测结果之间的因果关系。基于因果关系的时空图建模可能是增强 STGNN 模型可解释性的一个潜在方向。
缺乏校准方法
不确定性量化对实际工业生产具有重要意义，它反映了人们对模型预测结果的信任程度。为了提高深度模型的可信度，适当的模型校准方法是必要的，近年来这种方法已广泛应用于图像识别[^242] 和图表示学习[^243] 。目前，只有文献[^244] [^245]对 STGNN 模型的不确定性进行了研究，缺乏对校准方法的研究。STGNN 模型的校准需要同时考虑空间和时间的特征，因此比以往的相关工作更具挑战性。
缺乏物理限制
在以往的大多数研究中，STGNN 模型通过集成深度神经网络来捕捉复杂的时空依赖关系，而忽略了对不同应用领域物理约束条件的考虑，这使得该模型在一些专业领域的认可度较低。近年来，虽然一些用于疫情预测的 STGNN 模型结合了专业微分方程作为物理约束[^95] - [^99]，但这类工作仍较少，在其他应用领域还有待改进。
缺乏预训练技术
近年来，预训练技术在时间序列和图表示学习领域得到了极大发展，但在 STGNN 相关工作中却相对缺乏。在最近的工作中，STEP[^246] 提出了一种结合掩码自动编码器（Mask AutoEncoder，MAE）[^247] 架构的预训练模型，可以从非常长期的历史时空图数据中高效地学习时间模式。未来，长程空间和长程时间学习的预训练技术很有必要，这对 STGNN 模型的可扩展性和可部署性具有重要价值。
分布偏移的障碍
时空数据（如道路网络上的交通流量）通常是从不同地点和时间段收集的，这导致训练集、验证集和测试集的分布存在显著差异。例如，训练集可能跨越前两年，而验证集和测试集则来自后两年。这可能会给 STGNN 带来挑战，因为在一个数据集上训练出的模型在验证集和测试集上可能会因为分布偏移而表现不佳，这类似于领域适应中的分布偏移问题（即输入和输出的联合分布在训练和测试阶段有所不同）。尽管这个问题很重要，但在时空研究领域却没有得到足够的重视。虽然有几项研究[^248] 探讨了如何克服时间序列中的分布偏移问题，但这些研究未能对位置之间的空间相关性进行编码。
探索新的培训策略
以往的研究主要集中在引入具有复杂层或模块的新型STGNN，以增强人类的移动分析能力。不过，另一个有前途的方向是研究新的训练策略。例如，在交通预测任务中，每个地点都被平等对待，属于这些地点的数据被共同输入神经网络。然而，对每个地点的时空相关性进行建模的复杂性可能差别很大，这就需要一种新的训练策略，如课程学习（curriculum learning）。课程学习从较简单的数据开始，在难度越来越高的数据上训练机器学习模型，可以有效解决这一问题。此外，STGNNs 的其他潜在训练策略还包括多任务学习、迁移学习和持续学习。通过探索新的训练策略，可以提高 STGNN 的性能和准确性，使它们能够处理更复杂的任务。
可扩展性问题
在设计高效 STGNN 时，一个特别具有挑战性的情况是传感器网络中的位置数量非常多。例如，在 PEMS 系统中有超过一万个回路探测器。在这种情况下，就需要开发 STGNNs，既能高效处理和分析网络产生的大量时空数据，又能保持较高的预测精度。在这种情况下，我们需要更高效的人工智能解决方案，例如通过模型剪枝/蒸馏、图采样技术或探索下一代高效人工智能模型。还有一些研究探讨了无图方法[^249] ，以便在扩展到大规模传感器网络时降低计算成本。

七、总结 Conclusion

本文对用于城市计算预测学习的时空图神经网络（STGNN）进行了系统研究。

首先介绍时空图数据的基本形式和构建方法；
然后总结城市计算不同应用领域中涉及时空图神经网络的预测学习任务；
接着从基本神经网络架构的角度出发，介绍构成 STGNN 的空间学习网络和时间学习网络的基本组成部分，如图神经网络（GNNs）、循环神经网络（RNNs）、时序卷积网络（TCNs）、自注意网络（SANs）等，总结了时空神经架构的基本融合形式；
为进一步跟踪 STGNN 近年来的前沿进展，本文以空间依赖学习方法、时间依赖学习方法、时空依赖融合方法和其他可结合的先进技术为主线，总结了相关的典型工作；
最后总结了当前研究面临的挑战，并提出了一些潜在的研究方向。

本文中未完全列出所有参考文献，完整参考文献见原论文。

回到开头

Y. Zheng, L. Capra, O. Wolfson, and H. Yang, “Urban computing: concepts, methodologies, and applications,” ACM Transactions on Intelligent Systems and Technology (TIST), vol. 5, no. 3, pp. 1–55, 2014. ↩︎
X. Wang, L. Li, Y. Yuan, P. Ye, and F.-Y. Wang, “Acp-based social computing and parallel intelligence: Societies 5.0 and beyond,” CAAI Transactions on Intelligence Technology, vol. 1, no. 4, pp. 377–393, 2016. ↩︎
S. Wang, J. Cao, and P. Yu, “Deep learning for spatio-temporal data mining: A survey,” IEEE transactions on knowledge and data engineering, 2020. ↩︎ ↩︎ ↩︎
H. Drucker, C. J. Burges, L. Kaufman, A. Smola, and V. Vapnik, “Support vector regression machines,” in NIPS, vol. 9, 1996. ↩︎
L. Breiman, “Random forests,” Machine learning, vol. 45, pp. 5–32, 2001. ↩︎
A. Natekin and A. Knoll, “Gradient boosting machines, a tutorial,” Frontiers in neurorobotics, vol. 7, p. 21, 2013. ↩︎
J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, G. Wang, J. Cai, et al., “Recent advances in convolutional neural networks,” Pattern recognition, vol. 77, pp. 354–377, 2018. ↩︎
Y. Yu, X. Si, C. Hu, and J. Zhang, “A review of recurrent neural networks: Lstm cells and network architectures,” Neural computation, vol. 31, no. 7, pp. 1235–1270, 2019. ↩︎
X. Shi, Z. Chen, H. Wang, D.-Y. Yeung, W.-K. Wong, and W.-c. Woo, “Convolutional lstm network: A machine learning approach for precipitation nowcasting,” in NIPS, vol. 28, 2015. ↩︎
Y. Wang, M. Long, J. Wang, Z. Gao, and P. S. Yu, “Predrnn: Recurrent neural networks for predictive learning using spatiotemporal lstms,” in NIPS, vol. 30, 2017. ↩︎
J. Ye, J. Zhao, K. Ye, and C. Xu, “How to build a graph-based deep learning architecture in traffic domain: A survey,” IEEE Transactions on Intelligent Transportation Systems, vol. 23, no. 5, pp. 3904–3924, 2020. ↩︎ ↩︎
K.-H. N. Bui, J. Cho, and H. Yi, “Spatial-temporal graph neural
network for traffic forecasting: An overview and open research issues,” Applied Intelligence, vol. 52, no. 3, pp. 2763–2774, 2022. ↩︎ ↩︎
W. Jiang and J. Luo, “Graph neural network for traffic forecasting: A survey,” Expert Systems with Applications, p. 117921, 2022. ↩︎ ↩︎
N. Gao, H. Xue, W. Shao, S. Zhao, K. K. Qin, A. Prabowo, M. S. Rahaman, and F. D. Salim, “Generative adversarial networks for spatiotemporal data: A survey,” ACM Transactions on Intelligent Systems and Technology (TIST), vol. 13, no. 2, pp. 1–25, 2022. ↩︎
S. Guo, Y. Lin, H. Wan, X. Li, and G. Cong, “Learning dynamics and heterogeneity of spatial-temporal graph data for traffic forecasting,” IEEE Transactions on Knowledge and Data Engineering, vol. 34, no. 11, pp. 5415–5428, 2021. ↩︎ ↩︎
X. Wang, Y. Ma, Y. Wang, W. Jin, X. Wang, J. Tang, C. Jia, and J. Yu, “Traffic flow prediction via spatial temporal graph neural network,” in WWW, 2020, pp. 1082–1092. ↩︎ ↩︎ ↩︎
D. Chai, L. Wang, and Q. Yang, “Bike flow prediction with multi-graph convolutional networks,” in SIGSPATIAL, 2018, pp. 397–400. ↩︎ ↩︎
B. Yu, H. Yin, and Z. Zhu, “Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting,” arXiv preprint arXiv:1709.04875, 2017. ↩︎ ↩︎ ↩︎
G. Jin, Z. Xi, H. Sha, Y. Feng, and J. Huang, “Deep multi-view graph-based network for citywide ride-hailing demand prediction,” Neurocomputing, vol. 510, pp. 79–94, 2022. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
L. Liu, J. Chen, H. Wu, J. Zhen, G. Li, and L. Lin, “Physical-virtual collaboration modeling for intra-and inter-station metro ridership prediction,” IEEE Transactions on Intelligent Transportation Systems, vol. 23, no. 4, pp. 3377–3391, 2020. ↩︎
F. Li, H. Yan, G. Jin, Y. Liu, Y. Li, and D. Jin, “Automated spatiotemporal synchronous modeling with multiple graphs for traffic prediction,” in CIKM, 2022, pp. 1084–1093. ↩︎ ↩︎ ↩︎ ↩︎
H. Shi, Q. Yao, Q. Guo, Y. Li, L. Zhang, J. Ye, Y. Li, and Y. Liu, “Predicting origin-destination flow via multi-perspective graph convolutional network,” in ICDE. IEEE, 2020, pp. 1818–1821. ↩︎
X. Geng, Y. Li, L. Wang, L. Zhang, Q. Yang, J. Ye, and Y. Liu, “Spatiotemporal multi-graph convolution network for ride-hailing demand forecasting,” in AAAI, vol. 33, no. 01, 2019, pp. 3656–3663. ↩︎ ↩︎ ↩︎
L. Zhao, Y. Song, C. Zhang, Y. Liu, P. Wang, T. Lin, M. Deng, and H. Li, “T-gcn: A temporal graph convolutional network for traffic prediction,” IEEE transactions on intelligent transportation systems, vol. 21, no. 9, pp. 3848–3858, 2019. ↩︎ ↩︎
J. Ji, J. Wang, Z. Jiang, J. Jiang, and H. Zhang, “Stden: Towards physics-guided neural networks for traffic flow prediction,” in AAAI, vol. 36, no. 4, 2022, pp. 4048–4056. ↩︎ ↩︎
Y. Li, R. Yu, C. Shahabi, and Y. Liu, “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting,” arXiv preprint arXiv:1707.01926, 2017. ↩︎ ↩︎
L. Li, J. Bi, K. Yang, F. Luo, and L. Yang, “Mgc-gan: Multi-graph convolutional generative adversarial networks for accurate citywide traffic flow prediction,” in SMC. IEEE, 2022, pp. 2557–2562. ↩︎
X. Zhang, C. Huang, Y. Xu, L. Xia, P. Dai, L. Bo, J. Zhang, and Y. Zheng, “Traffic flow forecasting with spatial-temporal graph diffusion network,” in AAAI, vol. 35, no. 17, 2021, pp. 15 008–15 015. ↩︎ ↩︎
J. Sun, J. Zhang, Q. Li, X. Yi, Y. Liang, and Y. Zheng, “Predicting citywide crowd flows in irregular regions using multi-view graph convolutional networks,” IEEE Transactions on Knowledge and Data Engineering, vol. 34, no. 5, pp. 2348–2359, 2020. ↩︎ ↩︎
X. Zhang, C. Huang, Y. Xu, and L. Xia, “Spatial-temporal convolutional graph attention networks for citywide traffic flow forecasting,” in CIKM, 2020, pp. 1853–1862. ↩︎ ↩︎
G. Jin, Y. Cui, L. Zeng, H. Tang, Y. Feng, and J. Huang, “Urban ridehailing demand prediction with multiple spatio-temporal information fusion network,” Transportation Research Part C: Emerging Technologies, vol. 117, p. 102665, 2020. ↩︎
J. Ye, L. Sun, B. Du, Y. Fu, and H. Xiong, “Coupled layer-wise graph convolution for transportation demand prediction,” in AAAI, vol. 35, no. 5, 2021, pp. 4617–4625. ↩︎ ↩︎ ↩︎
Y. Wang, H. Yin, H. Chen, T. Wo, J. Xu, and K. Zheng, “Origin-destination matrix prediction via graph convolution: a new perspective of passenger demand modeling,” in Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, 2019, pp. 1227–1235. ↩︎
B. Huang, K. Ruan, W. Yu, J. Xiao, R. Xie, and J. Huang, “Odformer: Spatial-temporal transformers for long sequence origin-destination matrix forecasting against cross application scenario,” Expert Systems with Applications, p. 119835, 2023. ↩︎
J. Hu, B. Yang, C. Guo, C. S. Jensen, and H. Xiong, “Stochastic origindestination matrix forecasting using dual-stage graph convolutional, recurrent neural networks,” in 2020 IEEE 36th International conference on data engineering (ICDE). IEEE, 2020, pp. 1417–1428. ↩︎
Z. Dapeng and F. Xiao, “Dynamic auto-structuring graph neural network: a joint learning framework for origin-destination demand prediction,” IEEE Transactions on Knowledge and Data Engineering, 2021. ↩︎
L. Liu, Y. Zhu, G. Li, Z. Wu, L. Bai, and L. Lin, “Online metro origin-destination prediction via heterogeneous information aggregation,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022. ↩︎
B. Wang, Y. Lin, S. Guo, and H. Wan, “Gsnet: learning spatial-temporal correlations from geographical and semantic aspects for traffic accident risk forecasting,” in AAAI, vol. 35, no. 5, 2021, pp. 4402–4409. ↩︎
L. Yu, B. Du, X. Hu, L. Sun, L. Han, and W. Lv, “Deep spatiotemporal graph convolutional network for traffic accident prediction,” Neurocomputing, vol. 423, pp. 135–147, 2021. ↩︎
Z. Wang, R. Jiang, H. Xue, F. D. Salim, X. Song, and R. Shibasaki, “Event-aware multimodal mobility nowcasting,” in AAAI, vol. 36, no. 4, 2022, pp. 4228–4236. ↩︎
Z. Zhou, Y. Wang, X. Xie, L. Chen, and H. Liu, “Riskoracle: a minutelevel citywide traffic accident forecasting framework,” in AAAI, vol. 34, no. 01, 2020, pp. 1258–1265. ↩︎ ↩︎
K. Fu, F. Meng, J. Ye, and Z. Wang, “Compacteta: A fast inference system for travel time prediction,” in SIGKDD, 2020, pp. 3337–3345 ↩︎
J. Han, H. Liu, H. Zhu, H. Xiong, and D. Dou, “Joint air quality and weather prediction based on multi-adversarial spatiotemporal networks,” in AAAI, vol. 35, no. 5, 2021, pp. 4081–4089. ↩︎ ↩︎ ↩︎
X. Jia, J. Zwart, J. Sadler, A. Appling, S. Oliver, S. Markstrom, J. Willard, S. Xu, M. Steinbach, J. Read, et al., “Physics-guided recurrent graph model for predicting flow and temperature in river networks,” in SDM. SIAM, 2021, pp. 612–620. ↩︎ ↩︎
N. Rathore, P. Rathore, A. Basak, S. H. Nistala, and V. Runkana, “Multi scale graph wavenet for wind speed forecasting,” in Big Data. IEEE, 2021, pp. 4047–4053. ↩︎ ↩︎
L. Xia, C. Huang, Y. Xu, P. Dai, L. Bo, X. Zhang, and T. Chen, “Spatial-temporal sequential hypergraph network for crime prediction with dynamic multiplex relation learning.” in IJCAI, 2021, pp. 1631–1637. ↩︎ ↩︎ ↩︎ ↩︎
G. Jin, C. Liu, Z. Xi, H. Sha, Y. Liu, and J. Huang, “Adaptive dualview wavenet for urban spatial–temporal event prediction,” Information Sciences, vol. 588, pp. 315–330, 2022. ↩︎ ↩︎
Z. Wang, T. Xia, R. Jiang, X. Liu, K.-S. Kim, X. Song, and R. Shibasaki, “Forecasting ambulance demand with profiled human mobility via heterogeneous multi-graph neural networks,” in ICDE. IEEE, 2021, pp. 1751–1762. ↩︎ ↩︎
D. K Hammond, P. Vandergheynst, and R. Gribonval, “Wavelets on graphs via spectral graph theory,” Applied and Computational Harmonic Analysis, vol. 30, no. 2, pp. 129–150, 2011. ↩︎
M. Defferrard, X. Bresson, and P. Vandergheynst, “Convolutional neural networks on graphs with fast localized spectral filtering,” in NIPS, vol. 29, 2016. ↩︎
T. N. Kipf and M. Welling, “Semi-supervised classification with graph convolutional networks,” arXiv preprint arXiv:1609.02907, 2016. ↩︎
W. Hamilton, Z. Ying, and J. Leskovec, “Inductive representation learning on large graphs,” in NIPS, vol. 30, 2017. ↩︎
P. Velickovi ˇ c, G. Cucurull, A. Casanova, A. Romero, P. Lio, ´ and Y. Bengio, “Graph attention networks,” arXiv preprint arXiv:1710.10903, 2017. ↩︎
Cho, Kyunghyun et al. “Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation.” Conference on Empirical Methods in Natural Language Processing (2014).DOI:10.3115/v1/D14-1179. ↩︎
Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, “Language modeling with gated convolutional networks,” in ICML. PMLR, 2017, pp. 933– 941. ↩︎
F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015. ↩︎
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol. 30, 2017. ↩︎ ↩︎
K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, ¨ H. Schwenk, and Y. Bengio, “Learning phrase representations using rnn encoder-decoder for statistical machine translation,” arXiv preprint arXiv:1406.1078, 2014 ↩︎
M. Sun, P. Zhou, H. Tian, Y. Liao, and H. Xie, “Spatial-temporal attention network for crime prediction with adaptive graph learning,” in ICANN. Springer, 2022, pp. 656–669. ↩︎
Z. Wu, S. Pan, G. Long, J. Jiang, and C. Zhang, “Graph wavenet for deep spatial-temporal graph modeling,” arXiv preprint arXiv:1906.00121, 2019. ↩︎ ↩︎
Z. Shao, Z. Zhang, W. Wei, F. Wang, Y. Xu, X. Cao, and C. S. Jensen, “Decoupled dynamic spatial-temporal graph neural network for traffic forecasting,” arXiv preprint arXiv:2206.09112, 2022. ↩︎ ↩︎
Z. Wu, S. Pan, G. Long, J. Jiang, X. Chang, and C. Zhang, “Connecting the dots: Multivariate time series forecasting with graph neural networks,” in SIGKDD, 2020, pp. 753–763. ↩︎ ↩︎ ↩︎ ↩︎
L. Han, B. Du, L. Sun, Y. Fu, Y. Lv, and H. Xiong, “Dynamic and multi-faceted spatio-temporal deep learning for traffic speed forecasting,” in SIGKDD, 2021, pp. 547–555. ↩︎
F. Li, J. Feng, H. Yan, G. Jin, F. Yang, F. Sun, D. Jin, and Y. Li, “Dynamic graph convolutional recurrent network for traffic prediction: Benchmark and solution,” ACM Transactions on Knowledge Discovery from Data (TKDD), 2021. ↩︎ ↩︎
S. Lan, Y. Ma, W. Huang, W. Wang, H. Yang, and P. Li, “Dstagnn: Dynamic spatial-temporal aware graph neural network for traffic flow forecasting,” in ICML. PMLR, 2022, pp. 11 906–11 917. ↩︎ ↩︎
J. Fu, W. Zhou, and Z. Chen, “Bayesian spatio-temporal graph convolutional network for traffic forecasting,” arXiv preprint arXiv:2010.07498, 2020. ↩︎ ↩︎
C. Shang, J. Chen, and J. Bi, “Discrete graph structure learning for forecasting multiple time series,” arXiv preprint arXiv:2101.06861, 2021. ↩︎ ↩︎
Z. Zhou, Y. Wang, X. Xie, L. Chen, and C. Zhu, “Foresee urban sparse traffic accidents: A spatiotemporal multi-granularity perspective,” IEEE Transactions on Knowledge and Data Engineering, vol. 34, no. 8, pp. 3786–3799, 2020. ↩︎
S. Wang, M. Zhang, H. Miao, Z. Peng, and P. S. Yu, “Multivariate correlation-aware spatio-temporal graph convolutional networks for multi-scale traffic prediction,” ACM Transactions on Intelligent Systems and Technology, vol. 13, no. 3, pp. 1–22, 2022. ↩︎
L. Chen, J. Xu, B. Wu, Y. Qian, Z. Du, Y. Li, and Y. Zhang, “Groupaware graph neural network for nationwide city air quality forecasting,” arXiv preprint arXiv:2108.12238, 2021. ↩︎ ↩︎
Z. Li, C. Huang, L. Xia, Y. Xu, and J. Pei, “Spatial-temporal hypergraph self-supervised learning for crime prediction,” in ICDE. IEEE, 2022, pp. 2984–2996. ↩︎
S. Agarwal, R. Sawhney, M. Thakkar, P. Nakov, J. Han, and T. Derr, “Think: Temporal hypergraph hyperbolic network,” in ICDM. IEEE, 2022, pp. 849–854. ↩︎
Y. Qin, Y. Fang, H. Luo, F. Zhao, and C. Wang, “Dmgcrn: Dynamic multi-graph convolution recurrent network for traffic forecasting,” arXiv preprint arXiv:2112.02264, 2021. ↩︎
M. Yang, M. Zhou, Z. Li, J. Liu, L. Pan, H. Xiong, and I. King, “Hyperbolic graph neural networks: A review of methods and applications,” arXiv preprint arXiv:2202.13852, 2022. ↩︎
M. Li and Z. Zhu, “Spatial-temporal fusion graph neural networks for traffic flow forecasting,” in AAAI, vol. 35, no. 5, 2021, pp. 4189–4196. ↩︎ ↩︎ ↩︎
S. Guo, Y. Lin, N. Feng, C. Song, and H. Wan, “Attention based spatialtemporal graph convolutional networks for traffic flow forecasting,” in Proceedings of the AAAI conference on artificial intelligence, vol. 33, no. 01, 2019, pp. 922–929. ↩︎ ↩︎
B. N. Oreshkin, A. Amini, L. Coyle, and M. Coates, “Fc-gaga: Fully connected gated graph architecture for spatio-temporal traffic forecasting,” in AAAI, vol. 35, no. 10, 2021, pp. 9233–9241. ↩︎ ↩︎
Y. Fang, Y. Qin, H. Luo, F. Zhao, B. Xu, C. Wang, and L. Zeng, “Spatio-temporal meets wavelet: Disentangled traffic flow forecasting via efficient spectral graph attention network,” arXiv e-prints, pp. arXiv–2112, 2021. ↩︎ ↩︎
D. Cao, Y. Wang, J. Duan, C. Zhang, X. Zhu, C. Huang, Y. Tong, B. Xu, J. Bai, J. Tong, et al., “Spectral temporal graph neural network for multivariate time-series forecasting,” in NIPS, vol. 33, 2020, pp. 17 766–17 778. ↩︎ ↩︎
B. N. Oreshkin, D. Carpov, N. Chapados, and Y. Bengio, “N-beats: Neural basis expansion analysis for interpretable time series forecasting,” arXiv preprint arXiv:1905.10437, 2019. ↩︎ ↩︎
Z. Shao, Z. Zhang, W. Wei, F. Wang, Y. Xu, X. Cao, and C. S. Jensen, “Decoupled dynamic spatial-temporal graph neural network for traffic forecasting,” arXiv preprint arXiv:2206.09112, 2022. ↩︎
T. Xia, J. Lin, Y. Li, J. Feng, P. Hui, F. Sun, D. Guo, and D. Jin, “3dgcn: 3-dimensional dynamic graph convolutional network for citywide crowd flow prediction,” ACM Transactions on Knowledge Discovery from Data (TKDD), vol. 15, no. 6, pp. 1–21, 2021. ↩︎
C. Zheng, X. Fan, S. Pan, Z. Wu, C. Wang, and P. S. Yu, “Spatiotemporal joint graph convolutional networks for traffic forecasting,” arXiv preprint arXiv:2111.13684, 2021. ↩︎
C. Song, Y. Lin, S. Guo, and H. Wan, “Spatial-temporal synchronous graph convolutional networks: A new framework for spatial-temporal network data forecasting,” in AAAI, vol. 34, no. 01, 2020, pp. 914–921. ↩︎
Z. Wu, D. Zheng, S. Pan, Q. Gan, G. Long, and G. Karypis, “Traversenet: Unifying space and time in message passing for traffic forecasting,” IEEE Transactions on Neural Networks and Learning Systems, 2022. ↩︎
G. Jin, F. Li, J. Zhang, M. Wang, and J. Huang, “Automated dilated spatio-temporal synchronous graph modeling for traffic prediction,” IEEE Transactions on Intelligent Transportation Systems, 2022. ↩︎ ↩︎ ↩︎
T. Wang, J. Chen, J. Lu, K. Liu, A. Zhu, H. Snoussi, and B. Zhang, ¨ “Synchronous spatiotemporal graph transformer: A new framework for traffic data prediction,” IEEE Transactions on Neural Networks and Learning Systems, 2022. ↩︎ ↩︎
T. Li, J. Zhang, K. Bao, Y. Liang, Y. Li, and Y. Zheng, “Autost: Efficient neural architecture search for spatio-temporal prediction,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 2020, pp. 794–802. ↩︎
Z. Pan, S. Ke, X. Yang, Y. Liang, Y. Yu, J. Zhang, and Y. Zheng, “Autostg: Neural architecture search for predictions of spatio-temporal graph,” in WWW, 2021, pp. 1846–1855. ↩︎ ↩︎
H. Liu, K. Simonyan, and Y. Yang, “Darts: Differentiable architecture search,” arXiv preprint arXiv:1806.09055, 2018. ↩︎
G. Jin, H. Yan, F. Li, Y. Li, and J. Huang, “Hierarchical neural architecture search for travel time estimation,” in SIGSPATIAL, 2021, pp. 91–94. ↩︎
X. Wu, D. Zhang, C. Guo, C. He, B. Yang, and C. S. Jensen, “Autocts: Automated correlated time series forecasting,” Proceedings of the VLDB Endowment, vol. 15, no. 4, pp. 971–983, 2021. ↩︎ ↩︎
A. Khaled, A. M. T. Elsir, and Y. Shen, “Tfgan: Traffic forecasting using generative adversarial network with multi-graph convolutional network,” Knowledge-Based Systems, vol. 249, p. 108990, 2022. ↩︎ ↩︎
Z. Pan, Y. Liang, W. Wang, Y. Yu, Y. Zheng, and J. Zhang, “Urban traffic prediction from spatio-temporal data using deep meta learning,” in SIGKDD, 2019, pp. 1720–1730. ↩︎
Z. Pan, W. Zhang, Y. Liang, W. Zhang, Y. Yu, J. Zhang, and Y. Zheng, “Spatio-temporal meta learning for urban traffic prediction,” IEEE Transactions on Knowledge and Data Engineering, vol. 34, no. 3, pp. 1462–1476, 2020. ↩︎
R. Jiang, Z. Wang, J. Yong, P. Jeph, Q. Chen, Y. Kobayashi, X. Song, S. Fukushima, and T. Suzumura, “Spatio-temporal meta-graph learning for traffic forecasting,” arXiv preprint arXiv:2211.14701, 2022 ↩︎
B. Lu, X. Gan, W. Zhang, H. Yao, L. Fu, and X. Wang, “Spatiotemporal graph few-shot learning with cross-city knowledge transfer,” in SIGKDD, 2022, pp. 1162–1172. ↩︎ ↩︎
J. Mo and Z. Gong, “Cross-city multi-granular adaptive transfer learning for traffic flow prediction,” IEEE Transactions on Knowledge and Data Engineering, 2022. ↩︎
X. Liu, Y. Liang, C. Huang, Y. Zheng, B. Hooi, and R. Zimmermann, “When do contrastive learning signals help spatio-temporal graph forecasting?” in SIGSPATIAL, 2022, pp. 1–12. ↩︎
R. T. Chen, Y. Rubanova, J. Bettencourt, and D. K. Duvenaud, “Neural ordinary differential equations,” in NIPS, vol. 31, 2018. ↩︎ ↩︎

torch_M

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【文献阅读-综述】图神经网络 Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing

围绕时空图神经网络（STGNN）展开的综述，包含研究情况、基本结构、先进技术、现存问题等。
复制链接

扫一扫