AAAI 2025| ST-FiT：使用有限训练数据的归纳时空预测-CSDN博客

本文链接：https://blog.csdn.net/m0_59164520/article/details/146184725

论文标题：ST-FiT: Inductive Spatial-Temporal Forecasting with Limited Training Data

代码：https://github.com/LzyFischer/InductiveST

TL, DR：ST-FiT通过时间数据增强和空间拓扑学习，解决时空图中训练数据有限时的归纳式预测问题，提升模型泛化能力，在缺少数据情况下表现优异。

关键词：STGNN，交通预测

摘要

时空图广泛应用于各种实际应用中。时空图神经网络 (STGNN) 已成为从这些数据中提取有意义见解的强大工具。然而，在实际应用中，大多数节点在训练期间可能不具备任何可用的时间数据。例如，由于疫情的异步性，地理图上大多数城市的疫情动态可能不可用。这种现象与大多数现有时空预测方法的训练要求不符，危及了它们的有效性，从而阻碍了更广泛的部署。在本文中，提出用有限的训练数据制定一种新的归纳预测问题。具体来说，给定一个时空图，目标是学习一个时空预测模型，该模型可以在没有任何可用时间训练数据的情况下轻松推广到这些节点上。为了解决这个问题，我们提出了一个名为 ST-FiT 的原则框架。ST-FiT 由两个关键的学习组件组成：时间数据增强和空间图拓扑学习。通过这样的设计，ST-FiT 可以用于任何现有的 STGNN，以在没有训练数据的节点上实现卓越的性能。大量实验从多个关键角度验证了 ST-FiT 的有效性。

时空图示例,训练期间只有少数节点对应的时间数据可用：在不同城市之间的地理图上，由于疫情的异步性，只有少数城市在当前时间点具有可用的流行病动态（标记为红色）

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个名为“ST-FiT（inductive Spatial-Temporal Forecasting with limited Training data）”的框架，旨在解决在时空图（Spatial-Temporal Graphs）中进行归纳式预测（inductive forecasting）的问题，特别是在训练数据有限的情况下。具体来说，它试图解决以下问题：

归纳式预测问题：在现实世界的应用场景中，许多时空图中的节点在训练阶段可能没有可用的时间序列数据。例如，在地理图中，由于疫情爆发的异步性，大多数城市的疫情动态数据在某个时间点可能不可用。这与大多数现有时空预测方法的训练要求相冲突，限制了这些方法的有效性。因此，论文提出了一个新问题，即如何在只有少量节点具有时间序列数据的情况下，学习一个能够泛化到没有训练数据的节点的时空预测模型。
时空依赖性泛化问题：现有的时空图神经网络（STGNNs）通常要求在训练阶段所有节点都具有时间序列数据，以便能够捕捉每个节点的独特时间依赖性。然而，在实际应用中，大多数节点可能没有可用的训练数据，这导致现有模型在这些节点上表现不佳。因此，需要一个模型能够将从有数据的节点学到的时间依赖性泛化到没有数据的节点。
时空依赖性多样性问题：时空图的拓扑结构编码了空间依赖性，这对于将学到的时间依赖性泛化到邻近节点至关重要。然而，不同局部区域的拓扑结构可能表现出不同的空间依赖性模式。例如，在疫情期间，地理上相邻的城市可能由于不同的人口流动量等因素而展现出相似或不同的疫情动态。因此，需要模型具备在不同空间依赖性之间进行泛化的能力。
推理效率问题：大多数现有的方法在处理时空依赖性差异时需要进行代价高昂的微调过程，这使得在实际场景中难以实现高效的推理。因此，需要一个框架能够在没有额外计算成本的情况下，实现对没有训练数据的节点的高效推理。

Q: 有哪些相关研究？

A: 论文中提到了多个与ST-FiT相关的工作，这些工作主要集中在以下几个领域：

时空预测（Spatial-Temporal Forecasting）

STGNNs：近年来，时空图神经网络（STGNNs）在时空预测领域取得了显著进展。这些模型通过结合图神经网络（GNNs）和各种序列预测模型，能够捕捉时空数据中的复杂依赖关系。例如，STGCN（Yu et al., 2017）通过图卷积网络（GCN）和时间卷积网络（TCN）的结合，有效地处理了交通流量预测问题。STGODE（Fang et al., 2021）则通过张量化的常微分方程（ODE）来捕捉时空动态。这些模型通常需要在训练阶段所有节点都有时间序列数据，这限制了它们在归纳式预测中的应用。
归纳式时空预测：一些工作尝试在有限训练数据的情况下进行归纳式时空预测。例如，Wu et al. (2019) 提出了一种归纳式时空图卷积网络，用于短期定量降水预测。然而，这些方法在处理有限训练数据时仍面临挑战，因为它们只能提取有限的时空依赖性，并且难以适应具有新时空依赖性的数据。

时间序列数据增强（Temporal Data Augmentation）

传统方法：传统的时间序列数据增强方法包括裁剪、添加噪声、缩放等，但这些方法通常无法生成具有多样化时间依赖性的新数据。例如，Um et al. (2017) 提出了一种通过时间扭曲进行数据增强的方法，但这种方法在生成具有复杂依赖性的新数据方面存在局限性。
深度学习方法：近年来，深度学习模型如生成对抗网络（GANs）和变分自编码器（VAEs）被用于生成更符合现有数据流形的时间序列数据。例如，Goubeaud et al. (2021) 使用VAE来增强稀疏时间序列数据集。这些方法虽然能够生成更一致的时间序列数据，但生成的数据缺乏多样性，限制了对泛化能力的贡献。

图拓扑学习（Graph Topology Learning）

基于Gumbel-Softmax的方法：为了学习稀疏和离散的图拓扑，一些工作采用了Gumbel-Softmax重参数化技巧。例如，Franceschi et al. (2019) 提出了一种用于图神经网络的离散结构学习方法，通过Gumbel-Softmax重参数化技巧实现梯度回传。Shang et al. (2021) 进一步将这种方法应用于多时间序列预测。然而，这些方法通常需要额外的资源，如预定义的KNN，以实现拓扑稀疏性。
其他方法：还有一些工作致力于学习更好的图拓扑，以适应不同的网络数据类型，如脑网络、社交网络和金融交易网络。例如，Cui et al. (2022) 提出了一个用于脑网络分析的图神经网络基准，Zhang et al. (2022) 研究了社交网络中的图拓扑学习问题。

领域适应（Domain Adaptation）

跨图领域适应：一些工作通过领域适应策略来实现从一个时空图到另一个时空图的泛化。例如，Fang et al. (2022) 提出了一种跨城市交通流量预测的领域对抗训练方法。这些方法主要关注图级别的泛化，忽略了同一图内不同节点之间的时间依赖性差异。
细粒度领域适应：与ST-FiT相关的工作还包括那些尝试在有限训练数据的情况下，从具有丰富时间序列数据的节点中提取时间依赖性，以实现对没有时间序列数据的节点的泛化。例如，Cheng et al. (2023) 提出了一种弱引导适应方法，用于鲁棒的时间序列预测。然而，这些方法通常需要代价高昂的微调过程，限制了它们在实际场景中的效率。

Q: 论文如何解决这个问题？

ST-FiT

A: 为了解决归纳式时空预测问题，特别是训练数据有限的情况，论文提出了一个名为**ST-FiT（inductive Spatial-Temporal Forecasting with limited Training data）**的框架。ST-FiT通过以下两个关键学习模块来解决上述问题：

1. 时间数据增强（Temporal Data Augmentation）

这个模块旨在解决有限时间依赖性的问题。具体来说，该模块通过以下步骤来生成多样化的训练时间序列数据：

学习时间数据流形：首先，将每个滑动窗口的时间序列输入到一个变分自编码器（VAE）中，从而得到表征时间数据流形的隐藏空间表示。假设所有节点的隐藏表示都来自一个统一的流形。
时间数据混合（Mixup）：在隐藏空间中，随机选择时间序列对，并通过线性插值生成新的隐藏表示。这种方法称为时间数据混合（Temporal Data Mixup），能够生成具有新时间依赖性的时间序列。
生成新时间序列：将生成的隐藏表示通过VAE的解码器转换回输入空间，从而得到新的时间序列数据。
优化目标：为了优化VAE的参数，设计了两个目标函数：
相似性损失（Similarity Loss）：最大化原始时间序列对与生成时间序列之间的相似性，确保生成的时间序列保留原始时间序列的时间依赖性。
预测损失（Forecasting Loss）：利用STGNN骨干网络对生成的时间序列进行预测，确保生成的时间序列在所有时间步上具有一致的时间依赖性。

2. 空间拓扑学习（Spatial Topology Learning）

这个模块旨在解决多样化空间依赖性的问题。具体来说，该模块通过以下步骤来优化空间拓扑结构：

基于节点特征学习空间拓扑：使用多层感知机（MLP）将每个滑动窗口的时间序列映射到隐藏表示，然后将每对节点的隐藏表示映射到一个标量值，该标量值表征节点之间存在边的概率。
生成稀疏图拓扑：通过Gumbel-Softmax重参数化技巧，从上述概率矩阵中采样，生成稀疏的邻接矩阵。这种方法能够学习到稀疏且离散的图拓扑结构，从而只保留关键的空间依赖性模式。
优化目标：通过最小化预测误差来优化空间拓扑学习模块的参数，确保生成的图拓扑能够更好地适应STGNN骨干网络的预测能力。

优化策略和推理

为了有效优化上述三个模块，论文提出了一个迭代训练策略：

迭代训练：将训练过程分为两个阶段，交替优化时间数据增强模块和其他模块（STGNN骨干网络和空间拓扑学习模块）。
阶段1（Phase 1）：固定其他模块的参数，优化时间数据增强模块的参数。
阶段2（Phase 2）：固定时间数据增强模块的参数，联合优化STGNN骨干网络和空间拓扑学习模块的参数。
推理阶段：在推理阶段，基于学习到的概率矩阵采样生成图拓扑结构，然后直接使用STGNN骨干网络进行预测。

通过上述方法，ST-FiT能够有效地解决归纳式时空预测问题，特别是在训练数据有限的情况下。

训练推理伪代码

Q: 论文做了哪些实验？

A: 论文通过一系列实验来验证ST-FiT框架的有效性和性能。以下是实验的主要内容和结果：

实验设置

数据集：实验在三个常用的时空图数据集上进行，分别是PEMS03、PEMS04和PEMS08。这些数据集均来自加州交通性能测量系统（PeMS），包含了交通流量数据。
基线模型：与ST-FiT进行比较的基线模型包括：
线性模型：历史平均值（Historical Average, HA）。
基于时间的模型：全连接长短期记忆网络（FC-LSTM）。
时空模型：时空图卷积网络（STGCN）、时空图常微分方程网络（STGODE）。
微调模型：TransGTR，它通过知识蒸馏在不同城市之间联合学习和迁移图结构和预测模型。
任务设置：遵循之前工作中的时间维度数据划分，将数据集分为70%训练集、20%验证集和10%测试集。对于归纳式预测任务，随机选择10%的节点的时间序列数据用于训练，并采用相同的划分进行验证。通过滑动窗口生成训练样本，窗口大小为24个时间步，其中前12个作为模型输入，后12个作为预测目标。

实验结果

泛化性能（Generalization Performance）：
与基线模型比较：ST-FiT在所有数据集上均优于不需要微调的基线模型。例如，在PEMS03数据集上，ST-FiT在MAE、RMSE和MAPE指标上分别比STGCN提高了40.0%、38.6%和55.6%。此外，ST-FiT在PEMS04数据集上与微调模型TransGTR相比，在MAE、RMSE和MAPE指标上分别提高了27.1%、19.0%和34.8%。
不同预测时间步长（Horizons）：ST-FiT在预测的前3个、6个和12个时间步长上的性能均优于基线模型，进一步证明了其泛化能力。

主实验（平均实验结果）

不同预测步长的完整实验结果

不同训练节点比例下的性能（Performance w.r.t. Training Node Ratios）：
不同比例的训练节点：实验了5%、10%、25%、50%、75%和100%的训练节点比例。结果表明，ST-FiT在所有比例下均优于基线模型，且在训练节点比例较低时性能提升更为显著。例如，在PEMS08数据集上，当训练节点比例为50%时，ST-FiT在RMSE指标上比STGCN提高了28.1%，而当比例为5%时，提升增加到42.4%。

ST-FiT与具有不同训练节点比率的基线的性能比较

消融实验（Ablation Study）：
模块贡献：通过移除ST-FiT中的不同模块（如时间数据增强模块、空间拓扑学习模块等），验证了每个模块对整体性能的贡献。例如，移除时间数据增强模块后，性能显著下降，说明该模块对泛化能力的重要性。同样，移除空间拓扑学习模块也会导致性能下降，表明该模块在捕捉多样化空间依赖性方面的作用。
损失函数的影响：实验还分析了移除相似性损失（Lsim）和预测损失（Lfst）对性能的影响，结果表明这两个损失函数都有助于生成具有多样化时间依赖性的训练数据。

平均消融实验

完整消融实验

参数敏感性分析（Parameter Sensitivity）：
混合比例（Mixup Ratio）λ：实验了不同混合比例λ对性能的影响。结果表明，较高的混合比例（如0.5）通常能够带来更好的性能，因为这可以生成更多样化的时间序列数据。
稀疏性阈值（Sparse Threshold）ϵ：实验了不同稀疏性阈值ϵ对性能的影响。结果表明，适当的稀疏性（如ϵ=0.9）能够提高性能，但过度稀疏会损害性能，因为可能会丢失一些关键的节点连接。

超参数分析

超参数分析λ

超参数分析ε

效率研究（Efficiency Study）：
训练时间：比较了ST-FiT与其他基线模型的训练时间。结果显示，ST-FiT的训练时间略高于STGCN，但与需要微调的TransGTR相比，ST-FiT在预训练阶段的效率更具竞争力。这表明ST-FiT在实际应用中具有较好的效率。

效率实验

总结

通过这些实验，论文证明了ST-FiT框架在处理归纳式时空预测问题时的有效性和优越性。ST-FiT不仅能够在训练数据有限的情况下实现良好的泛化性能，而且在不同比例的训练节点下均优于基线模型。此外，消融实验和参数敏感性分析进一步验证了ST-FiT中各个模块和参数设置的重要性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述