NeurIPS 2023 | GPT-ST：生成式时空预训练模型

最新推荐文章于 2025-04-14 08:33:59 发布

PaperWeekly

最新推荐文章于 2025-04-14 08:33:59 发布

阅读量862

点赞数

文章标签： gpt

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134778439

版权

论文链接：

https://arxiv.org/abs/2311.04245v1

代码链接：

https://github.com/HKUDS/GPT-ST

实验室链接：

https://sites.google.com/view/chaoh

今天将向大家介绍香港大学黄超老师数据智能实验室的一项研究工作。这项工作专注于时空数据，并提出了一种全新的生成式预训练模型。该研究成果已成功发表在 2023 年的 NeurIPS 会议上。

导读

近年来，随着交通管理和出行规划等需求日益增长，时空预测技术的得到了快速发展。时空预测诸如交通流量和乘车需求预测等，旨在于根据历史的时空数据预测未来的发展趋势。准确的时空预测可以为政府在交通管理和风险响应等方面提供决策依据，同时便利人们的日常出行，对城市的高效管理和建设有着至关重要的作用。

现有的先进时空预测方法致力于构建端到端的深度时空预测框架来提升预测性能，并取得了巨大的成功。然而，现有方法难以从端到端的模型中受益：因为最先进的（SOTA）模型中的每个模块都是精制的，任何拆解和集成都可能导致预测性能的下降。不同的模型在处理不同的时空任务时各有所长，如何发挥现有模型的优势，即在已有模型的基础上进一步提升预测性能仍有待探索。

为了解决这一问题，本文提出了一种时空与训练框架，它可以通过一种简单的方式集成到现有的基线中并提升他们的性能。我们通过在具有代表性的基线上进行了大量实验证明所提出的方法的有效性。

概述

2.1 现有问题

尽管现有的方法在时空预测方面取得了显著的成果，但仍有一些问题没有得到充分的解决。

挑战1：缺乏对特定时空模式的定制化表示

定制化建模可以从时间动态性和区域特定性两个方面进行考虑：

1. 时间动态性：不同时间段的时间模式存在差异，例如同一个区域在工作日和周末的时间模型不相似，如图 1 左上所示。此外，区域之间的相关性随着时间的推移动态演化，而不是静态的，如图 1 中间部分所示；

2. 区域特定性：不同区域在同一时间段的时间序列不同，而不是共享时空模式，如图 1 左下所示。此外，确保在消息聚合之后，不同区域仍保留其各自的节点特征，以防止空间域中突出节点的干扰是需要重点考虑的问题。对所有这些定制特征进行编码对于保证模型的稳健性至关重要，然而，现有的工作缺乏对以上因素的全面考虑。

挑战2：对不同层次空间依赖性考虑不充分

大多方法在建模空间依赖性时主要关注区域之间的成对关联，但它们忽略了不同空间层级的语义相关性。在现实世界场景中，具有相似功能的区域往往表现出相似的时空模式。通过对不同区域进行聚类分析，模型可以挖掘相似区域之间的共同特征，从而有利于改进空间表示学习。

此外，现有研究缺乏对跨时间的高层区域关系的充分建模。不同类别的区域之间的时空模式可能表现出动态的传递关系。例如，在工作时间内，人员从居住区到工作区的流动明显，如图 1 右所示。在这种情况下，居住区人流的变化可以为预测工作区域的人流情况提供有价值的辅助信号。它强调了结合不同级别区域之间的细粒度和粗粒度相关性以增强时空预测模型的预测能力的重要性。

挑战3：现有端到端模型的可扩展程度不高

解决上述挑战的直观方法是开发端到端模型。然而，当前的模型难以从这种方法中受益，因为最先进的（SOTA）模型中的每个模块都是精制的，任何拆解和集成都可能导致预测性能下降。不同的时空模型在处理不同的时空任务时各有所长。是否有一种方法能够在解决上述挑战的同时可以发挥现有时空方法的优势呢？

近期预训练框架如 ChatGPT、MAE 等取得了巨大成功，它们通过构建无监督训练任务以学习更好的表征并提高下游任务性能。但相关研究在时空预测领域还少有探索。

▲ 图1：GPT-ST背后的动机

2.2 本文贡献

1）我们提出了一种专为时空预测而设计的新型预训练框架 GPT-ST。该框架可以以简单的方式集成到现有的时空神经网络中，从而提高它们的性能。GPT-ST 将模型参数定制方案与自监督掩蔽自动编码相结合，从而实现有效的时空预训练。

2）GPT-ST 巧妙地利用分层超图架构从全局角度捕获不同级别的空间依赖关系。通过与设计的自适应掩模策略的协作，模型获得了对区域之间的类内和类间空间关系进行建模的能力，从而生成鲁棒的时空表示。

3）我们在真实数据集上进行了广泛的实验，不同下游基线的性能改进展示了 GPT-ST 的优越性。

方法

3.1 GPT-ST的时空预训练范式

GPT-ST 框架旨在开发一种预训练的时空表征方法，以提高下游时空预测任务如交通流量预测的准确性。如图 2 所示，GPT-ST 的工作流程可以分为训练前阶段和下游任务阶段。

1）预训练阶段：框架采用了掩码自编码（MAE）任务作为训练目标，如下式所示：

2）下游任务阶段：在预训练阶段之后，GPT-ST 的结果将被用于提升下游预测任务，形式化如下：

▲ 图2：GPT-ST整体工作流程

3.2 定制化时间模式编码

（1）时间超图神经网络

为了进行全局时间关系学习，我们采用超图神经网络对时间模式进行编码，具体如下式。其中分别表示第个时间步的结果区域嵌入、中间区域嵌入和初始化区域嵌入。表示第时间步的个性化参数。为 LeakyReLU 激活函数。中间嵌入由超图信息的传播计算得出。它使用了区域个性化超图在条超边和时间片之间进行信息传递，从而捕获不同时序的多重关系。

（2）个性化参数学习器

为了表征时间模式的多样性，所提出的时间编码器针对不同区域和不同时间段进行模型参数定制。具体地，前述的时间个性化参数以及区域个性化超图参数是通过一个可学习的过程生成的，而不是直接使用独立的参数。个性化参数的学习过程如下式。

其中，，分别表示三个个性化生成参数对应的独立参数。表示第个区域第个时间步的表示。其中中，为可学习参数；中从一周中的第几天以及一天中的第几时刻特征中计算得出。参数学习器根据特定时隙和区域的特征生成参数来实现时空个性化表征。

▲ 图3：GPT-ST详细框架

3.3 分层空间模式编码

（1）超图胶囊聚类网络

当前的空间编码器主要侧重于捕获局部相邻区域之间的关系，而忽略了遥远区域之间存在的广泛相似性。例如，地理位置相隔的商业区仍然可以表现出相似的时空模式。鉴于此，GPT-ST 引入了超图胶囊聚类网络来捕获全局区域的相似性。该网络明确地将多个聚类中心学习为超边，表征全局区域的相似性。

为了进一步增强超图结构学习，我们结合了胶囊网络的动态路由机制，该机制基于语义相似性迭代更新超边表示和区域-超边连接。因此，它提高了超边的聚类能力，从而促进区域之间依赖关系的全局建模。

具体地，我们首先使用先前的嵌入和 squash 函数得到归一化后的区域嵌入。然后这一嵌入被用于计算从每个区域到聚类中心（超边）的传递信息。

这两个变量的计算过程形式化如下。其中为可学习参数。超图连接矩阵记录了区域和超边（类中心）之间的关系。它使用上述个性化参数学习器为第个时间步进行参数定制，表示为，和是时间特征和超图嵌入。

迭代超图结构学习。利用利用初始化的区域嵌入和超图连接嵌入，我们采用胶囊网络的动态路由机制来增强超边的聚类效果。第次迭代的描述如下式。其中，表示迭代的超边嵌入。它利用迭代的超边-区域权重进行计算。权值由最后一次迭代的超边缘嵌入计算得出。在这个迭代过程中，关联分数和超边表示相互调整，以更好地反映区域和由超边表示的空间聚类中心之间的语义相似性。

在经过动态路由算法迭代后，为了使用和进行更好的区域-超边关系学习，GPT-ST 结合这两组权值生成最终的嵌入。我们首先使用替代来获取一个新的权重矩阵，然后使用计算最终嵌入。

（2）跨类关系学习

得到聚类嵌入后，我们提出通过一个高级超图神经网络来建模类间的关系。具体而言，精制的类别嵌入是由个聚类中心和条高级超边间进行消息传递计算得到的，如下式所示。其中，表示通过上述个性化参数学习器获得的高级超图结构。

得到经类间感知计算的类别表征后，我们将聚类嵌入传播回具有低级超图结构的区域嵌入，如下式所示。其中表示第个区域第个时间步的新的区域嵌入。表示低层级超图胶囊网络的权重。，表示由个性化参数学习器生成的区域个性化的权重和偏置参数。

（3）类别感知掩码机制

受 SemMAE 启发，我们设计了一种类别感知掩码机制，以增强 GPT-ST 的类内和类间关系学习。自适应掩蔽策略结合了前面学习到的聚类信息来设计一种由易到难的掩蔽过程。

具体地，在训练开始时，我们随机掩码每个类的一部分区域，在这种情况下，模型可以通过参考共享相似时空模式的类内区域轻松预测掩码值。随后，我们逐渐增加某些类别的掩蔽比例，通过减少这些类别的相关信息来增加这些类别的预测难度。最后，我们完全掩码了部分类别的信号，促进了预训练模型进行跨类知识迁移的学习。该过程如图 4 所示。

▲ 图4：自适应掩码策略说明

实验

4.1 总体性能

本节中主要探索 GPT-ST 是否改进了下游任务的预测性能。我们在四个数据集上评估了不同基线的原始性能和增强性能（w/GPT-ST）。结果表明，所提出的模型显着提高了所有数据集上不同下游基线的预测性能，这证实了我们框架的有效性。我们从三个维度分析 GPT-ST 的提升效果：

GPT-ST 对不同类型方法的有效性：GPT-ST 能够改进不同类型的方法（例如，基于 gnn 或基于注意力的模型），这一积极的效果不特定于到某个类别的基线，验证了 GPT-ST 的泛化能力。我们将这种改进归因于具有类内-类间时空关系感知的 MAE 预训练。

基线模型之间的差异：相对于近期提出的方法如 MSDR，我们观察到 GPT-ST 在应用于 STGCN 等经典基线时有着更为显著的改进。对这些发现的一种可能的解释是，先进基线如 MSDR 在建模各种因素方面已经设计良好且全面。因此，它们能够独立编码丰富的知识，这可能会削弱预训练模型提供的附加信号的效用。相反，经典基线如 STGCN 可以从 GPT-ST 提供的见解中获得更大的好处，因为它们的设计更简单，并且捕获复杂关系的能力可能有限。

与预训练方法的比较：我们将 GPT-ST 其与竞争性预训练基线 STEP 进行比较。该方法利用长期时间序列作为预训练的输入，以增强下游模型（GWN）的性能。尽管 GPT-ST 在预训练阶段仅使用短期数据，但它在多个指标上都优于 STEP。此外，GPT-ST 在长期数据不足的场景中表现出更大的性能优势，例如出租车和自行车需求预测任务。这凸显了所提出的 GPT-ST 框架的更广泛适用性，及其在各种环境中表现出色的能力。

▲ 表1：在不同数据集上的总体性能比较

4.2 消融实验

1）基本组件的影响。我们分别从 GPT-ST 中移除了个性化参数学习器、超图胶囊网络以及跨类关联学习模块。显着的性能下降证明了三个组件带来的积极效用，表明生成个性化时空参数以及对类内和类间时空依赖性进行建模可以有效捕获复杂的时空相关性，从而有利于下游基线的预测。在三个组件中，移除超图胶囊网络所导致的性能下降最显着。这是因为聚类结果在许多其他组件中也发挥着重要作用，包括跨类依赖建模和类别感知自适应屏蔽策略。

2）掩码机制的影响：

i）Ran0.25 和 Ran0.75。我们将自适应掩码策略替换为随机掩码，掩码比例分别为 0.25（掩码比例与我们的相同）和 0.75（MAE 和 STEP 中使用的掩码比例）。结果表明所提出的掩模策略优于随机掩模策略。这可以归因于所提出掩码策略有效地促进了 GPT-ST 对类内和类间关系的学习，从而生成了高质量的表示；

ii）GMAE 与 AdaMAE。我们将所提出方法与 GraphMAE 和 AdaMAE 所提出的掩码策略进行比较。两种变体的所带来的效益都不如所提出的类别感知掩码策略，这凸显了在掩蔽策略中考虑空间和时间模式的重要性，同时也进一步证实了利用聚类信息的自适应掩码的优越性。

3）预训练策略的影响。为进一步研究掩码重建预训练方法在时空预训练中的有效性，我们将其与其他预训练方法进行比较：包括局部全局信息最大化和对比式预训练，代表性的基线分别是 DGI 和 GraphCL。结果显示 infomax 和对比式预训练都能用于所提出的模型并为下游任务的预测带来好处。

相对于上述方式，所提出的方法利用了掩码重建任务，实现了最显著的性能增强。这可以归因于掩码重建任务和下游回归任务之间更高的相关性，从而更有效地学习时空表示。此外，自适应掩码策略通过增加预训练任务的难度，在促进模型学习稳健的时空表示方面发挥着至关重要的作用。

▲ 图5：GPT-ST消融实验

4.3 聚类效果

为了证明聚类过程的有效性，我们通过分析超图胶囊聚类网络（HCCN）生成的嵌入来评估 GPT-ST 框架的可解释性，如图 6所示。我们采用 T-SNE 算法来可视化 HCCN 生成的高维嵌入，将它们映射到二维向量。每个类别都用不同的颜色表示，且区域聚类是根据属于不同类别的概率确定。通过观察可视化嵌入，我们发现属于同一类的区域在有限空间内表现出紧密的聚类，这为超图胶囊聚类网络具有强大聚类能力提供了证据。

在另一个案例研究中我们探索了超图胶囊聚类网络学习的类内区域关系，以及从跨类超图网络获得的跨类依赖关系。如图 7（a），（b）所示，属于同一类别中得分前 3 的区域表现出相似的流量模式，并且它们属于相似的功能区。例如，商业区附近的区域 7（a）会出现晚高峰，而住宅区附近的区域 7（b）则保持相对稳定，这与现实世界的场景相符。

此外，在 7（c）中我们分析了两个类别中在特定时间段内经历了流量模式迁移的前 2 个区域，它们在跨类转换中共享相似的超边权重。结果表明，正在经历模式迁移的区域表现出不同的交通模式，同时在较短的驾驶距离内保持紧密的互连。这进一步证明了跨类迁移学习能够捕获区域之间的语义级关系，从而反映现实世界的交通场景。这些优势有助于 GPT-ST 框架生成高质量的表示，从而提高下游任务的性能。

▲ 图6：超图胶囊聚类网络的可视化嵌入

▲ 图7：空间编码器的案例研究

总结与展望

在这项工作中，我们提出了一个可扩展且有效的预训练框架，专门针对时空预测任务。该框架包括一个专注于捕获时空依赖性的基础预训练模型，它利用定制参数学习器和分层超图网络分别提取定制的时空特征和区域语义关联。为了进一步提高模型的性能，我们提出了自适应掩蔽策略。该策略通过在预训练阶段考虑类内和类间关系来指导模型学习推理能力。

在四个真实世界数据集的广泛的实验证明了所提出的 GPT-ST 框架在增强不同时空任务的下游基线性能方面的有效性。在未来的研究中，我们的目标是探索更广泛和通用的时空预训练框架，以及轻量级算法，以解决特定任务的预训练需求，并进一步减少计算开销。

更多阅读