基于大语言模型的时空图学习

最新推荐文章于 2025-03-11 15:49:04 发布

gao00013

最新推荐文章于 2025-03-11 15:49:04 发布

阅读量1.7k

点赞数 15

文章标签：语言模型学习人工智能

本文链接：https://blog.csdn.net/gao00013/article/details/135095581

版权

ICLR 2024

摘要

时空预测在城市计算中具有巨大的意义，因为它使决策者能够预测交通流量、犯罪率和空气质量等关键现象。通过利用时空数据固有的图结构和利用图神经网络(gnn)的力量来捕获不同时隙和位置的复杂关系和依赖关系，研究人员在这一领域取得了显着进展。这些进步极大地改善了表征学习，导致了更准确的预测。本研究的重点是探索大语言模型(LLMs)处理城市系统时空数据动态特性的能力。

所提出的方法被称为STLLM，将llm与跨视图互信息最大化范式集成在一起，以捕获隐含的时空依赖性并保留城市空间中的空间语义。通过利用llm的力量，该方法有效地捕获复杂和隐式的空间和时间模式，从而生成健壮且不变的基于llm的知识表示。在我们的框架中，跨视图知识对齐确保了跨不同视图的有效对齐和信息保存，同时也促进了时空数据的增强。STLLM的有效性通过理论分析、广泛的实验和额外的调查来评估，证明了它能够调整基于llm的时空知识，并在各种预测任务中优于最先进的基线。

1 介绍

时空预测是指同时考虑时空信息对未来事件或状况进行预测的任务(Pan et al .， 2019)。它在城市计算领域具有巨大的意义，因为它可以预测各种现象，如交通流量(Zheng等人，2020)，犯罪率(Wang等人，2022a)和空气质量(Liang等人，2023)。通过提供这些预测，决策者可以采取积极主动的措施，有效地配置资源，进行有效的城市规划，从而提高城市的效率、可持续性和公共安全。

为了获得准确的预测结果，研究人员在开发创新技术方面取得了重大进展，这些技术利用时空数据的固有图形结构，使他们能够捕捉不同时间段和地点的复杂关系和依赖关系。值得注意的是，图神经网络(gnn)已经成为该领域的一个强大工具，它提供了将空间和时间信息整合到表征学习过程中的能力。时空gnn的最新进展，包括图卷积网络(Y u等人，2018)、图注意机制(Lan等人，2022)和图转换器(Huo等人，2023)，都被提出用于增强时空图的表示学习能力。这些基于gnn的技术在生成的时空图结构上采用不同的嵌入传播方案来有效地捕获时空模式。

在实际的城市计算场景中，时空预测提出了几个需要仔细考虑的挑战。

i)远距离时空依赖关系:捕捉远距离依赖关系至关重要，因为时空现象往往表现出跨越广泛时间间隔和遥远地点的依赖关系。这提出了一个挑战，因为短期的局部相互作用可能不能完全准确地反映潜在的动态。

ii)数据稀疏性和噪声:数据稀疏性在时空数据集中普遍存在，在这些数据集中，观测值有限(例如，犯罪、交通事故)

可用于特定位置和时间间隔。此外，由于传感器故障或构建的时空图中的噪声连接，时空数据中的缺失值和噪声值进一步阻碍了预测任务。动态和进化的性质:时空系统本质上是动态的，并会随着时间的推移而变化。预测模型需要通过有效地提取具有时空语义的不变表示来适应这些动态特征，使其能够处理不断变化的模式和变化。

在本研究中，我们的重点是探索大语言模型(LLMs)在时空预测中的应用，以解决上述挑战。虽然法学硕士在NLP领域获得了大量关注和成功(Zhao et al .， 2023;Ji et al, 2023)和多模态理解(Yin et al, 2023;Driess et al, 2023)，他们在预测时空图形数据方面的探索仍然相对未被探索。这项工作旨在通过利用llm在提炼复杂和隐含的空间和时间模式方面的优越能力来弥合这一差距。

贡献。本研究提出了STLLM，一种新的llm增强的时空学习范式，利用大型语言模型来增强对时空数据的理解。通过将基于llm的时空知识学习器与跨视图相互信息最大化范式相结合，我们的方法有效地捕获了时空联系，并保留了整个城市空间的兴趣点信息，提供了一个全面的时空特征视图。基于llm的知识可以作为鲁棒和不变的表示，特别是在涉及时空分布变化的场景中。此外，我们的时空知识对齐范式最大化了基于llm的知识表示和基于gnn的结构嵌入之间的相互信息，确保了不同视图之间的有效对齐和信息保存。这种跨视图知识对齐过程不仅有助于有效的数据增强，而且通过去噪噪声连接来解决原始时空图数据中的不准确性。理论分析进一步加强了本文提出的STLLM的有效性，证明了它能够通过相互信息的最大化来对齐基于llm的时空知识。通过大量的实验来评估STLLM在各种时空预测任务中的有效性，并将其与最先进的基线进行比较。其他分析，如模型消融研究、稳健性调查和效率评估，都被用来验证STLLM的有效性。要访问模型实现以获得结果再现性，请访问以下链接:https://anonymous.4open.science/r/STLLM。

2相关工作

区域表示学习。区域在时空语义空间中的表示一直是学术研究的主题(Wang & Li, 2017;Yao等，2018;Zhang等，2021;2019;Fu et al .， 2019;Wu et al .， 2022;Zhang et al .， 2023b)。具体来说，Fu等人(2019)建议利用区域内和区域间信息来增强表征。基于这个想法，Zhang等人(2019)采用了一种集体对抗训练方法。在Zhang等人(2021)最近的一项研究中，他们提出了一种用于区域表示的多视图联合学习模型，该模型从不同角度(例如，区域属性)捕获区域相关性，并采用图注意进行表示学习。相反，Wu等人(2022)专注于提取区域表示的交通模式，但他们的方法忽略了基本的POI数据。

为了解决对高质量区域图的依赖以及与从嘈杂和倾斜的时空数据中学习相关的挑战，Zhang等人(2023b)提出了一种用于鲁棒时空图增强的对抗性对比学习范式。尽管以前的方法是有效的，但它们对结构信息的依赖阻碍了适应性。在本文中，我们通过利用法学硕士的全局知识来揭示额外的区域全局关系，从而提高区域表示的整体性能，从而解决了这一限制。

大型语言模型。法学硕士在大型语料库上广泛训练，在NLP任务中表现出优异的表现(Ji等人，2023;Wang et al .， 2022b)。这些模型主要基于Transformer架构(V aswani等人，2017)，可以分为三类:仅编码器、编码器-解码器和仅解码器(Pan等人，2023)。

(i)仅使用编码器的llm仅使用编码器进行单词关联和编码句子，如BERT (Devlin等人，2018;Liu et al .， 2019;Lan等人，2019)，下游任务需要额外的预测头。这些模型在需要理解完整句子的任务中表现出色(Zhang et al, 2022)。

(ii)编码器-解码器llm采用编码器和解码器模块进行输入编码(rafael et al, 2020;Zeng et al .， 2023)和输出生成，提供更灵活的训练技术(Zoph等人，2022;Xue et al, 2020)。

(iii)仅解码器llm仅依赖解码器模块进行输出生成，训练以预测后续单词为中心。像Chat-GPT (Ouyang et al .， 2022)和GPT4这样的模型通常可以用最小的样本或指令输入完成任务。

然而，它们的闭源性限制了进一步的研究。最近，像羊驼和骆马这样的开源模型已经显示出相当的性能(Touvron et al, 2023)。本研究采用仅解码器的LLM (GPT-3.5)，通过有效的增强来提高时空图的质量。

3 方法

本节详细介绍拟议的STLLM的技术细节。模型体系结构如图1所示。我们首先对时空预测任务作如下介绍。

3.1准备工作

将城市空间划分为 $I$ 个空间区域，以 $i$ 为索引;将 $J$ 个时隙以 $j$ 为索引。每个区域记为 $r_i$ ，每个时隙记为 $t_j$ 。为了促进全面的时空表征学习，我们通过整合来自不同数据源的城市背景信息构建了一个时空图。具体而言，我们利用以下数据:

i)人类移动轨迹M.该数据包含真实的人类移动轨迹，其中每条轨迹表示为，其中 $r_s$ 和 $r_d$ 分别表示源和目标区域， $t_s$ 和 $t_d$ 表示相应的时间戳。 $v$ 表示该轨迹的移动体积。这些轨迹捕捉了人类流动性方面的时间区域连接，使其对各种城市预测任务至关重要。

ii)区域距离信息D.该数据包括一个加权邻接矩阵，该矩阵记录基于区域距离的邻域信息。它包含物理距离小于2.5km的所有对区域，其中d表示距离，单位为公里。这些数据为城市区域提供了有价值的空间背景信息，促进了空间分析和建模。

时空图。利用上述数据，我们构建了时空图。节点集V由I个区域中的每个区域的J个时隙特定副本组成，总共有|V| = I × J个节点。加权边缘集结合了两个异构数据源，以及相邻时隙的剩余连接。用表示第 $t_j$ 个时隙第 $r_i$ 个区域的节点，定义边集如下:

问题陈述:给定由异构数据构建的时空图G，我们在时空表征学习中的目标是生成一个嵌入矩阵

E中的每个行向量表示第 $t_j$ 个时隙第 $r_i$ 个区域的表示向量。这种学习嵌入有助于在城市场景中各种类型的下游任务中进行准确的预测，例如交通预测、犯罪预测和房价预测。

3.2双视图时空建模

3.2.1时空图神经网络

我们的STLLM框架结合了两个建模视图来捕获时空模式。第一种观点着重于通过迭代图神经传播提取时空图的高阶连通性。它首先为每个节点生成一个初始嵌入

通过使用基于变压器的神经语言模型(V aswani et al, 2017)将其节点特定的兴趣点(POI)标签投射到d维潜在表示中。随后，利用上述ST图G中的图结构，STLLM执行多次GNN迭代来捕获和细化时空依赖关系如下:其中表示STLLM的图建模视图给出的最终嵌入矩阵。表示ST图的邻接矩阵。该时空GNN将不同传播迭代的嵌入进行聚合。每次迭代由图卷积算子完成，其可学习的线性投影和基于relu的非线性投影σ(·)。D表示相邻矩阵A的对称度矩阵。

3.2.2基于LLM的时空知识学习

从法学硕士理解现实世界知识的能力中获得灵感，我们建议利用训练有素的法学硕士来生成语义节点表示。具体来说，STLLM首先为每个区域ri生成一个基于文本的描述。该描述是通过连接区域ID ri、感兴趣点(POI)信息Qi、从距离数据D获得的空间背景Si和从流动性数据M获得的时间背景Ti来构建的。

使用这些文本描述，STLLM通过两个步骤获取基于LLM的知识表示。首先，我们提示预训练的LLM为每个节点生成摘要。这包括将目标节点及其周围节点的描述一起输入到LLM中，以促进对时空背景的理解。其次，STLLM获得区域摘要文本的潜在表示向量。利用大型语言模型对通用知识的深刻理解，F中生成的嵌入有效地保留了每个区域内的POI信息，并捕获了与其相邻区域的时空连接。这种方法与基于gnn的建模视图(侧重于局部结构提取)相反，通过从LLM中提取一般知识，从全局角度表示时空特征。附录A.5提供了描述和摘要的示例。

3.3跨视图互信息最大化

通过基于gnn的ST依赖关系建模和基于llm的全局知识挖掘，我们的目标是最大化它们的相互信息，以最小化它们各自的噪声和不相关信息。为此，STLLM利用以下交叉视图互信息最大化目标进行调优，其中I(·)表示互信息函数:为了使该损失函数易于处理，我们遵循Oord等人(2018)利用infoNCE损失函数进行优化，该函数被证明是互信息函数的下界。

具体来说，两个视图的嵌入之间的infoNCE损失定义如下:其中表示概率比的某个度量。我们用这个函数g(·)表明，可处理的infoNCE损失LN CE是GNN视图h的嵌入与LLM视图f的嵌入之间互信息的下界，如下:

3.4时空知识对齐

根据前面的讨论，我们通过实例化，将infoNCE损失应用于两个建模视图之间的对齐。具体来说，STLLM分别对齐移动性数据和距离数据的表示。我们进一步丰富了我们的ST表示学习框架的训练目标，使用了两个基于consin的损失项:两个视图的整体嵌入之间的对齐，以及浅和深GNN嵌入之间的对齐。总的来说，我们有以下四个训练目标:结合以上四个损失项，我们得到STLLM的最终损失:，其中表示损失权值的超参数。

模型复杂性:我们的方法，STLLM，结合了一个时空图神经网络，涉及到编码器中的图信息传播。我们的方法的时间复杂度由图操作决定，由给出，其中表示图中的边数，L表示图层数，d表示嵌入的维数。重要的是要注意，基于llm的生成只执行一次，并且不计入时间复杂度。由此产生的时间复杂度与其他最先进的方法相当，确保了高效的计算并保持了具有竞争力的性能。

4评价

我们的实验探讨了以下研究问题:RQ1:在不同的时空学习应用(如交通预测和犯罪预测)中，STLLM与最先进的基线相比如何?RQ2:不同的数据源和模型组件如何影响下游任务的区域表示学习的有效性?RQ3:考虑到不同程度的数据稀疏性，STLLM在预测交通流量和犯罪的表示学习方面取得了多大程度的成功?RQ4:各种超参数设置对STLLM用于交通流和犯罪预测的区域表示性能有什么影响?RQ5:与其他基线方法相比，STLLM的效率如何?RQ6:与MV -PN、MVURE、MGFN和GraphST等其他区域表示技术相比，STLLM的效果如何?

4.1实验设置

4.1.1数据集及评价指标

我们评估了我们的时空表征学习框架(STLLM)在三个不同的预测任务上的表现:犯罪预测、交通流量预测和房地产价格预测。

这些任务使用从芝加哥和纽约获得的真实数据集进行评估。根据之前的研究(Xia等人，2021)，我们考虑了多种犯罪类型，如芝加哥的盗窃、殴打、袭击和破坏，以及纽约的入室盗窃、盗窃、抢劫和袭击。附录中的表3提供了所使用数据集的详细统计数据。我们使用三个评估指标:平均绝对误差(MAE)，平均绝对百分比误差(MAPE)和均方根误差(RMSE)。

4.1.2实现细节和超参数

对于我们的STLLM，我们根据早期的区域表示研究(Wu et al, 2022;Zhang et al .， 2023b)。根据超参数试验，当GCN深度设置为2，权重衰减设置为0.0005，学习率设置为0.001时，我们的STLLM表现最佳。根据之前的研究(Zhang et al .， 2023a;b)，我们针对不同的预测任务采用了不同的下游模型。对于犯罪预测，我们使用ST-SHN (Xia et al, 2022)。对于交通流量预测，我们采用ST-GCN (Y u et al .， 2018)。对于房地产价格预测，我们使用简单的Lasso回归(Ranstam & Cook, 2018)。ST-SHN具有0.001学习率，0.96学习率衰减，2个空间聚集层。配置ST-GCN有12个输入时间间隔，间隔长度为5分钟。交通预测任务的目标是预测未来15分钟的交通状况。大多数基线都是用它们发布的代码实现的。

4.1.3比较基线

我们将我们的方法STLLM与各种最先进的基线进行比较，以评估MAE, MAPE和RMSE的性能。由于篇幅限制，每种方法的详细描述见附录A.3。基线包括以下类别。图表示方法:我们将我们的方法STLLM与几种图表示方法进行了比较，包括Node2vec (Grover & Leskovec, 2016)、GCN (Kipf & Welling, 2017)、GraphSage (Hamilton等人，2017)、GAE (Kipf & Welling, 2016)和GA T (V eli & ckovi等人，2018)。图对比学习方法:我们还通过两种最新的图对比学习方法GraphCL (Y ou et al .， 2020)和RGCL (Li et al .， 2022)进行了实验。时空区域表示:我们将我们的方法STLLM与最先进的区域表示学习方法进行了比较，包括HDGE (Wang & Li, 2017)、ZE-Mob (yao等人，2018)、pv - pn (Fu等人，2019)、CGAL (Zhang等人，2019)、MVURE (Zhang等人，2021)、MGFN (Wu等人，2022)和GraphST (Zhang等人，2023b)。

4.2模型有效性(rq1)

我们将STLLM的性能与各种下游任务的最先进基线进行比较。结果如表1所示，在此基础上我们进行了以下讨论:

跨任务的一致性能优势。我们的STLLM框架超越了不同研究线的所有基线，由于有效地从llm中提取了全球时空知识，因此表现出优异的性能。通过对比学习，将这些知识整合到局部ST图建模过程中，从而获得一些好处。它允许精确理解和使用文本的ST特征，提高预测精度。它还增加了对ST图中结构噪声的鲁棒性。在交通预测、犯罪预测和房价预测这三个任务中都观察到显著的增强，证明了我们基于llm的ST图挖掘技术的普遍适用性。

图对比学习的优势。在基线方法中，那些利用图对比学习(GCL)技术的方法，如GraphCL和GraphST，与其他基线相比，在准确性方面表现出显著的优势。这验证了GCL在解决数据不足问题(如噪声和偏度)方面的有效性，从而提高了时空预测的准确性。从这一优势中汲取灵感，我们的STLLM结合了GCL方法来最大化基于llm的ST知识挖掘和局部ST图建模之间的相互信息。通过对比两种视图，我们的模型有效地提高了表示质量。

区域表示学习的优势:与端到端时空预测方法相比，预训练的区域表示学习方法(如MGFN)具有明显的优势。这些优点可以归因于预训练的嵌入优于随机初始化的嵌入。与端到端模型相比，预训练嵌入丰富了丰富的空间和时间模式，提供了更精细和信息丰富的初始化。端到端模型中有限的优化步骤使得在训练期间获得如此复杂的嵌入具有挑战性，从而导致次优性能。

4.3消融研究(rq2)

在本节中，我们进行消融研究，以探讨我们的STLLM的不同组成部分的影响。具体来说，我们研究了以下变体:-CL。这个版本用交叉视图互信息最大化中的余弦相似度取代了对比学习。S.该变体将LLM输入描述Pi中的空间信息Si去掉，研究文本空间特征的影响。T.与上一个相似，这个变体消除了Pi中的时间信息Ti。S&T删除了LLM的空间描述和时间描述。根据图2所示的结果，我们得出以下结论。

对比学习的有效性。评估结果表明，在许多情况下，用最大化余弦相似度取代基于infonce的对比学习会导致性能显著下降。这一观察结果突出了我们基于对比学习(CL)的设计的有效性，它的优势来自于它与相互之间密切的理论关系

信息最大化。与余弦相似度相比，InfoNCE结合了负关系学习，促进了有益的均匀嵌入分布，提高了预测精度。

Si和Ti带来的好处。结果表明，无论是去除空间信息Si还是去除时间信息Ti，都会导致性能显著下降。这一发现不仅验证了我们基于llm的文本特征提取的有效性，而且证实了在我们的全球知识挖掘中纳入距离信息和移动轨迹的积极影响。

比较-S&T与-S和-T。在某些情况下(例如，NYC-Larceny, CHI-Assault)，去除Si和Ti比只去除其中一种产生更好的性能。这种观察结果可以归因于仅使用单个数据源进行知识挖掘时产生的偏差效应。

在这种情况下，LLM可能会被有限的信息误导，导致次优表示。通过构建全面的ST描述，我们的STLLM避免了这种情况。

4.4稀疏数据性能(rq3)

在这项研究中，我们检验了我们的STLLM框架在应用于稀疏时空数据进行犯罪预测时的鲁棒性。具体来说，我们根据纽约市和芝加哥的密度程度将其分为两组。密度度是指每个地区发生非零犯罪案件的时隙与时隙总数的比值。两组区域分别对应于(0.0,0.25)和(0.25,0.5)的密度比范围。为了评估STLLM方法的性能，并将其与六个代表性基线进行比较，我们在图3中给出了结果。从结果来看，我们有两个主要观察结果，如下所述。

首先，观察到所有方法在数据密度较高的子集上获得较低的MAE值。这一发现证实了稀疏数据对表征学习和准确的时空预测都有不利影响。稀疏区域可用的数据量有限，导致监督信号减少，从而导致模型训练的次优。其次，我们的STLLM在不同级别的数据稀疏性中始终保持其优越的性能。这可以归因于通过对全球知识的提炼而丰富了表征法学硕士毕业。此外，我们的方法所采用的对比知识对齐增强了监督信号，从而促进了有效的模型训练。

4.5超参数研究(rq4)

在本节中，我们进行了参数研究，以评估重要参数对我们的模型STLLM性能的影响。结果如图4所示。具体来说，我们在{2,3,4,5}范围内改变GNN层数l，在{0.3,0.4,0.5,0.6}范围内改变InfoNCE函数的温度系数τ。我们总结了关于这两个参数及其对流量预测下游性能的影响的观察结果:首先，我们研究了GCN层数(l)对模型性能的影响。我们发现我们的STLLM在l = 2时性能最好。随着GCN层数的增加超过这一点，我们观察到下游任务的模型表示能力的收益递减。这表明额外的GCN层可能会导致过度平滑效应，从而影响模型的性能。其次，我们检验了温度参数(τ)对模型表征能力的影响。我们观察到，当τ = 0.4时，我们的STLLM具有最高的表示能力。偏离这个最优值，无论是增加还是减少τ，都不会导致模型表示能力的进一步提高。

4.6效率研究(rq5)

实验设置:我们通过将STLLM与几种区域表示方法在训练时间方面进行比较，来评估STLLM的模型效率。结果如表2所示，包括MAE和MAPE值。所有方法都使用相同的软件环境(Python 3.7, TensorFlow 1.15.3用于流量预测，PyTorch 1.7.0用于其他任务)和硬件实现

环境(10核英特尔酷睿i9-9820 CPU@3.30Hz, 64GB RAM和四个NVIDIA GeForce RTX 3090 gpu)。观察与分析:值得注意的是，我们的STLLM模型在保持与其他区域表示方法相当的效率的同时，取得了最好的性能。

这一发现验证了我们的STLLM框架能够处理大规模的时空数据。STLLM的可扩展性可归因于基于infonce的对比学习的效率，它在知识对齐过程中起着重要作用。

4.7案例研究(rq6)

我们进行了一个案例研究，以演示我们的STLLM在地理语义方面学习全局区域依赖性的能力，如图5所示。具体来说，我们选择了两对区域进行分析:近区域对(如区域170和区域164)和远区域对(如区域144和区域14)。我们想强调以下两个关键的观察结果:首先，经过研究，我们观察到，尽管区域170和区域164之间距离近，地理距离小，但它们表现出不同的城市功能。然而，GraphST显示了它们的相似性。相比之下，通过我们的方法(STLLM)学习的嵌入向量成功地捕获了它们之间的差异，突出了我们的方法在从全局角度捕获地理语义方面的有效性。其次，对于距离较远的区域对，如区域144和区域14，图中表明它们具有相似的城市功能，这反映在我们的方法STLLM得到的嵌入向量上。相反，GraphST不能识别它们相似的函数。总之，这些观察结果验证了我们的STLLM在捕获全局视图地理语义方面的有效性。由于LLM在捕获全局视图方面的成功表达能力，这种能力很可能得以实现。

5 结论

本研究强调了llm在增强时空预测方面的潜力，并提供了一个综合框架，即STLLM，该框架将基于llm的知识学习与交叉视图对齐相结合，以提高时空理解和预测。这个简单而有效的范例通过将基于llm的知识表示与基于gnn的结构嵌入对齐来捕获时空联系，同时还提供数据增强和去噪功能。通过从llm增强时空知识的全局视图中整合城市语义，该框架成功地在潜在表示空间中保留了短期和长期的跨时间和位置依赖关系。大量实验的评估结果以及与最先进基线的比较验证了STLLM框架在实现卓越预测性能方面的有效性。虽然我们的STLLM展示了令人印象深刻的能力，但它们的内部机制仍然不透明。我们未来的工作包括理解和解释我们基于法学硕士的时空学习在自然语言背景下的预测，以帮助从业者做出明智的决策并减少潜在的偏见或错误。