论文笔记:【ICLR 2024】SPATIO-TEMPORAL FEW-SHOT LEARNING VIA DIFFUSIVE NEURAL NETWORK GEN

【ICLR 2024】基于扩散神经网络生成的时空少样本学习

论文标题: SPATIO-TEMPORAL FEW-SHOT LEARNING VIA DIFFUSIVE NEURAL NETWORK GENERATION
作者: Yuan Yuan, Chenyang Shao, Jingtao Ding, Depeng Jin, Yong Li
机构: 清华大学
发表: ICLR 2024
内容简介:时空建模是智慧城市应用的基础,然而在许多城市和地区,时空建模往往受到数据稀缺的阻碍。为弥补这一缺陷,本文提出了一种新的生成式预训练框架GPD,用于时空少样本学习。与严重依赖普通特征提取或复杂的少样本学习设计的传统方法不同,该方法通过使用源城市数据优化的神经网络参数集合进行生成式预训练,将时空少样本学习改写为生成式扩散模型的预训练。GPD采用了基于Transformer的去噪扩散模型,在prompt的引导下生成定制的神经网络,以适应多样化的数据分布和城市特定的特征。该框架与模型无关,可与强大的时空神经网络集成,在交通速度预测和人群流量预测任务上均表现出优越性能。
代码链接https://github.com/tsinghua-fib-lab/GPD

1. 引言

1.1 背景与挑战

研究内容:

数据稀疏场景下的时空学习——时空少样本学习

背景:
  • 现有研究往往先利用数据丰富的源城市数据训练模型,再依赖于复杂的匹配设计将其迁移到数据稀缺的目标城市。
  • 预训练模型通过引入prompt(提示)技术来缩小微调和预训练之间的差距,使得模型不再需要繁琐的微调,而是利用有效的prompt技术实现快速适应。
挑战:
  • 源城市和目标城市之间的数据分布往往存在很大差异,导致从源城市获取的知识中存在着潜在的噪音甚至适得其反的信息,直接迁移源城市模型可能无法很好地适应目标城市的数据分布。

  • 建立通用的可迁移知识,实现源城市和目标城市之间更一般化的知识迁移

    与NLP拥有的可应用于各种场景或任务的共享词汇表不同,不同城市的城市区域在地理上互不相交,缺乏能实现直接知识迁移的通用元素。

作者思路的出发点:

摆脱对杂乱数据分布的依赖,寻求一种更本质、更可迁移的知识共享方式。与数据分布相比,神经网络参数的分布更具有“高阶”的特性。通过在源城市的数据上训练神经网络,并将其转化为生成适应目标城市的神经网络参数的过程,可以更好地适应目标城市的数据分布和特征。
在这里插入图片描述

1.2 贡献

  1. 提出利用预训练范式来实现不同城市之间有效的细粒度时空知识迁移。

    这在使用预训练模型处理城市数据稀缺场景方面是一个开创性的实践。

  2. 提出了一种新的基于扩散模型的生成式预训练框架,称为GPD

    将时空少样本学习转变为扩散模型的生成式预训练问题,利用城市特定的prompt自适应地直接生成相应的神经网络参数,从而解决城市或地区之间数据差距带来的挑战,实现巧妙的时空知识迁移。

    GPD先预训练一个以城市特定的prompt为条件的扩散模型,从源城市的数据中学习关于优化神经网络参数的知识;然后再根据目标城市的prompt生成相应的神经网络。

    与传统方法不同,GPD不再依赖于提取可迁移特征或设计复杂的模式匹配策略,且不需要为少样本场景学习一个良好的模型初始化

  3. 在多个真实场景下的大量实验表明,GPD在数据稀缺场景下取得了优异的性能

    在4个数据集上比最佳基线平均提高了7.87 %。

2. 问题定义

时空图预测:
在这里插入图片描述
在这里插入图片描述
时空少样本学习:

时空少样本学习被表述为从源城市 C 1 : P s o u r c e = { C 1 s o u r c e , . . . , C P s o u r c e } \mathcal{C}^{source}_{1:P}=\{\mathcal{C}^{source}_1,...,\mathcal{C}^{source}_P\} C1:Psource={C1source,...,CPsource} 中学习知识 K \mathcal{K} K,然后利用少样本结构化数据将学习到的知识 K \mathcal{K} K 转移到目标城市以方便时空预测。

本文将时空少样本学习表述为预训练扩散模型以有条件地生成神经网络参数,然后利用它来生成目标城市预测模型的参数。

假设有一系列来自一组数据丰富的源城市 C 1 : P s o u r c e = { C 1 s o u r c e , . . . , C P s o u r c e } \mathcal{C}^{source}_{1:P}=\{\mathcal{C}^{source}_1,...,\mathcal{C}^{source}_P\} C1:Psource={C1source,...,CPsource} 的预测模型 F = { F θ 1 , F θ 2 , . . . , F θ N } F=\{F_{\theta_1},F_{\theta_2},...,F_{\theta_N}\} F={Fθ1,Fθ2,...,FθN},我们的目标是预训练扩散模型以根据源城市提示生成 F F F。优化后的扩散模型作为学习到的知识 K \mathcal{K} K,可以迁移到目标城市。

3. GPD

3.1 框架概览

GPD是一种条件生成框架,旨在直接从源城市的模型参数中学习,并为目标城市生成新的模型参数。框架包含三个阶段:

  • 左边部分展示了模型参数的准备,从中可以得到优化后的源城市神经网络参数集合。
  • 中间部分是源城市内的预训练阶段,该阶段训练扩散模型 G γ G_\gamma Gγ 以根据给定源提示从高斯噪声生成有意义的参数。
  • 右侧部分演示了如何转移学习到的扩散模型以促进目标城市的时空预测。

具体来说,该框架首先从一组针对时空预测优化的神经网络开始,然后设计了一个基于Transformer的扩散模型,以prompt为条件从高斯噪声生成网络参数。作者还为prompt设计了一系列conditioning strategies来指导去噪过程。因此,当提供编码了目标场景时空特征的目标prompt时,扩散模型会生成相应的神经网络进行准确预测。
在这里插入图片描述
提出的框架与模型无关,确保与最先进的时空预测模型兼容。作者使用了3种成熟的 STG 模型,分别是 STGCN,GWN 以及基于 MLP 的模型 STID 作为预测模型。

3.1.1 Preparation of Neural Networks

第一阶段针对各源城市内的每个区域分别训练了单独的时空预测模型,并保存其优化后的网络参数。各区域的模型参数都经过独立优化,没有参数共享,以确保模型能够最大程度地适应各自区域的特征。此优化过程可以表述如下:
在这里插入图片描述

3.1.2 Generative Pre-Training of the Diffusion Model

该阶段使用第一阶段获得的模型预训练参数以及特别构造的区域提示(详见3.3.2节),训练扩散模型来学习生成模型参数的过程。扩散模型是通过从高斯噪声中对向量进行逐步去噪来生成参数,这个过程类似于从随机初始化开始的参数优化过程,因此能更好地适应目标城市的数据分布。

具体来说,作者用扩散模型 G γ G_\gamma Gγ学习时空预测模型参数的分布 p G ( θ i ∣ p i ) p_G(θ_i|p_i) pG(θipi),其中 p i p_i pi表示区域 i i i的Prompt。模型输入包括三部分:噪声损坏的参数向量 θ k θ^k θk,区域提示 p p p,以及前向扩散过程中的步骤 k k k。训练目标如下:
在这里插入图片描述

3.1.3 Sampling

预训练后,就可以用目标城市的区域提示 p p p 作为条件输入扩散模型 G γ G_\gamma Gγ来生成相应的时空预测模型的参数。生成过程即为从步骤 k = K k=K k=K k = 0 k=0 k=0 的迭代采样过程,它将高斯噪声逐步去噪为有意义的参数,表述如下:
在这里插入图片描述
当目标城市的区域提示与多个源城市中的区域非常相似时,便可无缝地近似特定于目标域的模型参数。

这种方法利用Prompt促进了高效的知识迁移和精确的参数匹配,从而能充分利用不同城市区域之间的固有相似性。

3.2 去噪网络结构

在这里插入图片描述
去噪网络采用基于Prompt的transformer扩散模型,通过自注意力学习预测模型不同层间以及层内的参数token的关系。

具体来说,首先将参数进行层分割,重组为token序列;然后和区域提示 p 以及时间步 k一起送入扩散模型;最后用堆叠的多层transformer层对噪声token序列进行去噪操作。此外,作者探索了几种提示引入的调节方法,它们对标准transformer层的设计进行了微小但重要的修改。

3.3.1 Parameter Tokenizers

在时空预测模型中,各种不同神经网络层总会拥有不同形状的参数张量。因此,有必要将这些参数分解为统一维度的基于向量的token,同时保留原始预测模型内固有的连接关系。具体做法如下:

  • 首先确定所有层的参数量的最大公约数 g g g
  • 然后执行层分割,将每层的参数重塑为几个tokens: n m = N m / g n_m=N_m/g nm=Nm/g, 其中 n m n_m nm 是从第 m 层分割出的token数量, N m N_m Nm 是第m层的参数总量。
  • 之后,获得的tokens以顺序方式连接,确保网络结构中地相邻层在结果序列中也保持邻接性。

3.3.2 Region Prompt

作者为城市内的每个区域都设计了区域提示,从而能更灵活地利用包含城市区域特征的辅助数据。区域提示的选择具有灵活性,只要它们能捕捉特定区域的鲜明特征即可,因此可利用各种静态特征,例如人口、区域面积、功能和 POI 分布。作者在空间域和时间域上分别使用了相应的区域提示:空间Prompt和时间Prompt。

空间Prompt使用了从预训练好的 urban knowledge graph(UNK)中获取的节点(区域)嵌入,它不仅能提供有关各自城市环境的描述性信息,还利用了区域邻接性和功能相似性等关系。这些关系在所有城市中都很容易获得,使其具有可扩展性并能够适应城市。具体来说,首先将城市区域表示为 UKG 框架内的不同实体,再利用关系“BorderBy”和“NearBy”来捕获区域之间的空间相邻性。此外,UKG 还建立了“SimilarFunc”关系,在功能相似的区域之间建立联系。该关系通过计算区域对之间 POI 类别分布的余弦相似度来量化。
在这里插入图片描述时间Prompt是通过预训练好的自监督模型 STEP 提取的时间嵌入,该方法与序列数据的掩码自动编码器 (Masked AutoEncoder,MAE) 的概念相似。具体来说,每个区域的时间序列数据首先都经过mask处理;随后用mask后的数据训练编码器-解码器模型来重建原始时间序列,训练目标即为仅基于部分可观察的序列补丁来重建完整的时间序列;最后利用训练好的编码器输出时间嵌入。鉴于时间序列数据通常表现出较低的信息密度,mask处理采用相对较高的掩蔽率(75%)。

3.3.3 conditioning strategies

“Pre”表示Prompt在输入到自注意力层之前先集成到token序列中。

  • Pre-conditioning:
    直接将空间Prompt和时间Prompt相加作为区域Prompt p,然后再统一添加到每个token嵌入上。
    特点:直接利用标准transformer层,无需任何修改

  • Pre-conditioning with inductive bias:
    将区域提示 p 添加到输入序列内的token嵌入中时进行时空分离——将空间Prompt统一添加到空间相关参数的token上,将时间Prompt添加到时间相关参数的token上
    特点:可根据所用的时空模型架构灵活地引入归纳偏置。
    在这里插入图片描述在这里插入图片描述

  • Pre-adaptive conditioning:
    将 Prompt 嵌入视为二元素序列 p ∈ R 2 × E p∈\mathbb{R}^{2×E} pR2×E,引入注意力层来实现“adaptive”机制,动态确定应在多大程度上将Prompt添加到特定的token嵌入中
    特点:使模型能够学习如何自适应地利用Prompt,从而增强其调节能力。

4. 实验

在两类经典的时空预测任务上进行了实验:人流量预测和交通速度预测。前者使用了3个真实世界数据集:纽约市、华盛顿特区和巴尔的摩;后者使用了4个数据集:Meta-LA、PEMS-BAY、滴滴成都和滴滴深圳。
在这里插入图片描述
作者将两个测试任务的数据集均分类为源城市与目标城市。若将某个特定城市设置为目标数据集,则只能访问有限数量的数据,如 3 天的数据(现有模型通常需要几个月的数据来训练模型)。扩散模型是使用源城市提供的丰富数据进行训练的。

  • 人流量数据集:
    在这里插入图片描述
  • 交通速度数据集:使用道路网络距离和阈值高斯核构建节点的邻接矩阵——预定义邻接矩阵

4.1 整体性能

少样本场景下的人流量预测和交通速度预测性能比较

GPD相对于基线模型表现出显著的性能优势。表明GPD实现了有效的神经网络参数层面的知识迁移。
在这里插入图片描述
GPD在长期预测场景中表现出色。这一显著趋势可以归因于该框架对于更本质知识的挖掘,有助于将长期时空模式知识迁移到目标城市。
在这里插入图片描述

不同源城市下的人流量预测性能比较

整合来自多个源城市的数据可以为所有三个目标城市的短期和长期预测带来巨大好处。这表明提出的框架有效地从这些源城市学习了有用且可转移的知识。
在这里插入图片描述

4.2 附加实验

GPD框架对于不同时空预测模型适配的灵活性

除经典的时空图方法STGCN外,还引入了GWN和STID作为时空预测模型,并使用扩散模型生成其网络参数。结果表明:框架的优越性不会受到模型选择的影响,因此可以适配各种先进的模型。
在这里插入图片描述

不同调节策略的性能比较

表现了将prompt纳入Transformer的自注意力层对于生成预训练过程的重要性。
在这里插入图片描述

  • 对调节策略引入归纳偏差(Pre-conditioning with inductive bias)始终会导致较低的预测误差。
  • 表现第二好的策略是Pre-adaptive conditioning。这种方法采用注意力机制来聚合与每个token不同方面相关的prompt,有望以通用且灵活的方式解决不同的时空模型。

另两种效果不佳的调节策略操作如下:

  • Post-adaptive Conditioning:在每个 Transformer 层中的多头自注意力之后添加基于注意力机制的聚合提示,其中query是多头自注意层的输出。
  • Adaptive norm conditioning:基于注意力机制的聚合提示用于re-scaling每个layer norm层的输出。
    在这里插入图片描述
不同提示方式的性能比较

强调了在时空预测的背景下从空间和时间角度利用目标城市特征的重要性。
在这里插入图片描述

案例分析

验证了提出框架有效生成捕获不同区域的不同时空模式的参数的能力。

  • 某源城市中的区域A和B具有高度相似的时间序列模式且具有对称的空间位置,而区域C展示了明显不同的模式。因此可以推断区域A和B具有非常相似的时空模式,而与C有着明显的差异。训练好的神经网络参数分布结果显示,A和B的参数分布相似,而与C的参数分布有显著差异。这一观察结果强调了为区域采用非共享参数以有效适应不同时空模式的必要性在这里插入图片描述在这里插入图片描述
  • 某目标城市的区域M和N具有相似的时间序列模式和空间连接位置(左图);右图展示了这两个区域实况参数与生成参数的比较结果:这两个区域的实况参数具有相似的分布模式,且生成的参数图与其相应的真实分布紧密一致。这进一步验证了GPD框架在有效生成具有多样化时空模式的神经网络参数的能力在这里插入图片描述在这里插入图片描述

5. 结论

GPD为时空少样本学习引入了一个开创性的生成式预训练框架,解决了智慧城市应用中数据稀缺性和异构性带来的挑战。通过在参数空间中进行预训练,GPD解决了不同城市数据空间中存在的固有差异,并实现了一种新的但有效的知识迁移。其模型不可知性保证了与现有城市计算模型的兼容性,使其成为该领域研究人员和实践者的宝贵工具。我们的框架代表了城市迁移学习的一个重大进步,它有可能在数据稀缺的环境中彻底改变智慧城市的应用,并为更可持续和高效的城市发展做出贡献。在未来的工作中,研究者可以探索更精细的方法进行提示选择,例如利用大型语言模型捕捉城市的独特特征。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值