【ICLR 2024】基于扩散神经网络生成的时空少样本学习
论文标题: SPATIO-TEMPORAL FEW-SHOT LEARNING VIA DIFFUSIVE NEURAL NETWORK GENERATION
作者: Yuan Yuan, Chenyang Shao, Jingtao Ding, Depeng Jin, Yong Li
机构: 清华大学
发表: ICLR 2024
内容简介:时空建模是智慧城市应用的基础,然而在许多城市和地区,时空建模往往受到数据稀缺的阻碍。为弥补这一缺陷,本文提出了一种新的生成式预训练框架GPD,用于时空少样本学习。与严重依赖普通特征提取或复杂的少样本学习设计的传统方法不同,该方法通过使用源城市数据优化的神经网络参数集合进行生成式预训练,将时空少样本学习改写为生成式扩散模型的预训练。GPD采用了基于Transformer的去噪扩散模型,在prompt的引导下生成定制的神经网络,以适应多样化的数据分布和城市特定的特征。该框架与模型无关,可与强大的时空神经网络集成,在交通速度预测和人群流量预测任务上均表现出优越性能。
代码链接:https://github.com/tsinghua-fib-lab/GPD
1. 引言
1.1 背景与挑战
研究内容:
数据稀疏场景下的时空学习——时空少样本学习
背景:
- 现有研究往往先利用数据丰富的源城市数据训练模型,再依赖于复杂的匹配设计将其迁移到数据稀缺的目标城市。
- 预训练模型通过引入prompt(提示)技术来缩小微调和预训练之间的差距,使得模型不再需要繁琐的微调,而是利用有效的prompt技术实现快速适应。
挑战:
-
源城市和目标城市之间的数据分布往往存在很大差异,导致从源城市获取的知识中存在着潜在的噪音甚至适得其反的信息,直接迁移源城市模型可能无法很好地适应目标城市的数据分布。
-
建立通用的可迁移知识,实现源城市和目标城市之间更一般化的知识迁移
与NLP拥有的可应用于各种场景或任务的共享词汇表不同,不同城市的城市区域在地理上互不相交,缺乏能实现直接知识迁移的通用元素。
作者思路的出发点:
摆脱对杂乱数据分布的依赖,寻求一种更本质、更可迁移的知识共享方式。与数据分布相比,神经网络参数的分布更具有“高阶”的特性。通过在源城市的数据上训练神经网络,并将其转化为生成适应目标城市的神经网络参数的过程,可以更好地适应目标城市的数据分布和特征。
1.2 贡献
-
提出利用预训练范式来实现不同城市之间有效的细粒度时空知识迁移。
这在使用预训练模型处理城市数据稀缺场景方面是一个开创性的实践。
-
提出了一种新的基于扩散模型的生成式预训练框架,称为GPD。
将时空少样本学习转变为扩散模型的生成式预训练问题,利用城市特定的prompt自适应地直接生成相应的神经网络参数,从而解决城市或地区之间数据差距带来的挑战,实现巧妙的时空知识迁移。
GPD先预训练一个以城市特定的prompt为条件的扩散模型,从源城市的数据中学习关于优化神经网络参数的知识;然后再根据目标城市的prompt生成相应的神经网络。
与传统方法不同,GPD不再依赖于提取可迁移特征或设计复杂的模式匹配策略,且不需要为少样本场景学习一个良好的模型初始化
-
在多个真实场景下的大量实验表明,GPD在数据稀缺场景下取得了优异的性能
在4个数据集上比最佳基线平均提高了7.87 %。
2. 问题定义
时空图预测:
时空少样本学习:
时空少样本学习被表述为从源城市 C 1 : P s o u r c e = { C 1 s o u r c e , . . . , C P s o u r c e } \mathcal{C}^{source}_{1:P}=\{\mathcal{C}^{source}_1,...,\mathcal{C}^{source}_P\} C1:Psource={ C1source,...,CPsource} 中学习知识 K \mathcal{K} K,然后利用少样本结构化数据将学习到的知识 K \mathcal{K} K 转移到目标城市以方便时空预测。
本文将时空少样本学习表述为预训练扩散模型以有条件地生成神经网络参数,然后利用它来生成目标城市预测模型的参数。
假设有一系列来自一组数据丰富的源城市