摘要
图表示学习作为图任务中的关键技术而发展迅速。早期的图表示学习方法通常基于端到端的训练设置,其效果高度依赖于大量的标注数据。然而现实世界中的标注数据往往难以获得,这促使了图少样本学习的出现,用于解决只有少量可用标注数据的图任务。
本综述总结分类了现有的图少样本学习文献,对比了不同方法,并指出了该领域未来的研究方向。具体地,我们从以下两个类别探讨了相关研究:1)问题分类:探讨不同类型的数据稀缺问题及其现实应用;2)技术分类:介绍解决这些数据稀缺的少样本问题的关键策略。
这些技术可以分为元学习、预训练和混合方法。我们在每个类别中进行了更细致的分类,分析这些方法之间的关系,并比较它们的优缺点,以帮助读者选择合适的方法。最后,我们总结了图少样本学习的未来研究方向,以促进该领域的持续创新发展。本综述的相关论文可在 GitHub 仓库中获取。
论文链接:
https://arxiv.org/pdf/2402.01440
Github仓库链接:
https://github.com/smufang/fewshotgraph
关键词:数据挖掘,图表示学习,少样本学习,元学习,预训练,提示学习。
引言
现有的图表示学习方法,例如图神经网络(GNNs)和图 Transformer,其有效性依赖于丰富的图结构信息和大量的标注数据。然而,图数据稀缺是普遍存在于现实世界的应用,从而严重影响了图表示学习方法的准确性。
具体地,我们观察到图数据稀缺问题可以分为 1)标签稀缺问题;2)结构稀缺问题。首先,获取标注数据通常很困难或成本高昂 [19],从而导致标签稀缺问题,尤其是对于新出现类别的数据,如图 1(a) 所示。其次,图结构本身可能是稀疏的,尤其是对于大量的低度节点,它们的邻居数量有限,如图 1(b) 所示,从而导致结构稀缺问题。
由于上述数据稀缺问题,图少样本学习方法 [20][21] 在各个领域引起了广泛关注,如社交网络分析 [22][23]、推荐系统 [24][25] 和分子研究 [21][26],如图 1(c,d,e) 所示。这些方法往往从图中学习通用的、任务无关的先验知识,然后将其适应到标签稀缺或图结构稀缺的下游任务。
基于学习先验知识和下游适应的具体策略,我们进一步将这些技术分类为三大类:1)元学习方法;2)预训练;3)混合方法,如图 2 所示。其中,元学习 [27][28] 和预训练 [29][30] 是两种从额外数据中学习先验知识的主要方法,然后将其适应到少样本下游任务。然而,这两类方法遵循不同的范式,我们将在下文进一步阐述。
少样本学习问题
由于现实世界图数据中广泛存在的数据稀缺问题,图少样本学习成为了一个重要的研究问题。根据数据稀缺的类型,我们将图上的少样本学习问题分为两类:标签稀缺和结构稀缺。
一方面,类似于自然语言处理(NLP)和计算机视觉(CV)中面临的挑战 [50][51][52],标签稀缺,即缺乏标注数据,同样也是图少样本学习中的一个重要挑战。另一方面,不同于文本和图像数据,图具有非欧几里得的拓扑结构。因此,图中的结构稀缺成为另一个重要挑战。研究者针对两个挑战提出了各种解决方案,在本节中,我们按照图 3 对相关文献进行分类并介绍了其现实应用。
3.1 标签稀缺问题
由于获取有标签数据通常很困难或成本高昂,标签稀缺是现实世界中普遍存在的问题。然而,有监督的图表示学习方法的性能在很大程度上依赖于以大量标注数据作为监督。因此,当标注数据有限时,传统的监督方法表现不佳,这促使少样本学习方法来解决图上的标签稀缺问题。我们进一步根据各自的类别设置和目标实例,将标签稀缺问题分类为基于类别级别的标签稀缺和基于实例级别的标签稀缺。
3.1.1 类别级别的标签稀缺
设 表示图上的所有类别集合,该集合由两个子集组成:用于模型训练的基础类别集 ,以及用于测试的新类别集 ,满足 且 。标签稀缺可能发生在任一子集或同时出现在两者中。
3.1.2 实例级别的标签稀缺
我们还根据节点、边或图级别上标签稀缺的实例进行分类。我们在表II中根据基于实例的标签稀缺问题分类总结了相关文献及其应用。
3.3 结构稀缺问题
与标签稀缺不同,标签稀缺源于获取标注困难或成本很高,而结构稀缺则源于图拓扑结构的稀疏性,例如其中许多节点仅连接极少的边。由于图表示学习的有效性本质上依赖于节点之间拓扑结构的丰富性,结构稀缺为有效学习图表示带来了重大障碍。在现实世界中,图的结构稀缺是一个普遍问题,吸引了越来越多的研究兴趣。我们将关于结构稀缺的文献分类为两种子类型:长尾分布和冷启动学习问题,如表 III 所示。具体地,长尾问题解决的是从不均衡分布中学习的挑战,其中大量节点具有少量连接,而冷启动问题则侧重于为新节点学习表示,这些新节点没有或只有极少的连接。
元学习
元学习是少样本学习技术中的一个重要类别,在我们的分类法中位于第一分支,如图 4 所示。现有的元学习方法 [142][32][31] 旨在从基础类别中学习先验知识,这些先验知识可转移到下游任务中的新类别。这些方法通常假设在基础类别中有丰富的标注数据,而下游的新类别只有少量标注数据。
4.1 基于结构的增强方法
图数据的一个独特特征在于节点之间的连接结构,这为处理图数据提供了关键信息。因此,许多基于图的任务的元学习方法专注于利用图结构来增强先验知识的学习。根据图结构的类型,它们可以进一步分为节点级、边级和子图级的增强方法。
4.2 基于迁移的增强方法
通过支持集实现对查询集的快速知识迁移是元学习的一个关键要求。具体而言,知识迁移使得将全局共享的先验知识定制为每个任务的本地化或专门化模型成为可能,从而不仅保留了每个单独任务的独特特征,还利用了共享的共通知识。因此,许多方法旨在增强图上的少样本学习的知识迁移机制。
预训练
由于预训练方法能处理多种领域中未标注数据并灵活迁移到多种下游任务,它成为了另一种流行方法 [37]。图预训练阶段通常利用未标注的图数据,通过无监督方法来预训练图编码器,旨在捕捉图的与任务无关的内在属性,如节点特征和局部或全局结构。随后,作为先验知识的一种形式,预训练的图编码器可以知识迁移来解决各种下游任务。图 6 展示了预训练和知识迁移。
5.1 预训练策略
图预训练的无监督任务主要分为两大类:基于对比策略和基于生成策略,此外还有许多方法同时采用这两种策略以从图中提取更全面的知识。最近,一些图预训练方法还利用了大型语言模型。
5.1.1 基于对比策略的方法
基于对比策略的预训练方法在图中对比不同尺度的实例。对于每个目标实例,对比策略会采样其正例和负例,旨在在潜在特征空间中拉近正例与目标的距离,同时使负例远离目标,如图 6(b) 所示。我们整理了相关工作于表 VI,并讨论了他们的实例规模,增强方法和针对的图类型。
5.1.2 基于生成策略的方法
生成方法为图预训练提供了新的视角。这些方法旨在重建图的部分内容,例如邻接矩阵 [43]、边掩码 [39] 或节点特征掩码 [163]。这些目标涉及结构重建或特征重建,许多研究采用了这两类目标,如表 VII 所总结的。此外,类似于对比方法,各种类型的图上也提出了多样的生成方法。
5.2 基于微调的知识迁移方法
预训练的图编码器包含了关于在预训练阶段使用的图的内在属性的先验知识。这个先验知识可以通过使用预训练权重初始化下游模型来转移到各种下游任务中。为了将初始模型定制化到每个具体任务,它配备了一个任务头,并经历了一个称为微调的知识迁移阶段。在微调过程中,对于每个任务,模型会进一步使用任务特定的标注数据进行训练,并此过程中更新预训练模型和任务头的参数,如图 6© 左所示 [30][39]。
5.3 参数高效的知识迁移方法
为了缓解通过微调进行适应所带来的问题,最近的研究重点转向了参数高效的适应方法,这避免了更新预训练图编码器中的所有参数。关键策略包括提示学习和参数高效的微调。
5.3.1 提示学习
源自自然语言处理领域的提示学习,已经证明了其在将预训练语言模型适应到多样化语言任务中的有效性 [177]。提示学习引入一个提示向量来修改或重新表述预训练模型的原始输入,使下游任务在统一模板下更接近预文本任务。值得注意的是,提示向量的规模相对于预训练参数规模而言微不足道。
在迁移过程中,仅微调一个非常小的提示向量,而不更新预训练模型,使该方法具有参数高效性。最近,提示学习已经扩展到图学习领域 [48][19]。基于对齐预训练任务和下游任务的统一模板,这些方法设计提示以进一步缩小预训练任务与下游任务之间的差距,如图 6© 右所示。具体方法在模板选择和提示设计上有所不同,如表 VIII 和表 IX 所总结。
5.3.2 参数高效微调
这些方法仅调整来自原始预训练模型或新添加模块的部分参数。因此,需要更新的参数数量显著减少,这对于少样本学习来说更加高效和可行。著名的参数高效微调(PEFT)技术包括适配器微调 [188] 和低秩适应(LoRA)[189]。
适配器微调 [188] 在预训练模型的某些层中插入称为适配器的小型神经网络模块,而 LoRA [189] 则利用低秩矩阵来近似参数更新。在这两种技术中,微调过程中仅更新新模块的参数,而原始的预训练权重保持冻结。
混合方法
如前所述,元学习和预训练体现了学习先验知识的两种不同范式,每种范式都有其独特的优点和缺点。在同时拥有大量用于预训练的未标注数据和大量的有标注基础集用于元学习的情况下,采用融合两种范式的混合方法是一种有效的策略。
因此,我们可以利用元学习和预训练各自的优势,不仅通过预训练利用未标注数据学习通用的与任务无关的先验知识,还可以从类似的元训练任务中汲取先验知识,如图 7 所示。
未来方向
7.1 图少样本学习的问题场景
1)结构稀缺问题;2)大规模图上的少样本学习;3)复杂图上的少样本学习;4)跨领域的少样本学习。
7.2 图少样本学习的技术
1)提高可解释性;2)图基础模型。
结论
在本综述中,我们对图上的少样本学习文献进行了系统性的回顾。具体地,我们按照两个类别总结了图少样本学习文献,即根据问题和技术对现有研究进行分类。
基于问题,我们将这些研究分为标签稀缺问题和结构稀缺问题。对于每一类,我们总结了它们的问题定义及各自的应用。基于技术,我们将文献分类为元学习、预训练和混合方法。对于每个类别,我们介绍了具有代表性的工作,并讨论了它们的优点和缺点。最后,我们概述了有前景的未来方向,旨在促进这一快速发展的领域的进一步探索。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。