图少样本学习综述:从元学习到预训练和提示学习

图表示学习作为图任务中的关键技术而发展迅速。早期的图表示学习方法通常基于端到端的训练设置,其效果高度依赖于大量的标注数据。然而现实世界中的标注数据往往难以获得,这促使了图少样本学习的出现,用于解决只有少量可用标注数据的图任务。

本综述总结分类了现有的图少样本学习文献,对比了不同方法,并指出了该领域未来的研究方向。具体地,我们从以下两个类别探讨了相关研究:1)问题分类:探讨不同类型的数据稀缺问题及其现实应用;2)技术分类:介绍解决这些数据稀缺的少样本问题的关键策略。

这些技术可以分为元学习、预训练和混合方法。我们在每个类别中进行了更细致的分类,分析这些方法之间的关系,并比较它们的优缺点,以帮助读者选择合适的方法。最后,我们总结了图少样本学习的未来研究方向,以促进该领域的持续创新发展。本综述的相关论文可在 GitHub 仓库中获取。


论文标题:

A Survey of Few-Shot Learning on Graphs: from Meta-Learning to Pre-Training and Prompt Learning

论文链接:

https://arxiv.org/pdf/2402.01440

Github仓库链接:

https://github.com/smufang/fewshotgraph

一、引言


现有的图表示学习方法,例如图神经网络(GNNs)和图 Transformer,其有效性依赖于丰富的图结构信息和大量的标注数据。然而,图数据稀缺是普遍存在于现实世界的应用,从而严重影响了图表示学习方法的准确性。

具体地,我们观察到图数据稀缺问题可以分为 1)标签稀缺问题;2)结构稀缺问题。首先,获取标注数据通常很困难或成本高昂 [19],从而导致标签稀缺问题,尤其是对于新出现类别的数据,如图 1(a) 所示。其次,图结构本身可能是稀疏的,尤其是对于大量的低度节点,它们的邻居数量有限,如图 1(b) 所示,从而导致结构稀缺问题。

由于上述数据稀缺问题,图少样本学习方法 [20][21] 在各个领域引起了广泛关注,如社交网络分析 [22][23]、推荐系统 [24][25] 和分子研究 [21][26],如图 1(c,d,e) 所示。这些方法往往从图中学习通用的、任务无关的先验知识,然后将其适应到标签稀缺或图结构稀缺的下游任务。

基于学习先验知识和下游适应的具体策略,我们进一步将这些技术分类为三大类:1)元学习方法;2)预训练;3)混合方法,如图 2 所示。其中,元学习 [27][28] 和预训练 [29][30] 是两种从额外数据中学习先验知识的主要方法,然后将其适应到少样本下游任务。然而,这两类方法遵循不同的范式,我们将在下文进一步阐述。

二、少样本学习问题

由于现实世界图数据中广泛存在的数据稀缺问题,图少样本学习成为了一个重要的研究问题。根据数据稀缺的类型,我们将图上的少样本学习问题分为两类:标签稀缺和结构稀缺。

一方面,类似于自然语言处理(NLP)和计算机视觉(CV)中面临的挑战 [50][51][52],标签稀缺,即缺乏标注数据,同样也是图少样本学习中的一个重要挑战。另一方面,不同于文本和图像数据,图具有非欧几里得的拓扑结构。因此,图中的结构稀缺成为另一个重要挑战。研究者针对两个挑战提出了各种解决方案,在本节中,我们按照图 3 对相关文献进行分类并介绍了其现实应用。

2.1 标签稀缺问题

由于获取有标签数据通常很困难或成本高昂,标签稀缺是现实世界中普遍存在的问题。然而,有监督的图表示学习方法的性能在很大程度上依赖于以大量标注数据作为监督。因此,当标注数据有限时,传统的监督方法表现不佳,这促使少样本学习方法来解决图上的标签稀缺问题。我们进一步根据各自的类别设置和目标实例,将标签稀缺问题分类为基于类别级别的标签稀缺和基于实例级别的标签稀缺。

2.1.1 类别级别的标签稀缺

设 表示图上的所有类别集合,该集合由两个子集组成:用于模型训练的基础类别集 ,以及用于测试的新类别集 ,满足 且 。标签稀缺可能发生在任一子集或同时出现在两者中。

2.1.2 实例级别的标签稀缺

我们还根据节点、边或图级别上标签稀缺的实例进行分类。我们在表II中根据基于实例的标签稀缺问题分类总结了相关文献及其应用。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

2.3 结构稀缺问题

与标签稀缺不同,标签稀缺源于获取标注困难或成本很高,而结构稀缺则源于图拓扑结构的稀疏性,例如其中许多节点仅连接极少的边。由于图表示学习的有效性本质上依赖于节点之间拓扑结构的丰富性,结构稀缺为有效学习图表示带来了重大障碍。

在现实世界中,图的结构稀缺是一个普遍问题,吸引了越来越多的研究兴趣。我们将关于结构稀缺的文献分类为两种子类型:长尾分布和冷启动学习问题,如表 III 所示。具体地,长尾问题解决的是从不均衡分布中学习的挑战,其中大量节点具有少量连接,而冷启动问题则侧重于为新节点学习表示,这些新节点没有或只有极少的连接。

三、元学习


元学习是少样本学习技术中的一个重要类别,在我们的分类法中位于第一分支,如图 4 所示。现有的元学习方法 [142][32][31] 旨在从基础类别中学习先验知识,这些先验知识可转移到下游任务中的新类别。这些方法通常假设在基础类别中有丰富的标注数据,而下游的新类别只有少量标注数据。

3.1 基于结构的增强方法

图数据的一个独特特征在于节点之间的连接结构,这为处理图数据提供了关键信息。因此,许多基于图的任务的元学习方法专注于利用图结构来增强先验知识的学习。根据图结构的类型,它们可以进一步分为节点级、边级和子图级的增强方法。

3.2 基于迁移的增强方法

通过支持集实现对查询集的快速知识迁移是元学习的一个关键要求。具体而言,知识迁移使得将全局共享的先验知识定制为每个任务的本地化或专门化模型成为可能,从而不仅保留了每个单独任务的独特特征,还利用了共享的共通知识。因此,许多方法旨在增强图上的少样本学习的知识迁移机制。

四、预训练


由于预训练方法能处理多种领域中未标注数据并灵活迁移到多种下游任务,它成为了另一种流行方法 [37]。图预训练阶段通常利用未标注的图数据,通过无监督方法来预训练图编码器,旨在捕捉图的与任务无关的内在属性,如节点特征和局部或全局结构。随后,作为先验知识的一种形式,预训练的图编码器可以知识迁移来解决各种下游任务。图 6 展示了预训练和知识迁移。

4.1 预训练策略

图预训练的无监督任务主要分为两大类:基于对比策略和基于生成策略,此外还有许多方法同时采用这两种策略以从图中提取更全面的知识。最近,一些图预训练方法还利用了大型语言模型。

4.1.1 基于对比策略的方法

基于对比策略的预训练方法在图中对比不同尺度的实例。对于每个目标实例,对比策略会采样其正例和负例,旨在在潜在特征空间中拉近正例与目标的距离,同时使负例远离目标,如图 6(b) 所示。我们整理了相关工作于表 VI,并讨论了他们的实例规模,增强方法和针对的图类型。

4.1.2 基于生成策略的方法

生成方法为图预训练提供了新的视角。这些方法旨在重建图的部分内容,例如邻接矩阵 [43]、边掩码 [39] 或节点特征掩码 [163]。这些目标涉及结构重建或特征重建,许多研究采用了这两类目标,如表 VII 所总结的。此外,类似于对比方法,各种类型的图上也提出了多样的生成方法。

4.2 基于微调的知识迁移方法

预训练的图编码器包含了关于在预训练阶段使用的图的内在属性的先验知识。这个先验知识可以通过使用预训练权重初始化下游模型来转移到各种下游任务中。为了将初始模型定制化到每个具体任务,它配备了一个任务头,并经历了一个称为微调的知识迁移阶段。在微调过程中,对于每个任务,模型会进一步使用任务特定的标注数据进行训练,并此过程中更新预训练模型和任务头的参数,如图 6© 左所示 [30][39]。

4.3 参数高效的知识迁移方法

为了缓解通过微调进行适应所带来的问题,最近的研究重点转向了参数高效的适应方法,这避免了更新预训练图编码器中的所有参数。关键策略包括提示学习和参数高效的微调。

4.3.1 提示学习

源自自然语言处理领域的提示学习,已经证明了其在将预训练语言模型适应到多样化语言任务中的有效性 [177]。提示学习引入一个提示向量来修改或重新表述预训练模型的原始输入,使下游任务在统一模板下更接近预文本任务。值得注意的是,提示向量的规模相对于预训练参数规模而言微不足道。

在迁移过程中,仅微调一个非常小的提示向量,而不更新预训练模型,使该方法具有参数高效性。最近,提示学习已经扩展到图学习领域 [48][19]。基于对齐预训练任务和下游任务的统一模板,这些方法设计提示以进一步缩小预训练任务与下游任务之间的差距,如图 6© 右所示。具体方法在模板选择和提示设计上有所不同,如表 VIII 和表 IX 所总结。

4.3.2 参数高效微调

这些方法仅调整来自原始预训练模型或新添加模块的部分参数。因此,需要更新的参数数量显著减少,这对于少样本学习来说更加高效和可行。著名的参数高效微调(PEFT)技术包括适配器微调 [188] 和低秩适应(LoRA)[189]。

适配器微调 [188] 在预训练模型的某些层中插入称为适配器的小型神经网络模块,而 LoRA [189] 则利用低秩矩阵来近似参数更新。在这两种技术中,微调过程中仅更新新模块的参数,而原始的预训练权重保持冻结。

五、混合方法


如前所述,元学习和预训练体现了学习先验知识的两种不同范式,每种范式都有其独特的优点和缺点。在同时拥有大量用于预训练的未标注数据和大量的有标注基础集用于元学习的情况下,采用融合两种范式的混合方法是一种有效的策略。

因此,我们可以利用元学习和预训练各自的优势,不仅通过预训练利用未标注数据学习通用的与任务无关的先验知识,还可以从类似的元训练任务中汲取先验知识,如图 7 所示。

六、未来方向


6.1 图少样本学习的问题场景

1)结构稀缺问题;2)大规模图上的少样本学习;3)复杂图上的少样本学习;4)跨领域的少样本学习。

6.2 图少样本学习的技术

1)提高可解释性;2)图基础模型。

七、结论


在本综述中,我们对图上的少样本学习文献进行了系统性的回顾。具体地,我们按照两个类别总结了图少样本学习文献,即根据问题和技术对现有研究进行分类。

基于问题,我们将这些研究分为标签稀缺问题和结构稀缺问题。对于每一类,我们总结了它们的问题定义及各自的应用。基于技术,我们将文献分类为元学习、预训练和混合方法。对于每个类别,我们介绍了具有代表性的工作,并讨论了它们的优点和缺点。最后,我们概述了有前景的未来方向,旨在促进这一快速发展的领域的进一步探索。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

那么针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

### 关于提示词工程的综述 提示词工程(Prompt Engineering)近年来成为自然语言处理领域的重要研究方向之一。特别是在大规模预训练模型(LLMs, Large Language Models)兴起之后,如何设计高效的提示词以引导模型生成高质量的结果成为了研究热点。 #### 提示词工程的研究背景 提示词工程的核心在于通过精心设计输入文本的形式来优化大语言模型的表现[^1]。这种技术不仅依赖于模型本身的性能,还高度依赖于提示的设计方式及其与具体应用场景的适配程度。因此,许多学者致力于探索更有效的提示构建方法以及其理论基础。 #### EMNLP会议中的相关工作 作为自然语言处理领域的顶级国际会议之一,EMNLP在其历届会议上发表了大量有关提示词工程的文章。这些文章涵盖了从基本概念到高级应用的各种主题: - **2021年EMNLP** 中的一篇重要论文讨论了零样本学习环境下的提示工程技术,并提出了几种新颖的方法用于改进传统微调策略的效果[^2]。 - 另一篇发表在同一期上的文章则深入探讨了不同类型的提示对于跨语言迁移任务的影响,揭示了一些之前未被注意到的现象。 #### 综述类资源推荐 针对希望全面了解该领域的读者来说,下面几份公开可用的综述材料可能特别有用: 1. 《A Survey on Prompt Learning for Natural Language Processing》这份文档系统总结了当前主流框架下提示学习的主要进展技术细节。 2. 此外,《The Power of Scale for Parameter-Efficient Prompt Tuning》一文中也提供了关于参数高效型提示调整方面的深刻见解。 以下是实现简单版本提示工程的一个Python代码例子: ```python def generate_prompt(input_text, template="Q: {question}\nA:"): """Generate a prompt based on the given input text and template.""" return template.format(question=input_text) input_example = "What is the capital city of France?" print(generate_prompt(input_example)) ``` 此函数可以根据指定模板自动生成适用于特定场景的查询字符串形式的提示信息。 ### 结论 通过对上述内容的学习可以看出,无论是理论层面还是实践操作上,提示词工程都还有很大的发展空间等待我们去挖掘发现新知。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值