TGG:Transferable Graph Generation for Zero-shot and Few-shot Learning 阅读笔记

本文提出了一种可转移图生成(TGG)方法,通过图生成和关系传播显式地建模和利用零样本学习(ZSL)和小样本学习(FSL)中的关系。TGG包含基于注意的聚合网络和关系核,用于生成实例级图,以及对偶关系传播策略,以缓解域转移。此外,通过元学习策略进行端到端优化,提高模型对新概念的泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


1.Abstract

现有的方法大多是通过语义嵌入或特征生成来隐式地捕获看不见的关系,导致关系的使用不足,存在一些问题。为了解决这些挑战,我们提出了可转移图生成(TGG)方法,该方法通过图生成来建模和明确利用关系。

TGG

1. 用于关系建模的图生成
	提出了一种基于注意的聚合网络和关系核,在类级原型图和视觉特征的基础上生成实例级图。
	通过多头图注意机制引导邻近信息聚合,将GAN合成的可见和不可见特征修正为节点嵌入。
	关系核进一步使用GCN和图核方法生成边,在处理数据不平衡和噪声的同时捕获实例级拓扑结构
2. 关系传播用于关系利用
	提出了对偶关系传播方法,其中生成图捕获的关系分别从可见子图和不可见子图传播。
	这两个传播以双重学习的方式相互学习,这是一种缓解域转移的适应方式。
	所有组件都通过元学习策略进行了联合优化。

2.Introduction

监督学习在现实世界的各种情况下还远远不能令人满意。一方面,对大规模标记数据的严重依赖使其无法伸缩,因为注释足够的数据既费力又昂贵,而且对于长尾数据分布来说,某些类中的实例非常少。另一方面,监督式学习无法处理日益增多的新类的识别任务,而这在许多现实场景中是迫切需要的。因此,提出了零样本学习和小样本学习。

零样本学习ZSL在训练过程中识别没有标记的未见类。
小样本学习FSL在训练过程中会提供一些具有代表性的未见类实例。
  • ZSL/FSL成功的关键是建立了可见域与不可见域之间的关系模型,将知识从可见域转移到不可见域,提高了模型对新概念的泛化能力。

  • 以往的ZSL方法主要关注语义嵌入,它学习视觉空间和语义空间之间的投影。该范式的原理是利用可见领域和不可见领域共享的边信息(如属性或词向量)进行投影学习,并在生成的语义空间中度量相似度,以实现最终分类。

  • 这种基于投影的模式受限于视觉特征和边信息的异质性,以及将学习到的投影直接应用于不适应的不可见域时的域偏移。每个类在语义空间中表示为一个固定的嵌入点,忽略了视觉数据分布中隐含的类内变异和判别信息。

最近,深度生成模型作为替代框架被引入。该范式利用可见域的视觉特征和边缘信息(应该是语义信息)来获取视觉语义联合分布,然后以关联边信息为条件合成不可见域的视觉特征。因此,ZSL可以转化为一个监督问题,因为合成的视觉特征可以直接提供给典型分类器进行监督训练。

然而,这种范式的固有缺陷是评估虚拟特征捕获目标不可见域分布的效果是模糊的。
此外,生成模型的不稳定性(如生成对抗网络的模式崩溃)导致合成特征噪声大,多样性差,不利于下游分类器的训练。

在此基础上,提出了另一种新范式,明确利用知识图(KG)中的知识。通常,这些方法建立在图卷积网络(GCN)的基础上,该网络从KG中提取知识,用于类级关系建模。图节点表示类嵌入,边描述不同类之间的关系。尽管表现不错,但仍有一些不足之处:

他们只是为每个类学习一个独立的分类器,而不涉及看不见的类标签,因此仍然存在域转移。
只在类级上建模,忽略了实例级的关系,导致了识别能力的丧失。
这些方法中关系的使用仍然是隐式的,在分类过程中蒸馏出来的知识会被稀释。

为了克服上述局限性,本文提出通过图生成和关系传播,在类级和实例级显式建模和利用关系。具体地说,我们提出了可转移图生成(TGG)方法,它包含一个图生成模块和一个关系传播模块。

1、图生成模块

旨在捕获类概念、属性和可视化实例之间的关系。该模块提出了一种基于注意的聚合网络和关系核,以类级原型图和可视化实例为输入,以修改后的实例嵌入为节点,实例嵌入关系为边的输出实例级图。原型图来源于一个现成的知识图,它作为一个关系模板,在生成图的过程中通过集成可视化信息来丰富知识图。为了建立完整的可见-不可见关系模型,减少域间的差距,我们从一开始就在类级和实例级引入了不可见信息。对于类级,原型图被构造成包含可见和不可见领域的类概念。例如,图形生成模块也使用这两个领域的实例,这里我们巧妙地将ZSL和FSL与虚拟特征合成结合起来。具体来说,我们通过生成对抗网络(gan)为未见类合成虚拟特征,它们将作为FSL中提供的少数实例被同等对待。因此,图的生成可以是完全监督的,有利于下游关系的利用。

我们的聚合网络旨在学习一个修正的节点嵌入空间,该空间通过在类和实例级上聚合邻居信息来修正输入的视觉特征。提出了一种多头图注意机制来增强聚合过程,防止信息稀释和负性知识转移。采用关系核在修正节点上显式生成关系/边,采用GCNs和图核方法处理数据不平衡和噪声。

2、关系传播模块

目标是充分利用学习到的关系进行最终分类。与隐式嵌入方法相比,采用显式关系推理的图流形空间知识转移效率更高,有助于更好地学习决策边界。基于此,结合全监督图生成的优点,我们提出了一种对偶关系传播方法,通过关系传播明确地推断出监督,并通过对偶学习进一步缓解领域转移。生成的图中的关系分别从可见和不可见的子图开始传播,两者相反传播以双重学习的方式互相学习。

此外,我们采用情景式元学习训练策略,对上述各部分进行端到端的联合优化。将可见类和不可见类的图节点随机划分为训练子集和测试子集,其中的关系用于缺失标签预测。这样的策略确保了我们TGG中训练和测试的设置是一致的,显著减少了归纳偏差。

3.Contributions

  1. 我们提出了一种可转移图生成(TGG)方法,通过图生成来显式地建模和利用ZSL/FSL的不可见关系。我们设计了一个基于注意的聚合网络和一个关系核,它捕获了多颗粒关系,对数据不平衡和虚拟数据噪声具有鲁棒性。

  2. 我们提出了一种对偶关系传播方法来显式利用关系,以对偶学习的方式通过全监督关系传播减轻域转移。基于元学习的情景训练策略设计,结合我们TGG的所有组件进行端到端关节优化。

  3. 我们的TGG作为传统零次学习、广义零次学习和小样本学习的统一框架,广泛的实验证明,它始终大大优于现有的方法。我们的工作代码可以在 https://github.com/zcrwind/tgg-pytorch上找到。

4.Framework

在这里插入图片描述

5.Method

如图1所示,我们的可转移图生成(Transferable Graph Generation, TGG)框架主要包含两个部分,即图生成和关系传播。图生成模块以类级图和可见/不可见类的实/虚可视化实例为输入,学习节点嵌入以及与聚合网络和关系内核的关系。关系传播模块利用生成的关系图进行分类,通过具有元学习策略的对偶关系传播方法。

5.1 Preliminaries

5.1.1 问题定义

在这里插入图片描述

• xi是标记为yi的第i个实例的d维视觉特征
• ei表示表示与类标签yi有唯一关联的边信息(属性或词向量)

在符号定义的基础上,提出以下三个问题:

• 零样本学习:在训练时,未见类Y^U 的图像特征是不可用的。ZSL的目标是利用一个未见类的实例的视觉特征Xu来预测yu∈Y^U 的标签。
• 生成式零样本学习:在训练时,未见类Y^U 的图像特征是不可用的。GZSL的目标是利用图像实例的视觉特征来预测标签l∈YS∪YU 。
• 小样本学习:在训练期间,只有 少量/一个 来自未见类中随机选择的图像实例是可用的,目的和以上两个一样。

5.1.2 类级图构建

我们利用ConceptNet 5.5构建类级图,这是一个现成的知识图,连接自然语言边缘的单词和短语。

值得注意的是,我们将CUB数据集作为一个特例,因为它的类标签是细粒度的鸟类的专有名词,这很难通过ConceptNet构建语义连接。相反,我们通过计算部分级属性上的Hadamard积来构建CUB的类级图。得到的图与归一化的边权(表示不同类之间的相似点)紧密相连。两个小数据集的类级图如图2所示。

在这里插入图片描述
ConceptNet 介绍

ConceptNet是一个可自由使用的语义网络,旨在帮助计算机理解人们使用的单词的含义。

在这里插入图片描述

5.1.3 虚拟视觉特征合成

对于ZSL和GZSL,我们利用最近出现的生成式对抗学习方法,为未见的类合成虚拟视觉特征。具体来说,我们使用条件GAN在相关边信息(语义信息)的条件下进行语义→视觉合成,并使用WGAN-GP进行训练设置。为了稳定GAN的训练,我们采用了语义特征回归的双重学习机制。我们使用视觉特征合成作为预处理步骤,而不是直接在其上学习关系,因为我们认为这种特征合成方法在ZSL/GZSL中有几个未解决的问题:

1.首先,生成的特征不能很好地适应真实的分布,因此对于GZSL来说是次优的。
2.其次,在这种特征映射学习中,生成的特征无法捕获实例级关系,忽略了类内方差。

我们的TGG通过显式关系建模将它们修改为节点嵌入空间。

5.2 图生成

5.2.1 基于注意力的聚合网络

在这里插入图片描述
我们的TGG的图生成模块将类级图和可视化特征作为输入,其中合成的虚拟特征用于ZSL/GZSL中的未见类,而提供的少数未见类特征在FSL中重复使用。我们的图生成目标是通过在类级别和实例级别合并每个节点的邻域的接近信息,生成作为节点嵌入的隐式实例表示和作为边的显式关系。

聚合网络使用GraphSAGE,其核心操作如下:AGGREGATEk是k-hop的聚合函数,用于聚合邻居信息,用于后续的节点嵌入更新;v和u代表节点, h v k h_v^{k} hvk 表示节点v在第k层传播时的节点嵌入,N表示邻居节点取样函数;

在这里插入图片描述

1.在采样方面,GraphSAGE对固定数量的邻居进行一致采样。
2.在聚合方面,GraphSAGE探索了三种聚合函数,即Mean、LSTM和Pooling。
3.平均聚合只是对所有邻居节点特性进行平均,而LSTM和池化工作区通过LSTM架构或池化操作集成节点特性。
4.然而,我们认为这些机制在我们的ZSL/FSL图生成情况下是不够的,生成的图应该更精确地整合邻近信息,以应对虚拟特征的噪声和防止负知识转移。
5.此外,我们的TGG对不同粒度的图进行图学习,即类级原型图 G c 和 实 例 级 图 G I G_c 和实例级图G_I GcGI,因此在这种 G c → G I G_c→G_I GcGI
6.图转换过程中,统一操作可能会丢失判别信息。

为了解决上述问题,我们提出利用多头注意机制对GraphSAGE算法进行增强。
具体来说,我们设计了聚合过程中的类级和实例级注意力,并将它们类似于ConvNet中的多个通道进行组合。

实例级注意力机制的定义如下:
在这里插入图片描述
类级注意力机制的定义如下:

类级别的注意值可以直接从GC的权重中得到(参见第3.1.2节),我们只是在每个局部聚合中对它们进行规范化,如Eq.(5)。

实例级和类级的注意有独立的参数,我们将它们组合成一个多头注意形式:
在这里插入图片描述
Eq.(7)背后的动机是,用多层次注意加权邻居特征有助于更精确、更有效地聚集邻近信息,这处理了信息稀释,并且对于面对数据缺乏或噪声时的ZSL/FSL推广至关重要。

此外,这种节点嵌入修正是在可见类和不可见类之间进行的,其中两个域的分布通过邻居信息集成趋向一致,从而显著减少域间隙,缓解域移位问题。

5.2.2 关系核

上述聚合网络通过隐式集成邻近知识,修正了可见和不可见类上的节点嵌入。基于这个修正后的节点嵌入空间,我们进一步显式地生成关系,利用图流形进行更好的可见到不可见的泛化。为此,我们提出了一个关系内核模块,显式地学习边缘特征,从而生成实例级图。

在这里插入图片描述
考虑到排列不变性和距离性质(如恒等),我们首先设计边缘特征学习函数为:
在这里插入图片描述
A v u k 表 示 G I A_{vu}^k 表示G_I AvukGI 的邻接矩阵A中节点v和u之间生成的边, Φ Θ Φ_Θ ΦΘ表示一个神经网络,δ是一个带宽超参数。

在数学上,Eq.(8)是一个带有Manhattan距离的高斯相似函数的实例,使用 Φ Θ Φ_Θ ΦΘ生成可学习的边缘特征。一旦得到A,将其送入堆叠的GCN模块进行图生成:
在这里插入图片描述在这里插入图片描述
此外,在我们的关系核中设计了一个额外的图正则化项,并与下游分类任务联合优化:

在这里插入图片描述
在本工作中,我们使用graph2vec作为图核,它是任务不可知的,可以在无监督的方式下学习。
Eq.(10)保证GI中生成的局部关系与GC中导出的相似点一致,作为先验信息帮助生成零样本关系,并克服过拟合问题。

5.3 关系传播

一旦生成实例级图GI(3.2),就可以利用节点嵌入和关系进行ZSL/FSL分类。为了充分利用GI内的知识,我们提出了一种新的二元关系传播和元学习来显式地执行关系推理,如下所示。

5.3.1 双重关系传播

在这里插入图片描述
为了明确地利用学习到的关系来改进泛化和进一步减轻域偏移,我们提出了在GI中可见和不可见子图之间的对偶关系传播。

具体地说,我们通过域间双学习演化出标准的标签传播算法。为了保持本文的完备性,我们简要回顾了标准的标签传播算法,然后详细阐述了可见子图与不可见子图之间的对偶关系传播。

在这里插入图片描述
当我们以两种方式引入看不见的领域信息时,即类级图中的看不见的原型和虚拟的特征输入(用于ZSL设置),生成的图GI中的所有节点实际上都被标记了。基于图生成提供的监督设置优势,我们提出了可见域和不可见域之间的双重关系传播。更具体地说,我们分别使用看到的和不看到的实例作为标签数据进行标签传播,并确保得到的标签矩阵是一致的。对偶关系传播的约束定义为:
在这里插入图片描述
其中YS和YU分别表示见过和未见过实例的标记子矩阵。||·||f表示矩阵的Frobenius范数。
从GI中可见和不可见的子图开始的标签传播可以看作是两个反向学习方向的传播学习者,最小化Eq.(12)鼓励他们相互学习“如何传播”。

5.3.2 基于元学习的训练策略

准备数据时,将训练集数据和生成的未见类数据合并,形成D,训练时,随机从D中取出n个样本进行训练,首先通过类级图进行聚合,然后建立实例图,将实例图64个节点分成支持集(可见类)和查询集(不可见类),分别进行标签传播,进行对偶学习。

现在,我们展示了我们的TGG框架如何将FSL、ZSL和GZSL与元学习相结合,其中图的生成、关系的传播和最终分类以端到端方式联合优化。对于FSL,有三个数据集,分别是训练集、测试集和支持集。测试集和支持集共享相同的标签空间(即不可见空间),与训练集的可见空间不相交。假设支持集对于每个N个唯一的类有K个标记的实例,FSL任务被称为N-way,K-shot。至于ZSL,我们借用了有条件的GAN的能力,为不可见的类构建了一个虚拟支持集,附带信息作为条件。

在传统的情景训练元学习范式中,每个情景用训练集的子集模拟小样本设置。在本文中,我们遵循元学习的情景训练,但在图生成过程中扩展其标签空间。具体来说,我们在GC中引入了不可见的原型,并从ZSL/FSL中的虚拟/真实支持集输入了不可见的类实例,因此图生成学习可以从可见和不可见的类中选择邻居信息。此外,另一个相关的差异在于,我们还将标签空间扩展到情景任务模拟中可见和不可见域的并置,从而实现全监督的元学习以提高性能。通过引入虚拟的看不见的实例,并使用图学习对其进行修正,可以在TGG中统一求解ZSL、GZSL和FSL,其中图的生成、关系传播和分类可以通过情景训练进行端到端联合优化。因此,域偏移和分类器对可见域的偏差可以显著降低(如第4节所示)。

在每一次迭代中,我们使用softmax将传播结果归一化为概率值,得到最终的预测结果:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
本质上,我们利用生成关系来学习图流形上的一个度量。也就是说,TGG 在一个修正的节点嵌入空间中学习一个图的流形度量,而不是在一个投影空间中预先定义一个固定的度量(例如,欧几里得)。运用元学习的原因有三个。首先,传统的图结构如 GCN 和 GraphSAGE 很难同时端到端地解决 zsl 和 gzsl,因为类数必须预先定义为最后输出层的输出维度。其次,元学习实际上是一种自适应方法,通过情景任务模拟将测试自适应移动到训练阶段。第三,这种元学习设置可以用来进一步缓解领域转移,因为它确保了测试和训练环境在我们的 TGG 中是一致的。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值