Zero-Shot Learning with Joint Generative Adversarial Networks 中文版

摘要

零样本学习(ZSL)是通过在嵌入空间或特征生成中从已见类别向未见类别转移知识来实现的。然而,基于嵌入的方法存在hubness问题,而基于生成的方法可能包含相当大的偏差。为了解决这些问题,本文提出了一种多个生成对抗网络联合模型(JG-ZSL)。首先,我们将基于生成的模型和基于嵌入的模型相结合,通过将真实样本和合成样本映射到嵌入空间进行分类,建立了一个混合ZSL框架,有效地缓解了数据不平衡的问题。其次,基于原始生成方法模型,引入了一个耦合的GAN来生成语义嵌入,可以在嵌入空间中为未见类别生成语义向量,以减轻映射结果的偏差。最后,采用语义相关的自适应边界中心损失,可以明确地鼓励类内紧凑性和类间可分离性,并且还可以指导耦合的GAN生成具有辨别性和代表性的语义特征。所有对四个标准数据集(CUB、AWA1、AWA2、SUN)的实验表明,所提出的方法是有效的。

介绍

1.研究背景和意义

在研究中,监督分类取得了巨大成功,但在这种分类方法中,每个类别都需要足够的标记训练,并且学习的分类器不能处理未见过的类别。为了解决以上问题,提出了少量/一次性学习、开放集识别、累积学习、类增量和开放世界等方法。然而,在上述方法中,如果在测试阶段出现没有可用标签实例的未见类别,则分类器仍然无法确定它们的类别标签。因此,提出了零样本学习(ZSL)。通过辅助信息,其中包含了已见和未见类别的描述,以及从属于已见类别的训练集中学到的知识,提供了足够的标记实例。ZSL 方法可以为属于未见类别的实例生成预测,尽管已见和未见类别是不重叠的;也就是说,鉴于属于已见类别的标记训练实例,零样本学习旨在学习一个可以对属于未见类别的测试实例进行分类的分类器。从这个定义可以看出,零样本学习的一般思想是将训练实例中包含的知识转移到测试实例分类的任务中。训练和测试实例所涵盖的标签空间是不重叠的。因此,零样本学习是迁移学习的一个子领域。在迁移学习中,源领域和源任务中包含的知识被转移到目标领域,以便在目标任务中学习模型。自从诞生以来,零样本学习(ZSL)已成为机器学习领域的快速发展领域,在计算机视觉、自然语言处理和普适计算等领域都有广泛的应用。

2.先前的模型提出了什么方法?解决了什么问题?有什么不足?

先前针对ZSL的工作主要学习了一个空间嵌入函数来实现分类。根据嵌入空间的选择,基于嵌入的方法可以分为三类:语义空间嵌入方法、视觉空间嵌入方法和公共空间嵌入方法。它们直接估计了视觉特征与其对应属性之间的条件分布或映射关系。语义空间嵌入方法直接将视觉特征映射到语义空间。DeViSE是最具代表性的模型之一;它使用高效的排名损失制定了图像与语义空间之间的线性映射,并在大规模ImageNet数据集上进行了评估。然而,使用语义空间作为嵌入空间意味着视觉特征向量需要投影到语义空间中,这会缩小投影数据点的方差,从而加剧中心问题。为了缓解中心问题,李等人提出了一种新颖的基于深度神经网络的嵌入模型(DEM)。==虽然DEM将CNN子网络的输出视觉特征空间用作嵌入空间,在一定程度上可以缓解中心问题,但是视觉特征流形和语义特征之间的不一致导致了语义差距。==为了解决上述问题,Min等人提出了一个特定领域的嵌入网络(DSEN)模型,考虑了语义一致性问题,并防止语义关系在嵌入空间中被破坏。尽管基于嵌入的方法已经被使用和发展了很长时间,并且是一种非常有竞争力的零样本图像分类方法,但由于已见类和未见类之间训练样本数量的极端不平衡,大多数现有方法仍然存在很大的局限性。

3.最近的研究提出了什么方法?解决了什么问题?

最近的研究主要集中在利用生成模型合成图像特征,生成方法已成为一个热门的研究课题。这些方法属于基于数据增强的范畴。这一类方法的基本假设是,从已见类学习到的类内样本交叉关系可以应用于未见类。一旦从已见类中建模和学习了样本间的交叉关系,就可以将其应用于未见类的未标记样本,从而生成新样本,并将无监督学习转化为使用合成新样本的有监督学习。根据不同的生成模型,现有的基于生成的方法主要包括基于GAN的方法、基于VAE的方法和基于正态流的方法。基于正态流的方法通过将简单分布映射到复杂分布来构建复杂分布,允许进行精确的似然计算,同时具有高效的可并行化能力,但由于架构的特殊性,尚未得到广泛研究。大多数基于VAE的方法都是单向对齐的。这种方法捕获了视觉特征的低维潜在特征,然后通过解码和重构公式实现生成的伪视觉特征与语义属性之间的单向对齐

SE-GZSL采用了基于VAE的结构,生成模型由概率编码器和条件解码器组成。同时,引入了反馈驱动机制,可以提高生成器的可靠性。尽管VAE能够稳定地生成伪视觉特征以有效地避免模式崩溃,但生成的伪视觉特征中包含的语义信息非常有限。为了克服上述问题,提出了基于GAN的方法;这种方法在模型训练后能够生成高质量的伪视觉特征。VERMA等人提出了一种基于类属性条件设置的元学习模型ZSML。发生器模块和带有分类器的鉴别器模块与元学习代理相关联,模型只需输入少量可见类样本即可训练。Xian等人利用生成对抗网络基于语义特征进行分类,并利用高斯噪声生成未见视觉特征,将零样本学习问题转化为有监督分类问题。基于生成的方法的结果优于基于嵌入的方法,并且目前也是主流方法。

4.最新的研究提出了什么方法?解决了什么问题?有什么不足?我们如何解决的这些不足?

在2022年的最新工作中,嵌入式和生成式方法都得到了进一步的探索和更新。徐等人提出了一种名为视觉基础语义嵌入模型(VGSE)的模型,该模型从已见类中学习视觉聚类,并通过建立已见和未见类之间的关系来自动预测每个类别的语义嵌入,给定了无监督的外部知识源。在生成式方法方面,为了生成高质量和多样化的图像特征,于等人提出了一种新的生成模型,该模型添加了一个语义约束模块,并引入了欧氏距离损失来约束特征生成。尽管上述方法可以解决零样本学习存在的问题,但也引入了一个新问题:基于生成的方法的先前工作仅使用一个生成对抗网络来模拟未见类的视觉特征,并忽略了这些生成特征在映射空间中的分布。这可能使得生成特征的语义映射点更接近语义空间中已见类的语义原型,导致最终的分类结果仍然对已见类存在偏见。

为了兼顾两者的优点并解决上述新问题,我们首先提出了一个混合模型,该模型可以实现基于空间嵌入和基于生成的方法。

其次,我们引入了一个生成对抗网络,用于在嵌入空间中模拟未见类特征的映射点。尽管多个GAN级联的模型在监督学习中已经被充分验证和使用,但尚未应用于零样本学习。在本文中,我们首次引入了多级GAN堆栈结构,以优化数据不平衡问题。

第三,我们为耦合的GAN提出了一个语义相关的自适应边缘中心损失。该损失可以鼓励类内紧密度和类间可分离性,并实现耦合的GAN能够更好地生成具有代表性和差异性的语义特征。

我们在四个基准数据集上评估了我们的方法,实验结果表明,我们的方法与其他方法相比具有竞争力。本文的贡献总结如下:

  • 提出了一个混合模型,即联合生成对抗网络(JG-ZSL),将基于嵌入的方法和基于生成的方法结合起来,以提高模型的敏感性和特异性。
  • 引入了一种用于生成语义特征的GAN,以在嵌入空间中生成映射点,该点可以为语义空间中的未见类生成语义向量,从而减轻映射结果的偏见。
  • 设计了语义相关的自适应边缘中心损失(SEMC-loss)用于语义生成的GAN,以确保生成的映射点不偏向其他类别,并实现整个模型更好地区分不同类别。
  • 我们在四个基准数据集上评估了我们的模型,实验结果表明,我们提出的方法可以实现高准确性。

方法

2.1 问题定义

在零样本学习(ZSL)和广义零样本学习(GZSL)中,我们有两个不相交的类别集合:已见类别集合 S = { c s i ∣ i = 1 , . . . , N s } S=\{c_{si}|i=1,...,N_s\} S={csii=1,...,Ns},其中 c s i c_{si} csi是一个已见类别,提供了用于训练的标记实例;未见类别集合 U = { c u i ∣ i = 1 , . . . , N u } U=\{c_{ui}|i=1,...,N_u\} U={cuii=1,...,Nu}包含了用于测试的未标记实例。注意到 S ∩ U = ∅ S∩U=∅ SU=。这些实例具有不同的视觉特征,但对于来自同一类别的实例,它们的标签和语义描述是相同的。将视觉特征表示为 x x x,类别标签表示为 y y y,语义描述(在本文中是属性)表示为 a a a。因此,每个类别可以表示为一个集合 C i = { ( x j i , y j i , a i ) ∣ i = 1 , . . . , N S + N U ; j = 1 , . . . , n } C_i=\{(x_{ji},y_{ji},a_i)|i=1,...,N_S+N_U;j=1,...,n\} Ci={(xji,yji,ai)i=1,...,NS+NU;j=1,...,n},其中 n n n是该类别包含的实例数;我们可以从实例 x x x的类别标签 y y y推断出其语义描述 a a a。ZSL的目标是学习一个分类器,能够对属于未见类别 U U U的测试实例 x u x_u xu进行分类,即 f Z S L : x u → U f_{ZSL}:x_u→U fZSL:xuU。在更具挑战性的广义零样本学习(GZSL)设置中,测试实例 x x x来自于已见类别 S S S和未见类别 U U U,因为人们还关注对已见和未见类别的实例进行分类的能力。GZSL的目标是学习一个分类器 f G Z S L : x → S ∩ U f_{GZSL}:x→S∩U fGZSL:xSU。根据Wang等人的定义,零样本学习分为三种学习设置,根据是否在模型学习中使用未标记的测试实例和未见类别的类别描述信息,如表1所示。在本文中,生成器的训练过程中不使用未标记的测试实例,但分类器使用未标记测试实例的平均视觉特征和生成器基于未见类别属性描述生成的合成特征进行训练。根据Wang的定义,我们的方法属于类-转导实例-转导(CTIT)设置。

2.2.混合框架简介

所提出的针对ZSL(JG-ZSL)的联合GAN级联如图1所示,具体来说,该网络由将视觉特征映射到语义空间的嵌入式网络、基于属性生成视觉特征的GAN和基于视觉特征生成语义空间映射点的GAN网络组成。
在这里插入图片描述

2.3 total loss

在这里插入图片描述

在我们的混合框架中,我们将真实特征和合成特征都映射到语义嵌入空间,在那里进行最终的GZSL分类。值得注意的是,我们仅使用已见类别的语义描述符来构建 LSE(E)。因此,方程(1)应扩展为:

LSE(E) = Ep(x,a)[max(0,∆−aTE(x)+(a )TE(x))] + EpGf(x˜,a)[max(0,∆−aTE(Gf(a,ε))+(a )TE(Gf(a,ε)))] (9)

其中,p(x,a)是已见类别真实训练样本的经验分布,而pGf(x˜,a)=pGf(x˜|a)p(a)则是合成特征及其对应语义描述符的联合分布。映射网络的总损失采取如下形式:

L(G1,E,H) = LSE(E) + LSE(H) (10)

因此,我们最终混合框架的总损失可表述为:

Ltotal = L(G1,E,H) + LWGANfeature + LWGANatt + LSEMC (11)

2.4. 分类

首先,对于每个未见类别的未标记样本的平均视觉表示 ( \bar{x} ),我们通过特征生成器网络 ( G_2 ) 生成每个未见类别的语义特征 ( e_{\tilde{u}} ) ,该网络使用平均视觉表示 ( \bar{x} ) 和高斯噪声作为输入,并输出合成特征:( e_{\tilde{u}} = G_2(\bar{x}, \epsilon) ) 。其次,为了将分类器的输入保持在同一模型中,我们使用 ( G_1 ) 为每个伪语义嵌入生成视觉特征,即 ( G_1 ) 分别使用真实语义特征和生成的语义特征合成视觉特征,分别表示为 ( x_{\tilde{u}} = G_1(a_u, \epsilon) ) 和 ( x_{\tilde{u}} = G_1(e_{\tilde{u}}, \epsilon) )。然后,我们可以得到一个合成训练特征集 ( U_{tr} = {x_{\tilde{u}} \cup x_{\tilde{u}} } )。最后,我们将合成训练特征集 ( U_{tr} ) 和给定的已见类别的训练特征 ( S_{tr} ) 映射到相同的嵌入空间 ( h_i = E(x_i) ),并利用嵌入空间中的真实已见样本和合成的未见样本训练一个 softmax 模型作为最终的分类器。整个过程如图 3 所示。

3. 实验结果

3.1 数据集

我们在四个用于零样本学习的基准数据集上评估了我们的方法:Animals with Attributes 1和2(AWA1和AWA2),Caltech-UCSD Birds-200-2011(CUB)和SUNAttribute(SUN)。每个数据集的内容示例如图4所示,所有数据集及其统计信息总结在表2中。AwA1是一个粗粒度图像数据集,包含50个类别的30,475张动物图片,其中40个是已见类别,10个是未见类别,使用85维的类级属性向量。AWA2是AWA1的固定版本;它们具有相同的类别、类别划分方式和类别级属性维度,只是使用了37,322张粗粒度动物图片,并且它们不与AwA1图像实例重叠。

CUB是一个细粒度图像数据集,包括200个类别的11,788张鸟类图片,其中150个类别属于已见类别,50个类别属于未见类别。CUB还提供了实例级别的属性向量;但是,在本文中仅使用了312维的类别级别属性向量。类别级别属性描述空间如图5所示。
在这里插入图片描述
在这里插入图片描述

SUN是一个场景数据集;该数据集也是一个细粒度数据集,包含了717个场景的14,340张图片。在这里,用于训练的有645个类别,用于测试的有72个类别。每个类别都用一个102维的属性向量进行注释。

3.2实现细节

我们根据[42]提供的新的分割设置进行了评估,更多设置的细节可以在[42]中找到。我们严格使用每个图像从[42]提供的预训练的ResNet-101提取的2048维特征,与其他方法类似,只使用了每个数据集提供的属性向量。我们使用PyTorch实现了我们的方法。我们将嵌入h的维度设置为类别级别的属性向量,对于AWA1和AWA2是85维,对于CUB是312维,对于SUN是102维。非线性投影输出z的维度设置为512。我们为AWA1和AWA2设置了4096个随机小批量的大小,为CUB设置了2048个,为SUN设置了1024个。我们的生成器和判别器都包含一个4096单元的隐藏层,并使用LeakyReLU激活函数。分类部分包含一个全连接层,用于进行预测。输入和输出单元的数量遵循属性向量的维度和每个数据集提供的类别数量。对于超参数,我们根据[26]设置了方程(3)中的温度参数τe:对于AWA1、CUB和SUN,τe=0.1,对于AWA2,τe=10.0。对于方程(8)中的参数,我们使用了一个大的γ=0.8用于细粒度数据集(CUB和SUN),一个小的γ=0.1用于粗粒度数据集(AWA1和AWA2),参考了[43]。

对比最新方法

我们在上述四个数据集上计算了我们算法的调和准确率 H,相应的训练准确率 accs,和测试准确率 accu。结果记录在表 4 中,所有结果均直接引用其发表的论文。表 4 显示,我们的方法在 CUB 数据集的 H-mean 和 accu 方面取得了较高的数值。与第二名相比,我们的方法在 H-mean 方面有显著的提升,提高了 2.9%,在 accu 方面,我们领先第二名达到了 8.1%。我们还在 AWA2 数据集的 accu 上取得了最佳位置,比第二名领先了 2.5%,在 H-mean 上我们取得了 AWA2 的第二最佳位置,而最佳的 Top-1 H-mean 是由 IZF 获得的。对于 SUN 数据集,我们在 accu 和 H-mean 上均取得了第二最佳位置,并且远远领先于第三名的结果。这些结果表明,本文提出的方法取得了显著的成果。此外,值得注意的是,尽管与 IZF,当前最佳的 SoTA 模型相比,我们的结果不能在所有指标上超过它,但正如其作者所承认的那样,IZF 模型基于生成流,并且具有极高的复杂性,需要大量的计算资源和复杂的计算过程,而且需要人类经验和试错来获得参数的最佳组合。相反,我们提出的模型轻量简单,易于训练。与 IZF 相比,我们可以在消耗远少于 IZF 的计算资源的情况下达到类似的结果。

3.3.2. 消融研究

本文采用了将基于生成的方法和基于嵌入的方法结合起来的混合模型,并使用两个独立的生成网络来合成每个未见类别的视觉特征。在测试时,这两个生成网络通过分别合成视觉特征和语义嵌入来缓解数据不平衡的问题。为了说明多个生成对抗网络的效果,我们对零样本学习(ZSL)和广义零样本学习(GZSL)任务进行了以下实验:(1) 只使用语义嵌入网络(SE)的实验;(2) 使用语义嵌入网络和视觉特征生成网络(Gf)的实验;(3) 使用语义嵌入网络、视觉特征生成网络和语义嵌入生成网络(Ga)的实验;(4) 对整个混合模型进行实验。实验结果分别在表5和表6中呈现。

在这里插入图片描述
从表5中可以看出,网络对数据集的影响不同,JG-ZSL在大多数数据集上都取得了最佳结果。对于AWA2数据集,SE+Gf+Ga的每类T1准确率高于整个JG-ZSL,而在其他数据集上表现有所不同。此外,从图6中可以看出,与SE-Only和仅生成视觉特征的网络相比,JG-ZSL在所有数据集上的表现也优于所有网络和设置。

结论

本文提出了一种联合模型,采用多个生成对抗网络,结合基于嵌入的方法和基于生成的方法,来合成视觉特征和语义嵌入点,从两个方面实现了零样本学习的数据增强,并且在更具挑战性的广义零样本学习设置中得到了验证。受主动学习和生成对抗网络思想的启发,耦合的生成网络协同工作,在语义相关的自适应边缘中心损失的约束下合成未见类的视觉特征。此外,我们将该模型与当前先进的方法进行了比较,实验结果优于最先进的基于嵌入的方法,并与当前的基于生成的方法竞争。然而,本文还存在一些局限性。例如,所有类别都使用相同的方式生成语义特征,缺乏针对性,并且没有尝试使用VAE和其他模型生成语义特征进行比较。充分利用图像生成的伪语义特征,并将其与更多的生成模型进行比较,是未来探索的方向。除了上述问题,探索生成的语义特征的更合适数量和由生成的语义特征和真实语义特征合成的样本的不同比例也是可以探索的问题。在未来的工作中,我们将进一步探索更高效的伪语义特征生成方法,并探索更明显的改进未见类分类效果的方法,并在更大的数据集上进行实验,以提高泛化能力。

  • 12
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

computer_vision_chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值