【阅读笔记】Large-Scale Few-Shot Learning via Multi-Modal Knowledge Discovery

Abstract

大规模的少样本学习旨在识别数百个新的对象类别,每个类别只有几个样本。这是一个具有挑战性的问题,因为(1)识别过程容易过度拟合对象的有限样本,以及(2)基础(已知知识)类别和新类别之间的样本不平衡很容易使识别产生偏差结果。为了解决这些问题,我们提出了一种基于多模态知识发现的方法。首先,我们使用视觉知识来帮助特征提取器专注于不同的视觉部分。其次,我们设计了一个分类器来学习所有类别的分布。在第二阶段,我们开发了三种方案来最小化预测误差并平衡训练过程:(1)硬标签用于提供精确的监督。 (2)利用语义文本知识作为弱监督来寻找小说和基础类别之间的潜在关系。 (3) 从数据分布中提出不平衡控制,以减轻对基本类别的识别偏差。我们将我们的方法应用于三个基准数据集,并在所有实验中实现了最先进的性能。


Introduction

图 1. (a) 给定一张图像,我们定义了它的三个视觉部分,前景聚焦于对象,背景描述与对象相关的环境,原始图像包括前景和背景。 (b) 给定一个新标签“Tabby Cat”,我们在文本空间中展示了它与来自基础的其他标签之间的相似性。相似度分数(橙色)是通过 word2vec 方法计算的。这种文本知识可以有效地用于帮助识别新物体作为软监督信息。例如,这些分数是“Tabby Cat”和基础中所有标签之间的最大分数。基于它们,(b)中列出的这些对象被认为与虎斑猫最相似,并且可以利用它们与虎斑猫的相似性来帮助识别虎斑猫图像。 

对于 FSL 或 LS-FSL 的任务,我们认为关键问题是(1)如何从可用图像中提取更多信息,以及(2)如何有效地使用基础对象来帮助识别新对象。对于第一个问题,一种流行的策略是使用在基本类别上训练的 CNN 直接提取新物体的全局特征 [7, 32]。它旨在产生一个可转移的特征表示(纹理和结构)来描述一个新的类别。然而,它不足以代表新样本,因为它们的全局特征不能很好地描述其类别在有限样本下的分布。因此,为了从图像中发现更多信息,我们定义了由无监督显着性检测方法计算的三个视觉部分(如图 1(a)所示)。它们被用作训练和推理的网络输入。

对于第二个问题,之前的 LS-FSL 工作 [7, 32] 在给定标签(本文中称为硬标签)的监督下训练分类器,以学习基础类别和新类别的分布。在我们的方法中,除了硬标签之外,我们还引入了从文本知识生成的语义软标签,以帮助网络学习更强大的分类器。这是图 1(b) 中所示的示例。新类对象可以被猜测为类似于猫,因为它的标签“Tabby Cat”与基础中的标签“Tiger Cat”之间的相似度相对较大(0.57)。此外,得分 (0.41) 给出的信息是输入将更类似于“Coonhound”,而不是图 1(b) 中未显示的其他类别,例如“汽车”。

我们的框架概述如图 2 所示。首先,我们使用给定图像的三个视觉部分作为三个独立训练的 CNN 的输入,以从该图像中提取特征。其次,我们从文本知识中计算该图像的硬标签与库中其他已知标签的相似度,并使用这些相似度生成语义软标签。第三,我们设计了一个分类器并使用硬标签和软标签对其进行训练


Contributions

  1. 我们介绍了从图像中提取更多视觉信息的策略,并分析了其对 FSL 和 LS-FSL 的优势。
  2. 我们提取文本知识来帮助分类器从语言中学习,这也可以用来改进现有的 LS-FSL 方法。
  3. 为训练期间的语义知识发现和样本不平衡控制设计了两种新的损失。
  4. 我们的方法简单而强大;它在流行的 LS-FSL 和 FSL 数据集上实现了最先进的性能。

Method

视觉知识发现

对于视觉表示,[27] 通过基于梯度的定位可视化来自受过训练的 CNN 的图像的响应。结果表明,使用大规模样本训练的 CNN 倾向于使用对象区域进行表示。在 LSFSL 中,基本类别通常具有大规模的训练样本(例如,一个类别中约有 1300 个样本)。因此,在基础数据上训练的 CNN 更倾向于关注它所学习的对象的纹理和结构。如图 3(a) 中的“原始响应”1 列所示,给定“鹧鸪”类别的基础样本,原始图像上的响应区域集中在鸟的身体上,因为 CNN 是用许多鹧鸪图像。对于捕鼠器图像,可以找到类似的结果。然而,这个 CNN 可能会偏离新物体的响应并忽略它们。例如,它专注于渔夫,而不是图像中带有“银鲑鱼”标签的鱼(图 3b))。因此,重要的是使响应更准确或扩大新样本的响应区域。然而,由于在 CNN 的训练过程中没有(或只有少数)新样本,因此很难使响应集中在新对象上

受 [9] 中的工作启发,人类具有通过主要选择可用感官信息的子集(前景)然后将视觉扩大到场景的另一部分(背景)来解释复杂场景的非凡能力,我们提取来自可用样本的更多视觉知识来模仿这种人类行为以丰富表示。首先,我们采用现成的无监督显着性检测网络[37]从图像背景中分割显着区域(前景)。设无监督显着性检测网络为Ψ,原始图像为Io。然后显着区域的掩码表示为 Ψ(Io)(例如参见图 2,其中 Ψ(Io) 与 Io 大小相同,前景为 1,背景为 0)。因此,前景 If 和背景 Ib 由下式计算:

 其中 ⊗ 表示 Hadamard 乘积。

其次,我们训练三个独立的 CNN,Ωo、Ωf Ωb,分别在硬标签的监督下从所有基础样本中学习三个视觉部分 IoIf Ib 的表示。使用三个独立 CNN 的原因是因为这些部分具有不同的分布。为了分析视觉知识发现的有效性,我们使用图 3 中的可视化方法 Grad-CAM [27] 从训练的 CNN 中可视化前景和背景的响应区域。对于基础样本,很容易看出Ωo 和Ωf ​​关注鸟和捕鼠器的区域。虽然背景 Ib 中没有物体,但 Ωb 的反应仍然集中在鸟和捕鼠器的边缘。

相比之下,这些 CNN 在新样本上的表现不同。对于图 3(b) 中的两个新样本,如果仅使用 Ωo,则对“银鲑鱼”和“文件柜”图像的响应主要分别在渔夫和人身上。显然,提取的特征表示很可能导致识别失败。当使用 Ωf 时,我们可以看到“Silver Salmon”的响应转移到了鱼身上,这正是我们所需要的。为什么需要Ωb是因为在很多情况下,比如“文件柜”图像,无监督显着性检测的结果并没有给出标签对应的主要对象;相反,该对象被视为背景。因此,在这些情况下,需要 Ωb 来提取有用的特征,如图 3(b) 的右下角子图像所示。在我们的框架中,由 Ωo、Ωf 和 Ωb 提取的特征表示为:

 然后将它们连接在一起作为 v = [vo, vf , vb] 以描述样本并用于分类器的训练。


文本知识发现

人类可以通过几个样本识别一个新类别,因为他们已经看到了许多其他相关对象或从文本知识中学习它们,因此已经熟悉它们的显着特征。受此启发,为了帮助识别一个新颖的类别,我们通过使用文本知识从基础中找到其相似的类别。例如,在图 1(b) 中,小说标签“Tabby Cat”与文本空间中来自碱基的标签之间的相似度得分可以在很大程度上描述它们的相似性。与新类别的硬标签相比,这些分数为识别新样本提供了更加多样化和信息丰富的监督。为了有效地使用这些文本知识来帮助我们的网络学习更好的分类器,我们提取语义知识来丰富监督信息

我们方法中的分类器有两个目的:1)在不忘记基本类别的情况下学习新类别,以及(2)使用基本知识帮助学习新类别。为了实现这些,我们设计了一个 C 路分类器 Γ 来学习基础类别和新类别的预测分布,其中 C 是基础类别和新类别的总数

给定训练好的 CNN 提取的特征 v,分类器的预测表示为 p = Γ (v),其中 p C 维向量。我们基于文本知识设计我们的语义软标签监督。给定新样本 k 和基础样本的标签,我们首先通过可用的 word2vec 方法 [15] 将这些标签表示为向量。其次,我们使用余弦相似度及其向量表示来计算新标签和基本标签之间的相似度。然后,我们得到一个Cbase维向量𝑙𝑘,其中Cbase是基类的个数,𝑙𝑘的分量是相似度得分。 𝒍𝒌  R^Cbase 提供非稀疏监督测量来描述小说和基础对象之间的相似性。我们将 𝑙𝑘 称为新样本 k 的语义软标签。接下来,我们设计了一个基于𝑙𝑘的语义软损失。

其中,𝑙𝑗𝑘 是新样本 k 的标签与第 j 个基本类别标签之间的相似度得分,α 是控制文本知识使用的阈值。最小化 Lk 可以粗略地认为是最大化 skj 在‘kj > α 下的归一化对数似然性,这意味着这些归一化预测 skj 应该很大,因为它们更类似于新标签。在训练过程中,如果一个训练批次中有 N 个新样本,则该批次的语义软损失为:


来自数据分布的不平衡控制

在 LS-FSL 中,[7] 表明,在没有其他辅助策略的情况下,在硬标签监督下训练的分类器将识别偏向于基本类别。具体来说,新类别的平均准确率远低于基本类别的平均准确率。这是因为每个基本类别可以使用很多样本来很好地描述其特征分布,而一个新类别只有很少的训练样本。为了减轻新类别和基本类别之间样本不平衡的影响,我们首先对每个训练批次中新类别的样本进行过采样。其次,我们将数据集的分布视为先验知识,然后设计一种不平衡控制策略,使预测偏向新样本

其中 β ∈ [0, 1] 是确定不平衡控制强度的超参数,<..>是两个向量之间的内积。

如果没有不平衡控制,由于来自基类的训练数据要多得多,pb 和 pn 对基类的预测都比较大,意味着pb和pn有比较大的相关性。通过最小化 LIC 使用所提出的不平衡控制,我们可以减少这些相关性,从而在输入是新样本时对新类别进行预测。请注意,施加此损失对基础样本几乎没有影响,因为基础类别中有更多的训练数据


硬标签监督和全损失

硬标签也用于训练具有交叉熵损失的分类器。给定具有 B + N 个样本的训练批次,预测 {ph}B+N h=1 与其硬标签 {Lh}B+N h=1 之间的交叉熵损失由下式计算:

最后,训练批次的总损失定义为:

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值