【阅读笔记】Baby Steps Towards Few-Shot Learning with Multiple Semantics

Abstract

从一个或几个视觉示例中学习是人类自婴儿早期以来的关键能力之一,但对于现代人工智能系统来说仍然是一项重大挑战。虽然在从几个图像示例中进行小样本学习方面取得了相当大的进展,但对于通常提供给婴儿的新对象时的口头描述却很少关注。在本文中,我们专注于可以显着促进少镜头视觉学习的附加语义的作用。在具有附加语义信息的小样本学习的最新进展的基础上,我们证明了通过结合多种和更丰富的语义(类别标签、属性和自然语言描述)可以进一步改进。使用这些想法,我们在流行的 miniImageNet 和 CUB 少样本基准上为社区提供了新结果,与之前仅视觉和基于视觉加语义的方法的最新状态结果相比,具有优势。我们还进行了一项消融研究,调查我们方法的组件和设计选择。


Introduction

人类婴儿学习的一个重要组成部分是最近才进入视觉小样本学习方法的,它是所提供示例附带的相关语义。例如,在儿童发展文献中已经表明,婴儿的物体识别能力与他们的语言技能有关,并且假设它可能与描述物体的能力有关[21]。事实上,当父母指着要学习的新类别时(“看,这是一只小狗”,图 1),通常伴随着对该类别的附加语义参考或描述(例如,“看看他毛茸茸的耳朵','看看他漂亮的丝质皮毛','小狗汪汪汪')。这种额外且很少丰富的语义信息对学习者非常有用,并且已在零样本学习和视觉语义嵌入的背景下得到利用。事实上,语言和视觉领域都以不同的方式描述同一个物理世界,并且在许多情况下包含有用的补充信息,这些信息可以传递给另一个领域的学习者(视觉到语言,反之亦然)。

在最近的小样本学习文献中,仅在少数作品中实现了使用语义来促进小样本学习的额外力量。在 [5] 中,类别标签或给定类别属性集的嵌入向量用于通过添加损失来规范自动编码器 TriNet 网络的潜在表示,以使样本潜在向量尽可能接近对应的语义向量。在 [37] 中,视觉类别的语义表示是在 GloVe [23] 词嵌入的基础上与基于 Proto-Net [30] 的少样本分类器以及两者的凸组合一起学习的。这种联合训练的结果是一个强大的小样本和零样本(即基于语义的)集成,在具有挑战性的 miniImageNet 小样本学习基准上超越了迄今为止所有其他小样本学习方法的性能[ 32]。在这两种情况下,将小样本学习与某些类别语义(标签或属性)相结合证明对小样本学习器的性能非常有益。然而在这两种情况下,仅使用简单的一个词嵌入或一组指定的几个数字属性来对语义进行编码。

在这项工作中,我们表明,通过探索更真实的类人学习环境可以获得更多收益。这是通过为学习者提供对多种更丰富语义的访问来完成的。根据数据集可用的内容,这些语义可以包括:类别标签;更丰富的“描述级别”语义信息(一个或几句自然语言中的类别描述);或属性。我们展示了这种带有语义设置的学习如何促进小样本学习(利用人类婴儿学习方式的直觉)。该结果与之前在具有挑战性的 miniImageNet [32] 和 CUB [36] 少镜头基准上的视觉和视觉 + 语义最先进的结果相媲美。


Contributions

  1. 首先,我们建议社区考虑一种新的、可能更接近于“婴儿学习”的多复杂语义少样本学习 (FSL-MCS) 设置。
  2. 其次,在这种情况下,我们提出了 FSL-MCS 的新基准,以及相关的训练和评估协议。
  3. 第三,我们提出了一种新的多分支网络架构,为提出的 FSL-MCS 设置基准提供了第一批令人鼓舞的结果。

Method

我们的方法建立在[37]的工作之上。我们的一般模型架构总结在图 2 中。最近表明,以标准监督方式预训练主干对性能有好处,即具有 softmax 非线性预测所有训练类别的概率的简单线性分类器(无偶发训练),例如[33]。因此,我们将训练分为两个阶段。在第一阶段,我们在训练类别上对 CNN 主干进行完全监督训练(训练过程类似于 [33])。在第二阶段,最后一层(线性分类器)被丢弃并替换为 2 层 MLP,所有先前的主干层都被冻结,我们添加了语义分支然后使用 [32] 提出的基于情节的元学习方法训练完整模型。训练是在由每个任务类别的一个或几个图像示例(所谓的支持集)以及属于这些类别的一个或几个查询图像(所谓的称为查询集)。每个任务都在模拟一个小样本学习问题。此外,对于我们的多语义方法,每个任务都伴随着每个任务类别的语义信息(标签和/或描述句子和/或属性)。对于标签,我们使用 GloVe 嵌入 [23],对于描述,使用 BERT 嵌入 [6],因为我们观察到 GloVe 对单词和 BERT 对句子的性能更好

注意:𝑆1,S2…Sk:表示k个语义分支。

该模型由一个视觉信息分支组成,该分支由 CNN 主干计算功能支持,用于小样本任务的训练图像和查询图像。与 Proto-Nets [30] 一样,每组任务类别支持示例的特征向量被平均,以形成该类别的视觉原型特征向量 V。此外,该模型包含一个或多个“语义分支”,用于学习合并附加的语义信息。每个语义分支都以一个预训练的词或句子嵌入特征提取器(或者在属性的情况下只是一个向量)开始,然后是一个多层感知器(MLP)生成一个“语义原型”Si,并与相应的(相同的类别)视觉原型。为了这种组合,每个语义分支都配备了一个MLP计算“语义注意”——类别原型的整体凸组合中分支的语义原型的系数αi。为了计算 αi,可以将每个分支的注意力 MLP 设置为接收由视觉或语义分支生成的任务类别原型之一作为输入。

总而言之,对于每个任务类别,每个语义分支由它的两个输入唯一确定——语义信息被处理成语义原型 Si(类别标签、类别描述或属性向量),原型(视觉或语义)被处理成语义注意系数αi。在给定的少量样本任务中,类别的最终原型 P 具有关联的视觉原型 V 和语义原型 {S1,...,Sk},计算如下:

然后将最终类别原型 P 与查询视觉特征向量 Q(由 CNN 主干生成)进行比较,以计算类别概率为 prob(Q, P ) = SM (-||P- Q||^2),其中 SM 代表对于 softmax 归一化算子。

假设查询 Q 的正确类别具有视觉原型 V 和语义原型 {S1, ..., Sk},那么包含所有视觉和语义分支的 CE 损失的最终训练损失可以写成:

其中 Pr 是等式 1 的部分计算的输出,直到语义分支 #r:


实验

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值