Improved Prototypical Networks for Few-Shot Learning

1. Introduction

FSL任务通常包含三个集,a base set, a support set, 和 a novel set。FSL 的任务是从新集合中正确分类实例,其标签空间与支持集的标签空间相同,但与基集的标签空间不相交。 目前,FSL 仍然是一项具有挑战性的任务,因为很难从少数样本中揭示类别的分布信息
Fig. 1.Fig. 1. 小样本任务的图解。 左列显示基集,每个类都有丰富的样本。 右列显示支持集和新集,其中标签空间与基集的标签空间不相交。 支持图像左侧的绿色条形反映了它们的类别代表性,条形越长,图像对类的重要性越高。

很明显,我们可以直接使用无参数方法,例如 kNN, 通过使用特定的距离度量(a certain distance metric)来测量目标数据和支持数据之间的相似性来实现 FSL。 然而,由于支持集图像不足,这种方法的分类性能通常不能令人满意。其他简单的方法使用支持集来微调在基集上训练的模型。 然而,这些方法很容易出现过拟合问题(Finn et al., 2017),因为提供的微调实例很少。 为了解决这个问题,元学习框架下的一些方法近年来引起了很多关注,它们将训练过程制定成连续的过程,每个过程模仿 FSL 的任务。 具体来说,该框架包含两个组件,元学习器学习特定类的元知识,学习器学习整个类的知识。

虽然基于元学习的方法取得了令人鼓舞的表现(Vinyals 等人,2016 年;Snell 等人,2017 年;Finn 等人,2017 年;Sung 等人,2018 年),但其中一些仍然具有以下弱点。 首先,当前的大多数方法要么需要复杂的前向推理(Feifei 等,2006),要么需要复杂的网络(Santoro 等,2016;Vinyals 等,2016)。 其次,现有方法很少关注类内差异,无法充分利用所提供的信息。 例如,由 (Snell et al., 2017) 提出的原型网络 (PN) 以简单的架构实现了惊人的性能。 然而,这项工作只利用了类内实例的平均信息,而忽略了一些有价值的信息。

为了缓解上述缺点,我们提出了一个修改PN,以最大限度地利用类内信息。基于这两种策略,提出的IPN包括三个模块:特征提取模块、权重分配模块和距离缩放模块。最后两个模块都是 parameter-light,这是低成本的实现。

2. Related Work

2.1. Parameters updating based methods

这些方法旨在预测更新参数,因为有更多的类可用示例。 例如,(Ravi and Larochelle, 2017) 开发了一个基于 LSTM 的元学习模型,该模型在基集上训练,通过充分的实例预测学到的分类器的参数,通过预测目标类的分类器参数,可以很容易地对目标类进行泛化。 基于现实世界中的类遵循长尾分布这一事实,Wang 等人 (Wang et al., 2017) 提出了一个改进的残差模型来将知识从头类转移到尾类。

2.2. Metric Learning based methods

直觉上,人类通过与以前见过的样本进行比较,在一定程度上识别出一个新物体。【实体关系分类就是不一样的思路了】受此过程的启发,出现了大量度量学习方法,通过学习度量函数来有效衡量两个实例之间的相似性来解决 FSL,这引起了很多关注。例如,科赫等人。 (Koch et al., 2015) 引入了 Siamese Network (Bromley et al., 1994) 通过识别输入实例对是否属于同一类来学习基集上的基本度量(a basic metric)。 在基集上训练的模型可用于识别新样本而无需重新训练。 取代使用成对比较,Vinyals 等人(Vinyals et al., 2016) 提出了一个基于 LSTM 的网络,结合了度量学习和外部记忆来构建一个具有整个支持集的基于注意力的小样本模型。 在他们的工作中,提出了一种 episode-based 的方法来训练模型。 注意力权重用于对支持样本的标签进行加权求和。 相比之下,我们模型的权重根据它们的代表性分配给属于同一类的支持样本。

基于episode训练机制,(Snell 等人,2017 年)试图找到适合 FSL 的简单度量函数。 具体而言,将同一类特征向量的均值视为类原型,用于衡量新实例与支持集类之间的相似度。 (Sung 等人,2018)取代使用特征向量和固定的度量函数,而是使用特征图来测量相似度,这些特征图通过关系网络 (RN) 中的可学习度量函数保留图像的更多空间信息。

3. Method

3.1. Problem Definition

在FSL中,提供了一个基集、一个支持集和一个新集,其中基集中的类别与支持集中的类别是不相交的【啊哈?支持集不是在基集取?】。

解决FSL的一种流行策略是,以元学习的方式模仿测试过程,在基础集上学习模型,这样就能很好地概括目标类。

3.3. Weighted Prototypical Networks

显然,PN 平等对待来自同一类的样本,而不考虑它们对最终决策的贡献。 然而,不同的实例在它们的类代表性上有很大差异。 为此,我们提出了一种注意力类似策略,通过根据实例的重要性将不同的权重分配给实例以揭示类分布,从而获得加权的类原型。 具体来说,我们将具有注意力类似策略的 PN 称为加权原型网络 (WPN)。

3.4. Distance Scaling Prototypical Networks

PN 主要通过将实例约束为接近其对应的类原型来探索类内关系。 在这项工作中,我们提出了一种距离缩放策略,通过最大化类间差异同时最小化类内差异来进一步探索类间判别信息。 这个目标是通过简单地缩放不同系数的距离来实现的。 具体来说,选择作为任务目标函数的逐类交叉熵损失公式如下:在这里插入图片描述其中 xi 是属于第 n 类的样本,Ji 是 xi 的损失,J 是一个 episode 的总损失。

接下来,我们对 Ji 进行简单的分析,以表明距离缩放会带来更好的优化。 为简单起见,我们考虑一个只有两个目标类的任务,并假设 xi 属于类 1。在这种情况下,Ji 简化为:在这里插入图片描述现在,我们用不同的系数缩放距离。 假设系数为α1和α2,则Ji为:在这里插入图片描述
从方程(8),显然第一项A与xi的所属类别有关,第二项B与所有类别有关。 以类似的方式依此类推,对于 C-way 任务,第一项与 xi 的所属类别相关,第二项与所有类别相关。 不同的缩放系数迫使模型沿不同方向优化,最小化类内差异或最大化类间差异。理想的条件是模型在这两个方面得到平衡。 为了实现上述过程,我们提出了一种距离缩放策略来指导模型的优化。

距离缩放原型网络 (DPN) 是该策略的实现。 具体来说,DPN中包含的距离缩放模块也是一个三层网络。 如图 2 所示,查询图像的特征连接在支持图像的特征后面,形成向量作为距离缩放模块 hψ 的输入:在这里插入图片描述其中 αnk 是第 n 类的第 k 个样本的缩放系数, C2(·,·) 表示视觉特征的连接操作。

然后,计算第 n 类的缩放系数为:在这里插入图片描述
查询实例与第n个类原型之间的欧几里德距离乘以缩放系数sn,以指导模型最大化类间差异同时最小化类内差异。 DPN 的损失是通过用方程 (10) 替换方程 (8) 中的 α 得到的。

在这里插入图片描述图 2. 提出的 IPN 的结构。 为便于说明,此图中仅显示了具有一张查询图像的 2 路 3 拍任务。 IPN 由三个模块组成:特征提取模块、权重分配模块和距离缩放模块。 具有相同颜色的矩形表示相同的特征向量,它们对应于图像左侧的颜色方块。 灰色方块是标量。 SA 和 SB 分别是 A 类和 B 类的缩放系数。 PA 和PB 分别是查询图像属于A 类和B 类的概率。

4. Experiments

对于所有实验,我们选择 Adam(Kingma 和 Ba,2015)作为优化器来训练整个网络并将学习率设置为 10−3。 所有模型都是从头开始端到端训练的。 常用的数据预处理策略包括随机裁剪、左右翻转和颜色抖动,用于扩充数据集。 使用验证集选择最终保留的模型。 根据先前的研究(Vinyals 等人,2016 年;Snell 等人,2017 年;Sung 等人,2018 年),我们在 miniImagenet 和 CUB 上的 5-way 1-shot 和 5-shot 任务上训练和测试我们的方法。 我们只报告根据(陈等人,2019 年)跨域的5-shot结果。

在训练阶段,除了 K 个样本示例之外,从每个类中选择 16 个查询图像形成一个 episode。 对于 1-shot 学习,K 为 1,对于 5-shot 学习,K 为 5。

4.4. Ablation Study

在某种程度上,DNP 可以被视为学习度量和固定度量的组合,即系数可以被视为学习度量。 学习度量弥补了固定欧几里得度量的一些缺陷。 【系数所起的作用?】此外,所提出的 WPN 还对两个数据集的性能产生了积极的影响。 当结合两种提出的策略时,相对于仅使用一种策略的任一模型,性能在一定程度上进一步提高。 机器学习方法旨在从假设空间中找到最优假设,我们可以通过最小化经验风险来减小空间的规模。 对于 WPN 和 DPN,它们利用来自有限可用样本的更多信息来缩小空间规模并做出比 PN 更精确的假设。

4.5. Future analysis
在本节中,我们首先研究提出的模块对样本分布 (sample distribution)的影响,然后设计实验来探讨模块如何处理【如何处理呢?】类内差异(intra-class difference),最后讨论了提出的模块的一些计算成本和缺点。

仔细观察可以发现,IPN的特征显示了WPN和DPN的一些特征,我们猜测在统计特征上,它得到了WPN和DPN的平衡。

其次,从CUB中选取4类20幅图像,比较其与对应原型的距离,探讨PN和方法的类内差异。如图 5 所示,所提出模块的特征更接近于它们的原型,即减少了类内差异。 我们还观察到,对于大多数样本,IPN 的距离小于 WPN 和 DPN 的距离,并且对于一些样本,IPN 的距离在 WPN 和 DPN 之间,这表明 IPN 获得了 WPN 和 DPN 的平衡。在这里插入图片描述图 5. 四个选定类别 A、B、C 和 D 的样本到原型距离说明,每个类别选择 5 个样本用于 5-shot 任务。

至于计算成本,所提出的模型在 PN 上增加了两个模块,因此需要更多的训练时间。 表 5 显示了不同模型针对 PN 的额外测试时间成本。 我们观察到 IPN 仅需要 13.3 μs 的额外计算时间来识别样本,这是可以接受的,因为相对于 PN 有明显的性能改进。

所提出模型的弱点是 WPN 仅在 K-shot (K>1) 任务下有效,但在 1-shot 任务下失败, 这不如 PN 灵活。 因此,设计灵活的 WPN 结构将是未来的工作之一。

5. Conclusion

在本文中,我们从两个方面提出了一种称为改进的 FSL 原型网络模型。 首先,提出了一种权重分配策略,将不同的权重分配给不同的实例,旨在探索类内信息。 其次,开发了一种距离缩放策略来指导模型最小化类内差异,同时最大化类间差异。 在两个基准数据集上的实验结果显示了它相对于最先进方法的有效性和竞争力。 消融实验显示了每个模块的有效性。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值