论文阅读笔记 [ICLR 2018] Meta-Learning For Semi-Supervised Few-Shot classification

半监督小样本分类的元学习

论文原文链接:https://arxiv.org/abs/1803.00676

摘要

在小样本分类中,人们感兴趣的学习算法是,仅根据少量带标记样例训练分类器的算法。元学习是近年来小样本分类研究的一大特色,元学习定义了一个学习算法的参数化模型,并在代表不同分类问题的片段上进行训练,每个片段都有一个小的带标记训练集和相应的测试集。本文中,作者将这种小样本分类模式推进到一个新场景中,在这个新场景中,每个片段也可以使用未标记的样例。作者考虑了两种情况:第一种情况是,假设所有未标记样例都与本片段中带标记样例属于同一类别;另一种更具挑战性的情况是,未标记样例中含有来自其他干扰类的样例。为了实现这个新模式,作者对原型网络(Snell 等人 2017)进行了扩展,使其能够使用未标记样例来生成原型。采用端到端的方式(具体怎么做的?),在片段上训练这些模型,使其学会成功利用未标记样例。作者在适应这个新框架的 Omniglot 和 miniImageNet 基准测试版本上评估了这些方法。作者还提出了一种新的 ImageNet 数据集分割方法,具有层次结构(为什么提出新的分割方法?)。实验表明这种新方法能够学会利用未标记样例来改善预测结果,就像半监督学习那样。

1 引言

最近各种元学习方法使得小样本分类取得了重大进展。但是,这种进展在每个小样本学习片段的设置中受到限制,这与人类通过多维度学习新概念的方式不同。在本文中,作者采用两种方式来泛化这种设置(具体怎么做的?)。第一,考虑一种情境:新类别是在有额外未标记数据时学到的。第二,考虑一种情况:要学习的新类别不是孤立地看待的。相反地,许多未标记样例属于不同的类别,干扰类的存在给小样本学习带来了更多的实际困难。
在这里插入图片描述

图1:考虑一种设置,目标是学习一个分类器来区分两个之前没见过的类别:金鱼和鲨鱼,不仅给出了这两个类的带标记样例,还给出了大量未标记样例,其中一些可能属于这两个类别中的某一个。在这项工作中,作者的目标是通过在小样本学习片段中整合未标记的数据,向这个更自然的学习框架迈进一步,这些数据来自要学习的类(如红色虚线所示)以及干扰类。

这项工作是首次研究这种具有挑战性的半监督形式的小样本学习。首先定义了这个问题,并提出了适用于普通小样本学习中使用的 Omniglot 和 miniImageNet 基准的评估基准。对上面提到的两种设置进行了广泛的实证调查,有或没有干扰类。其次提出并研究了原型网络(Snell 等人,2017)的三种新扩展(扩展到半监督设置中)。最后通过实验证明,这种半监督变体成功地学会了利用未标记样例,并优于纯监督原型网络。

2 研究背景

2.1 小样本学习

C t r a i n C_{train} Ctrain用于训练的类别

C t e s t C_{test} Ctest用于测试的类别(与训练中的类别不同)

在 N-way K-shot 结构的片段上训练模型,训练片段的构造过程如下:

  • C t r a i n C_{train} Ctrain 采样得到 N 个类别。
  • 对于这 N 个类别:
    • 从每个类别采样 K 个样例组成支持集 S = { ( x 1 1 , y 1 1 ) , ( x 1 2 , y 1 2 ) , . . . , ( x N K , y N K ) } S=\{(x_1^1, y_1^1), (x_1^2, y_1^2),...,(x_N^K, y_N^K)\} S={ (x11,y11),(x12,y12),...,(xNK,yNK)}
    • 从每个类别采样若干样例组成查询集 Q = { ( x 1 1 , y 1 1 ) , ( x 1 2 , y 1 2 ) , . . . , ( x N ∗ , y N ∗ ) } Q=\{(x_1^1, y_1^1), (x_1^2, y_1^2),...,(x_N^*, y_N^*)\} Q={ (x11,y11),(x12,y12),...,(xN,yN)}

其中 x i ∈ R D x_i\in R^D xiRD 是 D 维输入向量, y i ∈ { 1 , 2 , . . . , N } y_i\in\{1,2,...,N\} yi{ 1,2,...,N} 是类别标签。在这些片段上进行训练,是通过将支持集 S 提供给模型并更新其参数来最小化它对查询集 Q 中样例的预测损失。

2.2 原型网络(Snell 等人, 2017)

目前最先进的小样本学习模型。

3 半监督小样本学习

训练集用一个二元组表示 ( S , R ) (S,R) (S,R),其中 S 是传统的有标签支持集,R 是新引入的无标签数据集。
在这里插入图片描述

图2:半监督小样本学习设置的实例。训练片段包括支持集 S,无标签样例集 R,查询集 Q。R 中的样例可能与 S 中的样例相关(绿色加号所示),也可能是干扰项(红色减号所示)。但是请注意,该模型实际上并不知道每个未标记样例是否为干扰项;加号/减号只是为了说明而显示。测试时,片段中的类别都是训练时没有见过的新类别,用于评估元学习方法。

3.1 半监督原型网络

作者提出了原型 p c p_c pc 的基本定义的各种扩展,提供了一个程序利用 R 中的无标记样例生成改进的原型 p ~ c \tilde{p}_c p~c。使用相同的损失函数来训练原型网络中的模型,只是把 p c p_c pc 替换为 p ~ c \tilde{p}_c p~c
在这里插入图片描述

图3:左图:普通的原型网络,基于对应类别的样例特征均值来初始化其原型,支持样例、无标签样例、查询样例分别用实线、虚线、白线边框表示。右图:结合无标签样例来获得改进的原型,能够正确分类所有查询样例。

3.1.1 具有软聚类的原型网络

首先考虑一种利用无标签样例来改进原型的简单方法,这是从半监督聚类中得到的启发。把每个类别的原型看作聚类中心,改进过程可以尝试把聚类中心调整到更好的位置,来适应支持样例和无标签样例。在这个观点下,支持集中样例的聚类赋值被认为是已知的,而且是固定的(对于每个样例的标签)。改进过程必须估计无标签样例的聚类赋值,并相应地调整聚类位置(原型)。

一个自然的选择是借鉴软聚类的推理。之所以选择软聚类而不是硬聚类,是由于硬聚类会使推理不可微。首先用常规原型 p c p_c pc

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值