当小样本遇上机器学习 fewshot learning

置顶

mao_feng

已于 2022-04-25 17:30:11 修改

阅读量10w+

点赞数 102

分类专栏：机器学习计算机视觉深度学习文章标签：机器学习

于 2017-12-30 22:21:10 首次发布

本文链接：https://blog.csdn.net/mao_feng/article/details/78939864

版权

本文介绍了在小样本学习（few-shot learning）的背景下，深度学习面临的挑战以及一系列解决方案，包括基于Finetune、基于metric的方法（如Siamese网络、匹配网络和原型网络）、基于graph neural network以及基于元学习（如记忆增强神经网络和模型无关自适应）。这些方法试图在有限的标注数据下，通过泛化特征和快速适应新任务，提高模型的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

深度学习(deep learning)已经广泛应用于各个领域，解决各类问题，例如在图像分类问题下，如图1，区分这10类目标的准确率目前可以轻松做到94%。然而，deep learning是一种data hungry的技术，需要大量的标注样本才能发挥作用。

图1

现实世界中，有很多问题是没有这么多的标注数据的，获取标注数据的成本也非常大，例如在医疗领域、安全领域等。因此，我们现在讨论的是这样一个问题的场景，也就是小样本问题。它面临的问题是:

训练过程中有从未见过的新类，只能借助每类少数几个标注样本;
不改变已经训练好的模型。

还是用10类图像分类数据为例，传统的方法是基于左边这些训练集，获得模型，然后对右边测试集进行自动标注。而小样本问题如图2所示，我们大量拥有的是上方这5类的数据，而新问题（下方这5类）是只有很少的标注数据。

图2

当标注数据量比较少时，怎么学习出好的特征？我们需要泛化这些罕见的类别，而不需要额外的训练，因为训练会因为数据少、代价高、周期长而无法获得收益。下面介绍近几年几种解决小样本问题的方法，我们将这些方法称为fewshot learning（如果只有一个标注样本，称oneshot learning）。

基于Finetune

这种方法已被广泛地应用。获得一定量的标注数据，然后基于一个基础网络进行微调。
这个基础网络是通过含有丰富标签的大规模数据集获得的，比如imagenet，我们的淘宝电商数据，称为通用数据域。然后在特定数据域上进行训练。训练时，会固定基础网络部分的参数，对领域特定的网络参数进行训练（这里有很多训练的trick，包括如何设置固定层和学习率等），如图3。这个方法可以相对较快，依赖数据量也不必太多，效果还行。

图3 Finetune CNN

基于metric

该方法是对样本间距离分布进行建模，使得属于同类样本靠近，异类样本远离。简单地，我们可以采用无参估计的方法，如KNN。KNN虽然不需要训练，但效果依赖距离度量的选取, 一般采用的是一个比较随意的距离计算（L2）。另一种，也是目前比较好的方法，即通过学习一个端到端的最近邻分类器，它同时受益于带参数和无参数的优点，使得不但能快速的学习到新的样本，而且能对已知样本有很好的泛化性。下面介绍3个相关的方法。

孪生网络（Siamese Neural Networks）[1]

这个方法对输入的结构进行限制并自动发现可以从新样本上泛化的特征。通过一个有监督的基于孪生网络的度量学习来训练，然后重用那个网络所提取的特征进行one/few-shot学习。
它是一个双路的神经网络，训练时，通过组合不同类的样本成对，同时输入网络进行训练，在最上层通过一个距离的交叉熵进行loss的计算，如图4。在预测的时候，以5way-5shot为例，从5个类中随机抽取5个样本，把这个mini-batch=25的数据输入网络，最后获得25个值，取分数最高对应的类别作为预测结果，如图5。

图4

图5

网络结构如图6所示，是一个8层深度卷积孪生网络，图中只展示了其中一路计算，在网络的4096维的全连接层后执行component-wise 的L1距离计算，产生一个4096维的特征向量，并通过sigmoidal激活获得一个0到1的概率作为两个输入样本是否相似的结果。

图6

匹配网络（matching networks）[2]

这篇文章的工作被李飞飞高徒karpath点赞过，成为之后相关研究中经常被对比的参照。该文章也是在不改变网络模型的前提下能对未知类别生成标签，其主要创新体现在建模过程和训练过程上。对于建模过程的创新，文章提出了基于memory和attantion的matching nets，使得可以快速学习。对于训练过程的创新，文章基于传统机器学习的一个原则，即训练和测试是要在同样条件下进行的，提出在训练的时候不断地让网络只看每一类的少量样本，这将和测试的过程是一致的。
具体地，它尝试获得一个从支持集S(support set，由k个样本及其标签组成)到分类器y^的一个映射，该映射是一个网络:P(y^|x^,S)，它基于当前的S，对每个未见过的测试样本x^给出其标签y^，该标签让P达到最大值。这个模型可以表示为如公式1)，其中a是一个attetion。

， (公式1）

即一个新样本的输出（即在S上类别的分布）是S上的类attation线性组合，也就是对于离x^最远的xi，其在某度量下的attation是0，那么其值就是和x^相似的xi所对应标签的权重融合。
上述的attention具体是，对训练样本xi和测试样本x^分别进行embedding，然后求内积(cosine)，这就是文章提出的"matching"，然后输入到一个softmax中，公