小样本综述2020：《Generalizing from a Few Examples: A Survey on Few-Shot Learning》

最新推荐文章于 2023-03-28 10:54:59 发布

星竹紫兰

最新推荐文章于 2023-03-28 10:54:59 发布

阅读量1.6k

点赞数 4

分类专栏：论文笔记小样本学习文章综述文章标签：人工智能机器学习深度学习神经网络

本文链接：https://blog.csdn.net/qq_22497977/article/details/108702890

版权

论文笔记同时被 3 个专栏收录

13 篇文章 1 订阅

订阅专栏

小样本学习

3 篇文章 0 订阅

订阅专栏

文章综述

2 篇文章 0 订阅

订阅专栏

1-2. 介绍，论述

(1) 存在问题

问题：小样本学习（Few-Shot Learning ，FSL），经验风险最小化是不可靠的。

在这里插入图片描述

【补充：

期望风险（真实的样本的全部分布已知）

在这里插入图片描述

经验风险（真实的样本的分布未知，只能抽样，用经验代替真实，大数定律说明抽样越多，越接近真实）

在这里插入图片描述

结构风险（经验风险最小化容易导致过拟合，结构风险=经验风险+参数正则化项）

在这里插入图片描述
J（θ）一般取L₁或L₂范数，θ为所有参数（自由度），λ>0是正则项的强度。】

小样本学习的经验风险最小化是不可靠的，具体的来讲：

在这里插入图片描述

$\hat{h}$ 表示真实函数（未知）。
h^*是对于真实样本分布（期望风险）的最优函数近似。
h_I是对于经验风险的最优函数近似。

在这里插入图片描述

样本少，会使期望风险（h^*）和经验风险（h_I）下的函数相差较多。

在这里插入图片描述

(2) 方法：先验知识增强（数据，模型，算法）

在这里插入图片描述

(i) 数据，使用先验知识来增加监督经验，即数据增强。
(ii) 模型，利用先验知识缩小假设空间大小的模型。
(iii) 算法，利用先验知识在给定的假设空间中改变搜索最佳假设的方法。

在这里插入图片描述

3. 数据

数据：即数据增强（data augmentation），常见的包括平移，翻转，修剪，缩放，反射，裁剪，旋转等。
在这里插入图片描述
具体的，数据增强可分为以下三种：

主要分为从训练集D_train生成样本，从弱标签或无标签的大数据集生成样本（相比之下人工成本较低），通过汇总和改编来自相似但较大数据集（generative adversarial network ，GAN）。

在这里插入图片描述

存在问题：

需要耗费大量的人工成本。
人类不能列举出所有可能的不变性，人工增强数据不能完全解决小样本问题。
通常的扩充策略以特殊的方式为每个数据集量身定制，很难应用到其他数据集(尤其是来自其他域的数据集)。

在这里插入图片描述

4. 模型（model）

在这里插入图片描述

4.1 多任务学习（Multitask Learning）

多任务学习利用任务间共享的通用信息和每个任务的特定信息，同时学习多个任务。因此，它们可以很自然地用于FSL。

设置小样本学习为目标任务，其他数据集学习为源任务。

根据是否实行参数共享的方式，可将这类方法分为两类，参数共享和参数绑定。区别如下图所示：在这里插入图片描述
参数共享(上图)：设置每个任务有共享的层或参数，有各自特定的层或参数。每个任务需要限定哪些参数可以更新，哪些不能更新。比如目标任务只能更新特定的层，源任务可以更新共享层和特定层。简而言之，就是训练一个网络结构，用源任务（其他已有数据集）作梯度下降法训练所有参数，再用小样本数据集训练网络。相当于针对小样本任务，用其他训练集作了一个参数预训练，为了防止小样本的过拟合，小样本训练只微调网络的部分参数（一般是最后几层全连接层的参数）。

在这里插入图片描述
参数绑定： 小样本学习任务和其他任务的网络结构相同，但网络参数不是简单的直接迁移，而是用一些正则化规则使其相似。

4.2 嵌入学习（Embedding learning）

主要思想： 把高维样本嵌入到低维空间中，再比较样本的相似度。比如：
（孪生网络） 先把样本两两配对，用f，g两个嵌入函数（f和g可以是同一函数）分别将2个样本映射到同一嵌入空间，即得到两个低维向量（同维数），利用一个距离函数来输出两图片的相似度（如欧式距离，余弦距离等）。
（匹配网络） 多个不同类样本S和一个样本x分别用f，g嵌入到低维空间中，利用某一个距离函数输出x与S中所有样本的相似度，依此来判断x是属于S的哪个样本的类。

嵌入函数f,g主要由先验知识所学得，这类模型通常用于分类问题。嵌入学习分为特定任务嵌入，多任务嵌入和混合嵌入模型。

在这里插入图片描述

特定任务嵌入： 用训练样本直接来训练模型。

多任务嵌入： 利用一个其他的数据集（不包括目标小样本的数据集）来训练参数（包括嵌入函数f,g和相似度函数的参数）。这样训练好的模型能直接用于小样本中检测。

在这里插入图片描述

混合嵌入： 先用其他数据集训练嵌入函数g，再用小样本数据集训练嵌入函数f。相似度函数S预先给定。
在这里插入图片描述

4.3 外置记忆学习（Learning with External Memory）

把小样本训练集经过f得到的低维向量存储到外置内存M中。其中f是提前学习好的。
M中的key一般指样本的嵌入向量，value为对应标签（相同类样本映射到相同值），即同类样本不断优化它们类的表示key。M的大小设定很小，要注意其数据的更新。
测试样本 x 经过嵌入函数得到 f(x)，用 f(x) 和 M 中的 key 值做相似度匹配，用最相似的几个 key 对应的 value 值线性表示 x 的预测，再输入到softmax函数变成概率分布作为 x 的预测结果。

在这里插入图片描述

4.4 生成模型（Generative Modeling）

这里的生成模型使用先验知识来估计潜变量的概率分布，从而约束了假设空间的大小。从观测到的 x_i 估计概率分布p（x）。
在这里插入图片描述
根据在潜变量代表的信息，现有方法可以分成三种：

decomposable components（可分解的元件）
尽管在FSL问题中缺少具有监督信息的样本，但它们可能与其他任务的样本共享一些较小的可分解组件。这种方法利用从先验数据中学习到的可分解的各个元件，如人脸识别中的五官等，从中学习各元件与目标类的关系，将其与目标类联结起来。
groupwise shared prior（相似类的先验概率分布）
通常，相似的任务具有相似的先验概率，并且可以在FSL中使用。例如，考虑“橙色猫”，“豹”和“孟加拉虎”的三级分类，这三个物种相似，但孟加拉虎濒临灭绝，而橙色猫和豹则丰富，因此，人们可以学习一种来自“橙色猫”以及“豹”的先验概率，并以此作为few-shot类级“孟加拉虎”的先决条件。该方法利用相似数据类的先验概率分布，将小样本数据分类至若干个对应的相似数据类中，利用类的先验概率分布建模。
parameters of inference networks（推理网络参数）
该方法利用现有的深度网络的参数的强特征表征能力来表征新的任务数据，更加高效且降低了对人类知识的要求。通常使用一些辅助大规模数据集对推理网络进行训练，典型的包括变分自编码器（VAE），自回归模型，生成对抗网络（GAN）, VAE和GAN的组合等。

在这里插入图片描述

4.5 总结

（1）多任务学习
需要所有任务的联合训练，面对新的少样本任务需要重新训练，昂贵且缓慢。
（2）嵌入学习
要求任务间相关，在少样本任务和其他任务相关性不强时不适用。
（3）基于外部内存学习
可以精心设计小内存网络，有额外内存和计算成本，外部内存有限时不适用。
（4）生成学习
需要从其他数据集学先验，推理成本高，比确定性模型更难推导。

在这里插入图片描述