Learning from Very Few Samples:小样本学习综述（二）

最新推荐文章于 2021-12-24 22:57:06 发布

打着灯笼摸黑

最新推荐文章于 2021-12-24 22:57:06 发布

阅读量957

点赞数 1

分类专栏：小样本学习FSL 文章标签：数据挖掘

本文链接：https://blog.csdn.net/qq_39594939/article/details/110075494

版权

小样本学习FSL 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

FSL问题介绍

FSL

两大模型

两大模型

生成模型

利用一些潜在变量间接地将x与y联系起来，使得条件概率分布p(x|y)可以顺利计算。
在这里插入图片描述
几乎所有的基于生成模型的FSL方法都遵循这个规律，只是z的形式有所不同。表1对于不同形式z的几种生成模型的FSL方法做了总结。

表1 生成模型法
几种有代表性的方法：

Congealing algorithm：首次提出FSL。
VBF：首次阐明“one-shot”概念。
BPL：BPL利用贝叶斯准则(Bayesian criterion)建立了一套模型，对于one-shot classification task，该模型达到了人类学习的性能。这种方法便能学习到类似于该样例的一大类可视概念(visual concepts)，该架构结合了3种特性：合成性(compositionality)、因果性(causality)和对学习方法的学习(learning to learn )。

bayesian program learning第一步便是要各种零件进行组合。合成性便是对这些笔画进行组合生成一个字符。笔画的组合并不是随意的组合，必须符合某种字符结构的规律Ψ，这个规律的体现便是因果性。组合完成后形成目标模板(object template)，以上的过程为type level，接下来进行token level的处理，对应于对学习方法的学习。为了模仿这种学习能力，BPL在token level中对目标模板进行了各种类似于后处理的操作，例如仿射变换，改变起始点，添加变差等等，最终生成字符图形(raw data)。

缺点：

大部分模型都是根据特定的情境或者数据量身定制的，模型缺乏可扩展性（泛化性）。
这些模型的实验结果基于的训练数据集各不相同。

辨别模型

利用小样本训练集D_trn直接对任务进行的后验概率p(y|x)进行建模。该模型通常包含一个特征提取器和预测器。例如，在少样本图像识别任务中，特征提取器和预测器可能分别为CNN和softmax层。由于训练样本较为稀少，这样构造的模型很容易发生过拟合，为了避免过拟合，可以用下面几种方法：数据的增强（augmentation）、度量学习（metric learning）和元学习（meta learning）。

Augmentation

增强是增加训练样本数量，增强数据多样性的直观方式。在视觉领域，一些基本的增强操作包括旋转、翻转、裁剪、翻译和在图像中添加噪声。但这些对FSL任务还不够。根据增强是否依赖于外部测信息（如语义属性），进一步将现有的基于增强的FSL方法分为监督和无监督的方法。
在这里插入图片描述

Supervised Augmentation

如下图所示，将特征空间（feature space）记为Ω_fe，外部信息空间（side information space）记为Ω_si，学习到的增强本质上是从Ω_si到Ω_fe上的映射，只是映射的方法和使用的模型各不相同。
在这里插入图片描述

FFT：主要针对少样本场景图像分类任务。利用场景图片上连续的属性（例如：“rainy”, “dark” or “sunny”）直接合成特征。特别地，FTT利用辅助的场景类别学习到一个线性的轨迹映射，该映射将属性α映射到特征x上。如图3所示，在只有单样本的情况下，人工设置其数型的数值（例如：设置光照强度），并通过公式（7）训练好的线性轨迹映射，可以合成许多特征。缺点：FTT需要对细粒度的连续属性标注，数据准备阶段成本较高。
$x = w * α + b + ε$
其中w，b是可以学习的参数，ε代表高斯噪声。
期望用这个映射轨迹从辅助类学习，增强任务类的数据集。
AGA：构建一个编解码网络结构将样本特征映射到一个与输入特征的属性强度不同的合成特征中。如下图所示，AGA的目的是在辅助类（例如桌子、椅子）上学习一个类不可知的特征转换模型 $_{[1,2]}^3$ ，用目标类深度范围1-2[m]的物体特征作为输入，输出深度为3[m]的合成特征。通过该方法可以将任务类单样本数据特征增强为不同深度的特征。与FTT不同在于：FTT是从Ω_si到Ω_fe的映射，AGA是从Ω_fe到Ω_fe的映射。此外，FTT中合成特征通过线性映射作为指导，AGA则是通过专门处理两个特定属性强度之间的特征映射编解码器网络来实现。
Dual TriNet：也利用编解码器网络来实现特征级的增强。经过卷积神经网络以后到了特征空间，在特征空间上做一些扰动，随机加入噪声，生成更多图像，由此得到更多的数据，使它以后的泛化性能更好。
AT：每张图片被看作是包含混合主题（属性）的文档，每个主题可由词（特征）的概率分布表示，可在辅助数据集上进行参数估计。对于参数已知的概率分布，给定类别属性，可由此生成大量特征。
ABS-Net：首先在辅助数据集上学习属性，并建立属性库。对于给定的类别属性描述，在属性库中进行概率抽样可将该属性映射到属于该类的伪特征上。

表2总结了监督增强方法：
在这里插入图片描述

Unsupervised Augmentation

GentleBoostKO：早期非深度的方法。通过knockout procedure合成特征：将一个特征当中的元素替换成另一个特征对应坐标下的元素，利用这种增强后的“损坏”样本提高FSL学习的鲁棒性。
SH：基于类内变化可以跨类推广的想法，类似于FTT和AGA。区别在于FTT和AGA对类内变化直接通过辅助数据描述（例如：光照强度、对象的深度等）。而SH通过从隐式变换类推到四联体 $f_1^a,f_2^a,f_1^b,f_2^b)$ 形式挖掘类内变换，其中a,b代表两个类别。此外，一个基于多层神经网络（MLP）的映射也通过四联体学习：输入三个特征，输出一个合成特征。
△-encoder：类似于FTT、AGA和SH。从辅助数据集中挖掘类内转换（△），将其用于新的目标类中，合成目标类中的新样本。类似于SH，△-encoder同样基于四联体类进行转换，区别在于处理四联体之间关系的映射模型不同：SH使用一个简单的MLP，△-encoder使用编解码网络结构，其embedding过程试图学习类内的转换。
Hallucinator（图像合成器）：如下图所示，Hallucinator用基于MLP的生成器G增强训练数据中的特征。其中，该生成器被设计成一个即插即用的模块（plug-and-play module），可被整合到各种现成的元学习模块中，如Matching Nets、Prototypical Nets或Prototype Matching Nets。

作者的想法非常直接，对于如何合成图像对数据集进行扩充，本文的主旨是合成的图像既不追求真实，又不追求虚拟，而是尽可能满足分类器的需要。具体来讲，就是把图像合成器（hallucinator）与特征提取网络和分类器放到一个网络中，进行端到端的训练。利用分类的损失，引导图像合成器的训练，使其输出能够满足分类需要的图像，整个流程如下图所示。首先，从训练集Strain中采样得到图片xx，然后将其与随机噪声zz一起输入到图像合成器GG中，生成合成图像x’x′；将合成图像构成的数据集StrainG与原始的训练集Strain合并起来，构成扩充数据集Strainaug，对模型进行训练。得到的损失不仅对模型hh的参数进行更新，同时也对图像合成器GG的参数进行更新。

CP-ANN：利用基于 set-to-set translation的GAN实现少样本的特征增强，目的是在增强过程中保持辅助数据集的协方差。
DAGAN、IDeMe-Net：输入训练数据，通过条件GAN直接生成类中的数据。两幅相似图像之间的视觉融合能够维持关键的语义信息，同时有助于形成分类器的决策边界，与Hallucinator类似，DAGAN和IDeMe-Net都可与其他现成的基于元学习的FSL方法协同工作，例如Matching Nets和Prototypical Nets。

总结：
增强方法与其他方法并不冲突，反而可以作为其他方法的补充：例如上述方法可作为元学习的插件，或者通过增强将原训练样本D_trn扩充为D_trn^aug，再利用其他FSL方法完成学习目标。