【阅读笔记】Adversarial Feature Hallucination Networks for Few-Shot Learning-CVPR-2020

最新推荐文章于 2022-04-20 09:26:35 发布

一只瓜皮呀

最新推荐文章于 2022-04-20 09:26:35 发布

阅读量678

点赞数

分类专栏： GAN 小样本学习文章标签：深度学习机器学习计算机视觉

本文链接：https://blog.csdn.net/qq_29260257/article/details/122390409

版权

小样本学习同时被 2 个专栏收录

43 篇文章 27 订阅

订阅专栏

GAN

3 篇文章 0 订阅

订阅专栏

动机

小样本学习的一种自然方法是数据增强，最近的许多工作已经通过提出各种数据合成模型来证明其可行性。然而，这些模型不能很好地保证合成数据的可鉴别性和多样性，因此往往产生不良的结果。本文提出了一种基于条件Wasserstein生成式对抗网络的对抗特征幻觉网络(AFHN)，该网络以少数标记样本为条件，产生了多种多样的识别特征。在AFHN中引入分类正则化和抗坍塌正则化两种新的正则化方法，分别提高了合成特征的可鉴别性和多样性。

贡献

(1) 我们提出了一种新的基于 cWGAN 的 FSL 框架，它通过将少数标记样本的特征作为条件上下文来合成假特征。

(2) 我们提出了两个新颖的正则化器，以保证合成特征的可辨别性和多样性。

(3) 所提出的方法在三个常见的基准数据集上达到了最先进的性能。

方法

1、WGAN

GAN一直面临以下问题和挑战：

训练困难，需要精心设计模型结构，并小心协调 G和 D 的训练程度
G和D 的损失函数无法指示训练过程，缺乏一个有意义的指标和生成图片的质量相关联
模式崩坏（mode collapse），生成的图片虽然看起来像是真的，但是缺乏多样性

WGAN相对于GAN的改进：

判别器最后一层去掉sigmoid
生成器和判别器的loss不取log
每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c
不要用基于动量的优化算法（包括momentum和Adam），推荐RMSProp，SGD也行

优化问题：

Pr 是数据分布，Pg 是由 $\widetilde{x}$ ∼ G(z) 定义的模型分布，其中 z∼ p(z) 从噪声分布 p 中随机采样。 $P_{\widehat{x}}$ 定义为沿从数据分布 Pr 和生成器分布 Pg 采样的点对之间的直线均匀采样，即 $\widehat{x} = ax + (1-a)\widetilde{x}$ 。前两项近似于 Wasserstein 距离，第三项惩罚 x 的梯度范数。

2、GAN损失

对于典型的 FSL 任务 T = (𝑆𝑇，QT)，特征提取网络 F 为每个图像生成一个表示向量。特别是对于来自支持集 (x, y)∈ ST 的图像：

当 y 类有多个样本时，即 K > 1，我们简单地对特征向量进行平均，并将平均后的向量作为 y 类的原型 。以 s 为条件，我们为类合成假特征。

与之前从某个分布中采样单个随机噪声变量的 GAN 模型不同，我们采样了两个噪声变量 z1 和 z2∼ N (0, 1)。生成器 G 以 z1 (z2) 和类原型 s 作为输入合成假特征 $\widetilde{s_1}$ ( $\widetilde{s_2}$ ):

生成器 G 旨在将 si 合成为尽可能与 s 相似。

判别器以𝑧𝑖 和 s 作为输入，试图将𝑠判别为真，𝑠𝑖 判别为假。

在WGAN框架内，对抗训练目标如下：

简单地用上述 GAN 损失训练模型并不能保证生成的特征非常适合学习判别分类器，因为它忽略了不同类之间的类间竞争信息。此外，由于条件特征向量是高维和结构化的，因此生成器很可能会忽略噪声向量，并且所有合成的特征都会折叠到特征空间中的单个或几个点，即所谓的模式崩溃问题（不具有多样性）。为了避免这些问题，我们在目标函数上附加了一个分类正则化项和一个抗塌陷正则化项，旨在鼓励合成特征的多样性和可辨别性。

3、分类正则化

由于我们的训练目标是对查询集 QT 中的样本进行分类，在给定支持集 ST 的情况下，我们通过要求它们作为真实特征很好地服务于分类任务来鼓励合成特征的可区分性。受[36]的启发，我们定义了一个非参数FSL分类器，它计算查询图像(xq, yq)∈QT与合成特征 𝑠𝑖 属于同一类的可能性：

其中q = F (xq)。 $\widetilde{s}_i^j$ 是第j个类的合成特征，cos(a, b)是两个向量的余弦相似度。

采用余弦相似度，而不是像[36]中的欧氏距离，是受到了最近的FSL算法[12]的启发，该算法证明了余弦相似度可以约束和减少特征的方差，从而使模型具有更好的泛化效果。

利用所提出的FSL分类器，定义了典型FSL任务中的分类正则化器:

这个正则化器显式地鼓励合成的特征与来自同一类(条件上下文)的特征具有高相关性，而与来自不同类的特征具有低相关性。为了实现这一点，合成的特征必须封装关于条件类的鉴别信息，从而保证可鉴别性。

4、反崩溃正则化

GAN模型因其模态坍塌问题而闻名，尤其是条件GAN模型，其中结构化和高维数据(如图像)通常被用作条件上下文。因此，生成器可能会忽略潜在的代码(噪声)，而只关注条件上下文，这是不可取的。具体到我们的例子，我们的目标是增加特征空间中少数的标记样本;当模式折叠发生时，所有合成的特征可能会在特征空间中折叠成一个或几个点，无法使标记的样本多样化。观察到潜码空间中越接近的噪声向量在映射到特征空间时更有可能被折叠成相同的模式，我们直接惩罚两个合成特征向量的不相似度和生成它们的两个噪声向量的不相似度的比率。

为了缓解这个问题，我们将崩溃正则化项定义为：