[CVPR 2019] Leveraing the Invarian Side of Generative Zero-Shot Learning

最新推荐文章于 2021-11-18 14:30:52 发布

一亩高粱

最新推荐文章于 2021-11-18 14:30:52 发布

阅读量451

点赞数

分类专栏：零样本学习文章标签： GZSL 熵 soul sample

本文链接：https://blog.csdn.net/cp_oldy/article/details/95064812

版权

零样本学习专栏收录该内容

20 篇文章 3 订阅

订阅专栏

文章目录

动机
方案
训练
- 3.4 预测未见类
实验
- 4.2 实现细节和对比方法
- 4.5 模型分析
总结

动机

在这里插入图片描述
基于GAN的ZSL方法，通过生成样本的方式，将ZSL问题转换成全监督问题。

本文的动机是利用(域)不变的信息的GAN来生成特征，而不是样本。

生成特征比生成样本好在哪里？

提出了一个conditional Wasserstein GAN, 输入是噪声和语义描述
定义了soul samples来作为 generative ZSL不变方面。【soul sample是类别的元表示】
提出串联的两个分类器，得到由粗到细的结果

generative ZSL不变的方面是每个类的soul sample，变的方面是每一个生成的样本。具体来说，已见类，每个生成样本是2048维的Resnet特征，而soul sample是已见类样本所有特征的均值。

GAN-based 方法的主要问题:

diversity 多样性：怎么保证有限（一个）或者相似的属性条件下的生成多样性？
reliability 可靠性（discrimination判别性）：怎么确保每个生成样本和真实样本及其语义描述高度相关？

方案

在这里插入图片描述

利用WGAN生成未见类特征，输入是随机噪声和语义描述
多个soul samples用来对生成器进行调整
利用信心分数的未见类样本微调最后的结果

问题定义
ZSL: $\mathcal{X_u \to Y_u}$
GZSL: $\mathcal{\{X, X_u\} \to Y \cup Y_u}$

整体的想法

部署CWGAN是为了让类别嵌入（属性，语义描述）能够并入生成器G和判别器D
因为 ${A, Y\}$ 和 ${A_u, Y_u\}$ 是有联系的，即 $A$ 和 $A_u$ 有共同的语义空间，条件GAN如果能够为可见类生成高质量的样本，也可以期待它为未见类生成高质量的样本。

两个创新点

使用soul samples来调整生成器
利用高信心分数的未见类样本来微调后面的未见类样本

soul sample的好处
在这里插入图片描述
soul sample缓解了域漂移问题（关于不同视角）

训练

G的loss：
$L_G = -\mathbb E[D(G(z, a))] - \lambda \mathbb E[\log P(y|G(z, a))], \tag{1}$
其中，随机噪声 $\sim \mathcal N(0, 1)$ ，语义描述 $a$ 。第一项是Wasserstein损失，第二项是监督分类损失。

D的loss:
$L_D = \mathbb E[D(G(z, a))] - E[D(x)] \\ -\lambda(\mathbb E[\log P(y|G(z, a))])+\mathbb E[\log P(y|x)] \\ -\beta \mathbb E[(||\nabla_{\hat x} D(\hat x)||_2 -1)^2] \tag{2}$

最后一项是强制的Lipschitz约束， $\hat x = \mu x + (1-\mu)G(z, a)$ ， $\mu \sim U(0, 1)$ 。

k个soul sample
c类所有样本的均值就是c类的soul sample

每个类别c应该有多个soul sample来解决多视角问题。
作者提出，将所有特征聚成k个簇。为了简便，论文中k=3。

每个类训练样本的soul sample的定义：
$s_k^c = \frac {1} {|X_k^c|} \sum_{x_i \in X_k^c} x_i \tag{3}$

每个类生成样本的soul sample的定义:
$\tilde s_k^c = \frac {1} {|\tilde X_k^c|} \sum_{\tilde x_i \in \tilde X_k^c} \tilde x_i \tag{3}$
其中， $\tilde x_i=G(z, a)$ 是生成特征。