SDGAN

最新推荐文章于 2024-05-10 18:28:46 发布

Forlogen

最新推荐文章于 2024-05-10 18:28:46 发布

阅读量2.8k

点赞数 7

分类专栏： GAN

本文链接：https://blog.csdn.net/Forlogen/article/details/90727750

版权

GAN 专栏收录该内容

46 篇文章 16 订阅

订阅专栏

CVPR 2019 Semantics Disentangling for Text-to-Image Generation

Project Page

在这里插入图片描述

这篇文章属于Text-to-Image一类，它所解决的主要任务是如何根据文本的描述生成相应的图像，不仅要求生成的图像要清晰真实，而且更要求其符合给定的文本描述。类似的GAN模型有StackGAN（《StackGAN:Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks》探析）、StackGAN++、AttenGAN……，已经同样是收录于CVPR2019上的一篇StoryGAN，当然解决同样任务的模型还有很多，更多可见

arbitrary-text-to-image-papers

首先看一下本文所提出的SDGAN的效果如何

如上图所示，SDGAN和之前的StackGAN、AttenGAN进行了对比，从生成的图像可以直观的看出SDGAN的结果更清晰，同时与描述文本更相符，那么它是做了哪些工作才得到这么好的效果呢？首先看下题目：Semantics Disentangling for Text-to-Image Generation，将其翻译过来为用于用于Text-to-Image的语义分解，从中我们可以知道它是基于文本的语义来改进Text-to-Image的工作，进一步可以猜测它应该是考虑文本的高级语义和低级语义，SDGAN具体是如何做的，下面具体的来看一下。

作者指出由于对于同一张图像来说，不同的人会给出不同的描述，它们自然包含了对于图像主要信息的描述，同样也充满了多样性和个性化，因此如何从中提取出一致性的语义信息，同时保留描述的多样性和其中的细节信息，成为了Text-to-Image任务的一大难题。

在正式理解SDGAN模型之前，我们需要补充一些相关的基础知识，主要是Siamese structure network、Batch Normalization。

Siamese structure network

Siam是古代对于泰国的称呼，可译为暹(xian)罗,Siamese自然可译为暹罗人或泰国人。但Siamese structure network中的Siamese可译为孪生、连体

十九世纪泰国出生了一对连体婴儿，当时的医学技术无法使两人分离出来，于是两人顽强地生活了一生，1829年被英国商人发现，进入马戏团，在全世界各地表演，1839年他们访问美国北卡罗莱那州后来成为“玲玲马戏团” 的台柱，最后成为美国公民。从此之后“暹罗双胞胎”（Siamese twins）就成了连体人的代名词，也因为这对双胞胎让全世界都重视到这项特殊疾病。

Siamese network最早在2005年Yann Lecun提出，它可以看做是一种相似性度量方法，而它所主要解决的是one-shot（few-shot）的任务。one-shot任务是指在现实的场景中，数据集中的样本可能类别数很多，但是每个类别所包含的样本的数量很少，甚至极端情况下只有一张，在这样的情况下，如果使用传统的分类模型去做，往往得到的效果都不会太好，因为传统的模型依赖于大量有标注的样本。而one-shot希望做的就是使用极少的样本也可以得到不错的效果。

Siamese network试图从数据中去学习一个相似性度量，然后用这个习得的度量去比较和匹配新的未知类别的样本。它的模型架构如下所示

如果只是在pixel空间中进行相似性度量显然不合适，因此Siamese network通过某个映射函数将输入的样本映射到一个目标空间中，然后在目标空间中使用一般的距离度量方式进行相似度比较，希望同类的样本的距离应该相近，而不同类别的样本距离应较远。如上图所示， $G_{W}(X)$ 表示需要学习的映射函数，在Siamese network中只要求其可微，并不附加其他的限制条件，其中的参数 $W$ 的求解就是主要的工作。

对于输入 $X_{1}$ 和 $X_{2}$ 来说，当它们是同类别的样本时，相似性度量 $E_{W}\left(X_{1},X_{2}\right)=\left\|G_{W}\left(X_{1}\right)-G_{W}\left(X_{2}\right)\right\|$ 的值较小；当它们是不同类别的样本时， $E_{W}\left(X_{1}, X_{2}\right)=\left\|G_{W}\left(X_{1}\right)-G_{W}\left(X_{2}\right)\right\|$ 的值较大。因此，在训练集上使用成对的样本进行训练，输入同类别时最小化损失函数 $E_{W}\left(X_{1}, X_{2}\right)$ ，而输入是不同类别时最大化 $E_{W}\left(X_{1}, X_{2}\right)$ 。

在模型中左右两个网络共享参数，因此可以看做两个完全相同的网络，它们的输出为低维空间中的 $G_{W}(X_{1})$ 和 $G_{W}(X_{2})$ ，然后使用能量函数 $E_{W}(X_{1},X_{2})$ 进行比较。如果假设损失函数只与输入 $X_{i}$ 和参数 $W$ 有关，它的形式如下所示： $\begin{aligned} \mathcal{L}(W) &=\sum_{i=1}^{P} L\left(W,\left(Y, X_{1}, X_{2}\right)^{i}\right) \\ L\left(W,\left(Y, X_{1}, X_{2}\right)^{i}\right) &=(1-Y) L_{G}\left(E_{W}\left(X_{1}, X_{2}\right)^{i}\right) \\ &+Y L_{I}\left(E_{W}\left(X_{1}, X_{2}\right)^{i}\right) \end{aligned}$ 其中 $Y,X_{1},X_{2})$ 表示第 $i$ 个样本，是由一组配对图片和一个标签（ $Y = 0$ 表示同类别 $Y = 1$ 表示不同类别，）组成的，其中 $L_{G}$ 是只计算相同类别对图片的损失函数， $L_{I}$ 是只计算不相同类别对图片的损失函数。 $P$ 是训练的样本数。通过这样分开设计，可以达到当我们要最小化损失函数的时候，可以减少相同类别对的能量，增加不相同对的能量。

[1] S. Chopra, R. Hadsell, and Y. LeCun. Learning a similarity metric discriminatively, with application to face verification. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 539–546. IEEE, 2005.

[2] Mohammad Norouzi, David J. Fleet, Ruslan Salakhutdinov, Hamming Distance Metric Learning, Neural Information Processing Systems (NIPS), 2012.

Batch Normalization

BN是优化神经网络训练一个很重要的工具，大家应该都比较熟悉了，这里只给出一个简单的总结，如下所示

这个过程可以表示为 $\mathrm{BN}(x)=\gamma \cdot \frac{x-\mu(x)}{\sigma(x)}+\beta$

此外对BN的改进有Conditional Batch Norm，可以将其看作是在一般的特征图上的缩放和移位操作的一种特例，它的表示形式如下所示 $\operatorname{BN}(x | c)=\left(\gamma+\gamma_{c}\right) \cdot \frac{x-\mu(x)}{\sigma(x)}+\left(\beta+\beta_{c}\right)$
其中 $\gamma_{c}$ 和 $\beta_{c}$ 通过条件线索 $c$ 学得。

SDGAN

模型架构如下所示

整个模型可以看作主要由 $\text{Siamese network + SCBN}$ 组成，其中使用 $\text{Siamese network }$ 在判别器（Discriminator）中学习高层次的语义一致性，使用SCBN来发现 Sentence-level 和 Word-level 的细节信息。这样既可以提取出语义的一致性部分，由可以保留描述的多样性和细节部分。

模型的主要部分为：

text encoder：用于提取描述文本中的特征表示，文中采用的BiLSTM，其中 $w_{t}$ 表示第 $i$ 个词的特征向量，最后输出的隐状态 $\overline{\mathcal{s}}$ 表示整个句子的特征向量；
hierarchical generative adversarial subnets：用于图像的生成，由多对生成器和判别器组成，实现从低分辨到高分辨率的逐级过渡，每个阶段都由一个 $G$ 和一个 $D$ 配对组成， $G$ 生成的图像 $D$ 都会给出判别真假的结果。 $G_{1}$ 的输入不只是 $\overline{\mathcal{s}}$ ，还由一个采样自标准正态分布的噪声向量 $z$ ，使得对于很相近的描述，模型也可以生成不同的图像，如下图（a）所示； $G_{1}$ 和 $G_{2}$ 的输入包括上一阶段的低分辨率图像和描述文本 $x$ ，如下图（b）所示：

另外不同的判别器直接是彼此独立的。
adversarial discriminators：用于判断每阶段生成图像是否符合文本描述

Contrastive Loss

对于两个语义上相近的描述性文本生成的图像也应该类似，否则生成的图像应相差较远。因此可采用contrastive loss来提取成对的描述性文本输入中的语义信息，损失函数如下所示： $L_{c}=\frac{1}{2 N} \sum_{n=1}^{N} y \cdot d^{2}+(1-y) \max (\varepsilon-d, 0)^{2}$ 其中 $d=||v_{1}-v_{2}||$ 表示两个特征向量之间的距离， $y$ 表示输入的描述文本都是是针对于同一图像， $y = 1$ 表示相同， $y = 0$ 表示不同。 $N$ 表示特征向量的维度，其中 $d = 256$ ， $\epsilon=1.0$ 。

通过使用Contrastive Loss来最小化来自同一图像描述的生成图像之间的距离，以及最大化来自不同图像描述的生成图像之间的距离来优化模型。同时为了避免生成无意义的结果，最终采用的形式如下所示 $L_{c}=\frac{1}{2 N} \sum_{n=1}^{N} y \max (d, \alpha)^{2}+(1-y) \max (\varepsilon-d, 0)^{2}$ 其中 $\alpha=0.1$ 同样是用来避免生成太过于相近的假样本。

Semantic-Conditioned Batch Normalization，SCBN

利用自然语言描述中的语言线索（linguistic cues）来调节条件批处理归一化，主要目的是增强生成网络特征图的视觉语义嵌入。它使语言嵌入能够通过上下缩放、否定或关闭等方式操纵视觉特征图，SCBN可以从输入中获取到语句级和词级两个层次上的语言线索。如下所示

对于Sentence-level层级来说，首先将 $\overline{s}$ 通过感知机得到参数 $\gamma_{c}$ （ $\beta_{c}$ 的计算一样），然后将其扩展到和 $x$ 相同的尺寸，作为 $\operatorname{BN}(x | c)=\left(\gamma+\gamma_{c}\right) \cdot \frac{x-\mu(x)}{\sigma(x)}+\left(\beta+\beta_{c}\right)$ 的输入。 $\gamma_{c}=f_{\gamma}(\overline{s})，\beta_{c}=f_{\beta}(\overline{s})$

对于Word-level层级来说，使用VSE实现词特征和视觉特征的融合，同样得到 $\gamma_{c}$ 和 $\beta_{c}$ 来作为 $\text{BN(x|c)}$ 的输入，其中VSE部分的计算为：
$\text{vse}_{j}=\sum_{t=0}^{T-1}\sigma(v_{j}^T\cdot f(w_{t})f(w_{t}))$

实验

通过再CUB和MS-COCO两个数据集上进行实验，证明了SDGAN优于已有的模型

进一步通过实验证明了Siamese mechanism和SCBN的有效性

最后显示了SDGAN可以对描述文本中小的变化做出相应的改变

总结

整体来看，本文所使用的模型架构和新提出的SCBN具有一定的吸引力，为后面Text-to-Image 任务的解决提供了新的思路。

参考

Siamese network 孪生神经网络–一个简单神奇的结构

Siamese Network理解

Forlogen

关注

7
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
SDGAN

论文地址：https://arxiv.org/abs/1904.01480v1收录于：CVPR 2019这篇文章属于Text-to-Image一类，它所解决的主要任务是如何根据文本的描述生成相应的图像，不仅要求生成的图像要清晰真实，而且更要求其符合给定的文本描述。类似的GAN模型有StackGAN（《StackGAN:Text to Photo-realistic Image Synthes...
复制链接

扫一扫