Semantics Disentangling for Text-to-Image Generation

该学还得学

已于 2022-03-23 22:01:52 修改

阅读量791

点赞数 2

分类专栏： text2image 文章标签：深度学习计算机视觉

于 2022-03-23 21:59:42 首次发布

本文链接：https://blog.csdn.net/qq_44381060/article/details/123695603

版权

text2image 专栏收录该内容

14 篇文章 2 订阅

订阅专栏

Semantics Disentangling for Text-to-Image Generation

作者：Guojun Yin，Bin Liu，Lu Sheng，Nenghai Yu，Xiaogang Wang，Jing Shao 时间：2019

会议：CVPR

为什么提出SD-GAN：

对于T2I来说，以往文本-图像生成工作主要关注于通过从粗到细的叠加生成器结构或注意引导生成程序来提高生成图像的视觉质量和分辨率，但是这些方法忽略了一个重要的现象，即人类对同一幅图像的描述在表达上具有高度的主观性和多样性（也就是每个人对于同一幅图像进行描述会带着自己的主观意识，虽然描述的是同一个东西，但是文字的描述会有一定偏差），这意味着天真地使用这些文本作为独特的描述来生成图像，往往回产生不稳定的外观模式，与groundtruth图像相去甚远。换句话说说即使描述的是同一事物，不同的语言表达也给提取一致的语义带来了挑战。不同的描述可能回导致图像产生偏差。
上图表示为不同的语言表达但相同的语义产生了不同的图像，甚至是不相同的鸟类。

SD-GAN的介绍和贡献：

为了解决上述的问题，作者们提出了一种新的真实感文本到图像的生成方法，这个方法在生成过程中有效地利用了输入文本中的语义，即为SD-GAN

1.介绍：

SD-GAN可以从文本中提取语义共性，以保证图像生成的一致性，同时保留细粒度图像生成的语义多样性和细节，受Siamese结构在不同任务中的启发，可以找到一对序列之间的相似性，作者将鉴别器作为图像比较器，在图像描述全面且指向相同语义内容的前提下，保持图像之前的语义一致性。
也就是说SD-GAN使用一个暹罗方案，以一对文本作为输入，并使用上图所示的对比损耗进行训练。intra-class表示为具有不同描述的相同ground truth image，inter-class表示为具有不同描述的不同ground truth image，而通过SD-GAN，具有相似语言与义的intra-class在鉴别器特征空间内的距离要小得多（因为描述的是同一幅图像），而inter-class在鉴别器特征空间内的距离要大得多（因为描述的是不同的图像）。因此通过这样的结构，可以使得文本到图像生成器从多种语言表达中提炼出固有的语义共性。（可以理解为，通过一对文本的输入，通过loss，会使得同一幅图像的不同文字生成相似的图片，而不同的图像，则会生成区别较大的图片）。
上述提出的连体结构确实能够从文本中提炼出语义共性，但是即使是同一幅图像，因为描述人的主观性，我们在关注语义的共性时，还要保持文本和文本之间的语义差异（也就是每个文本的多样性），因此需要在视觉生成中嵌入详细的语义线索（linguistic cues），作者们在生成器中重新制定批处理规范层——SCBN，它能使详细和细粒度的语言嵌入能够操纵生成网络中的视觉特征地图。

2.贡献：

所提出的SD-GAN能从语言描述中提取语义公域，在此基础上生成的图像在表达变量下保持生成的一致性。（按作者说，这是第一次将暹罗机制引入到跨模态生成中）。
为了弥补暹罗机制可能失去的独特语义多样性，设计了一种增强的视觉语义嵌入方法，利用实例语言线索重新构造批处理规范层——SCBN，可以保留文本的语义多样性和细节。
所提出的SD-GAN在CUB-200 bird数据集和MS-COCO数据据上实现了最先进的文本-图像生成性能。

网络结构;

该结构是在AttnGAN基础上进行修改的，其中主干结构使用的是顺序堆叠的生成器-鉴别器模块，它是由Text Encoder和Hierarchical Generative Adversarial Networks两部分组成。

1. Text Encoder：

每个分支的输入都是一个自然语言描述的句子。文本呢编码器的目标是从自然语言描述中学习特征表示，这里采用的是BiLSTM（双向长短期记忆），使用 $w_t$ 表示第 $t^{th}$ 个单词的特征向量， $\overline{s}$ 表示句子特征向量。

2. Hierarchical Generative Adversarial Networks：

给定 $\overline{s}$ 和噪音 $z$ 进行图像的生成，(a)图代表第一阶段的初始图像，(b)图代表下一阶段利用前一阶段的输出和sentence feature生成分辨率更高的图像，这里要注意的是SCBN在每个上采样的末端工作。

Contrastive Loss：

所提出的Siamese结构目的是在训练过程中，无论输入描述的表达式的变化，增强生成的一致性，如果从两个分支生成的视觉特征是文本语义感知的，那么生成的两个图像应该是相似的(即有较小的距离)——intra class。否则，两个生成的图像应该是不同的(即有很大的距离)——inter class。为此，我们采用对比损耗法从输入的描述对中提取语义信息：

$L_c=\frac{1}{2N}\sum_{n=1}^{N}y\cdot d^2+(1-y)max(\epsilon-d,0)^2$

其中 $d=||v_1-v_2||_2$ 为视觉特征向量 $v_1$ 和 $v_2$ 到两个Siamese分支的距离， $y$ 为标记输入描述是否来自同一幅图像的标识，1表示相同，0表示不同。 $N$ 为特征向量的长度 $\epsilon$ 用来平衡 $y = 0$ 时的距离。
在对比损失的情况下，通过使生成的图像于同一图像描述之间的距离最小化和使不同图像描述之间的距离最大化来优化暹罗结构。但由于输入噪声，即使描述完全一致，生成的图像可能在外观上不同，比如姿势，背景等等。因此为了避免两个语义一致的文本在生成图像上使得两幅图像完全一样（要使上面的 $L_c$ 变小， $d$ 会越来越小，很有可能趋近于0，这就代表 $v_1$ 和 $v_2$ 一致，两幅图像一样，我们需要避免这样无意义的模式，可以理解为对应上面的保留语义多样性），因此作者将上述公式修改为：

$L_c=\frac{1}{2N}\sum_{n=1}^{N}y\cdot max(d,\alpha)^2+(1-y)max(\epsilon-d,0)^2$

这里的 $\alpha$ 是一个超参数，主要目的是防止 $d$ 变得太小，以至于两个图像一样，在实验中 $\alpha$ 设置为0.1

SCBN:

SCBN的目的是加强生成网络特征映射中的视觉语义嵌入。它使语言嵌入能够通过方法或缩小、否定或关闭视觉特征图等方式（CBN的作用，将语义作为condition，称为SCBN）来操纵视觉特征图。其关注文本中独特的语义差异。SCBN的语义线索可以从两个方面获得：句子层面和词层面。

1.Sentence-level Cues（句子层面的线索）：

如上图（a）所示，采用一隐层的MLP从输入描述的sentence feature中踢球调制参数 $\gamma_c$ 和 $\beta_c$ （这里只给出 $\gamma_c$ 的事例， $\beta_c$ 一样）：

$\gamma_c=f_{\gamma}(\overline{s}),\beta_c=f_{\beta}(\overline{s})$

上式 $f_{\gamma}(\cdot)$ 和 $f_{\beta}(\cdot)$ 分别表示 $\gamma_c$ 和 $\beta_c$ 的单隐层MLPs。然后将 $f_{\gamma}(\overline{s})$ 和 $f_{\beta}(\overline{s})$ 的维数扩展到与 $x$ 相同的大小，以便利使用CBN的公式嵌入语言线索和视觉特征。

2.Word-level Cues（单词层面的线索）：

如上图（b）所示， $W=\{w_t\}_{t=1}^T\in R^{D \times T}$ 表示为词组的特征，图中的 $X\in R^{C \times L}$ 是视觉特征， $C$ 是通道尺寸并且 $\times L$ 。这个VSE模块采用相互融合的特征和视觉特征，其公式为：

vse $_j=\sum_{t=0}^{T-1}\sigma(v_j^T \cdot f(w_t))f(w_t)$

先使用一个感知层也就是 $f(w_t)$ 来匹配文本特征和视觉特征的维度，然后根据图像的嵌入特征 $v_j$ ，对图像的每一个子区域 $j$ 计算VSE向量vse $_j$ ，它是与视觉特征 $v_j$ 相关的词向量 ${w_t\}_{t=1}^T$ 的动态表示。 $\sigma(v_j^T \cdot f(w_t)$ )表示为视觉特征映射的第 $j^{th}$ 个子区域 $v_j$ 和第 $t^{th}$ 个词向量 $w_t$ 的视觉语义嵌入权值，这类似于互相关的点积相似度。

实验结果：

可以看出SD-GAN在相同的参数下，性能更好。

参考：

该学还得学

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Semantics Disentangling for Text-to-Image Generation

Semantics Disentangling for Text-to-Image Generation作者：Guojun Yin，Bin Liu，Lu Sheng，Nenghai Yu，Xiaogang Wang，Jing Shao 时间：2019会议：CVPR为什么提出SD-GAN：对于T2I来说，以往文本-图像生成工作主要关注于通过从粗到细的叠加生成器结构或注意引导生成程序来提高生成图像的视觉质量和分辨率，但是这些方法忽略了一个重要的现象，即人类对同一幅图像的描述在表达上具有高度的主观性和
复制链接

扫一扫