RiFeGAN: Rich Feature Generation for Text-to-Image Synthesis from Prior

最新推荐文章于 2022-10-14 11:48:52 发布

Collapsar_G

最新推荐文章于 2022-10-14 11:48:52 发布

阅读量709

点赞数

分类专栏：机器学习文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_43460876/article/details/116109249

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

摘要

文本到图像的合成是一项具有挑战性的任务，它从文本序列中生成真实的图像，与相关的图像相比，文本序列所包含的信息有限，因而具有模糊性和抽象性。有限的文本信息仅对场景进行部分描述，会使生成过程复杂化，对其他细节进行含蓄的补充，从而导致图像质量低下。

为了解决这个问题，我们提出了一种新的富特征生成文本到图像合成，称为RiFeGAN，以丰富给定的描述。为了提供更多的视觉细节，避免冲突，RiFeGAN 利用了 attention-based caption matching model，从先验知识中选择并提炼出the compatible candidate captions。有了丰富的caption RiFeGAN使用self-attentional embedding mixtures有效地从它们中提取特征，并进一步处理发散的特征。然后利用multi-captions attentional生成对抗网络将这些特征合成为图像。在广泛使用的数据集上进行的实验表明，该模型可以从丰富的数据集生成图像并显著改善结果。

简介

从文本描述中生成真实的图像是近年来最活跃的研究领域之一，由于自然语言是与人交互的最简单的方式之一，文本到图像的合成在许多领域都发挥着重要的作用，如字幕中的双重学习机制，并具有广泛的潜在应用，如美术生成、计算机辅助设计、幼儿教育等。

最近，许多方法致力于改善GAN(BigGANs)和训练方法(Wasserstein GANs)来合成高质量的图片，但是，由于自然语言的模糊性、抽象性和信息的有限性，一个caption缺乏对对象的详细信息。因此，条件生成器需要补充这些细节，这将使生成器复杂和训练困难。

如上图所示，每个说明只描述了一只鸟的部分特征，训练可以同时利用来自同一幅图像的几个相应的说明，提供更详细的信息。因此，与只有一个caption且信息有限的合成图像(b)相比，生成的图像(d)更接近真实图像。

此外，大量的caption很难直接处理来合成图像。因此没有使用self-attentional embedding mixtures(SAEMs)生成的图像©不如图像(d)。为了缓解信息有限的问题，有效地产生令人满意的视觉细节，需要检索附加的说明文字，明确的补充，以丰富描述。为了检索the compatible captions，我们引入了一个attention-based caption matching model，从训练数据集建立的先验知识中选择候选字幕。通过对候选caption的嵌入和给定caption的比较，从候选caption中选择补充caption，以提高语义一致性。例如，给定第一个标题1)，其他的可以作为补充来检索，以提供额外的信息。

由于大量的caption能够提供更多的视觉细节，但是计算机理解他们的语义是非常困难的，为了解决这个困难，因此我们使用Attentional model来提取每一个caption的特征，然后使用self-attentional embedding mixtures来融合这些特征。

综上所述，这篇文章主要有以下两点贡献：

提出了一种新的框架RiFeGAN，利用训练数据集形成的先验知识来丰富给定的标题，解决了信息有限的问题，提高了合成图像的质量;
本文提出了一种caption匹配方法，利用注意力文本匹配模型，从先验知识中自动检索匹配的字幕。在此基础上，利用基于SAEMs的多组注意根算法提取丰富的特征，合成高质量的图像。因此，我们在广泛使用的数据集上显著提高了性能。

准备工作

Text Matching

Pang等人的模型将文本匹配作为图像识别，通过构造一个匹配矩阵来表示单词之间的相似性，并用卷积神经网络来获取匹配模式；（Liang Pang, Yanyan Lan, Jiafeng Guo, Jun Xu, Shengxian Wan, and Xueqi Cheng. Text matching as image recognition. In AAAI Conference on Artificial Intelligence, pages 2793–2799, 2016.）
Wan等人[29]提出了一种利用位置语句表示的深层体系结构，该结构由双向长短期记忆(Bi-LSTM)、k-Max池和多层感知器生成，以匹配两个句子。（Shengxian Wan, Yanyan Lan, Jiafeng Guo, Jun Xu, LiangPang, and Xueqi Cheng. A deep architecture for semantic matching with multiple positional sentence representations.10919 In AAAI Conference on Artificial Intelligence, volume 16,pages 2835–2841, 2016.）
Lee等人[14]提出了一种堆叠交叉注意模型来对齐图像区域和单词，并计算图像-文本相似度。（Kuanghuei Lee, Xi Chen, Gang Hua, Houdong Hu, and Xiaodong He. Stacked cross attention for image-text matching.In Proceedings of European Conference on Computer Vision,ECCV, pages 212–228, 2018）
Yang等人提出了一个快速、强的RE2，通过多个对齐过程来匹配两个句子。（Runqi Yang, Jianhai Zhang, Xing Gao, Feng Ji, and HaiqingChen. Simple and effective text matching with richer alignment features. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4699–4709, 2019.）

大多数基于GANs-based的生成方法已经在图像生成方面取得了很大的进展：

Generating with One Caption

Reed等[21]利用深对称结构联合嵌入策略创建文本描述的可视区分嵌入，并提出一种有效的条件GAN根据嵌入合成可信图像。
Zhang等人[35]将复杂的生成问题转化为若干子问题，利用多个树状结构的生成器逐步合成图像。此外，他们还引入了条件强化来稳定训练过程。
Zhang等人[36]引入了一种单流生成器架构，该架构应用层次化嵌套的对抗目标来规范中层表示，以更好地适应连接鉴别器并生成高分辨率图像。

Generating with One Caption and Understanding

Qiao等人[19]提出了一个LeicaGAN来学习和想象关于语义、纹理、颜色、形状和布局的各种对象的先验。
Qiao等[20]引入了镜像来连接文本到图像合成和文本字幕这两个任务，并约束生成的字幕与给定的字幕对齐。

Generating with One Caption Attentionally

许等人[30]提出了多阶段AttnGANs，通过聚焦于标题中的不同单词来合成场景的不同部分。在第一阶段，生成器使用嵌入的句子来合成图像。在下一个阶段，单词上下文特征被一个注意模型计算并输入到下一个生成器中。
基于AttnGANs,朱[37]提出了动态记忆生成对抗网络(DM-GAN)解决了严重依赖初始图像和文本在不同阶段保持不变的问题。

Generating with Multi-captions

Sharma等人[24]通过添加一个描述场景的对话扩展了标题。然后是Skip-thought[13]或递归神经网络利用RNNs (RNNs)[1,23]获取对话的嵌入，利用StackGAN[35]生成图像;
约瑟夫等人[11]提出交叉标题循环一致(C4Synth)模型，从多个标题合成一幅图像。他们受到CycleGAN的启发，构建图像生成器、文本标记器和鉴别器。该模型以噪声和第一个标题生成图像，然后由鉴别器将其与真实标题进行分类，再由捕获器生成与下一个真实标题相似的标题。接下来，通过用前一个生成器的输出特性替换噪声，模型迭代地处理前面描述的其余字幕。因此，要生成图像，生成器需要运行与标题数量相同的次数

Difference to Existing Works

Chatpainter利用Skip-thought 或RNNs对对话语句进行编码，计算嵌入内容，然后直接将嵌入内容输入StackGAN合成图像。本文利用字幕匹配来丰富描述，并利用SAEMs在注意框架下从多个Caption中提取特征。结果证明，这个模型是有效的，C4Synth 合成一幅图像需要多次运行，模型需要字幕模型生成字幕，这使得模型在训练时更加复杂。与C4Synth不同的是，我们的工作直接利用一个丰富的或多个字幕的字幕，使得完整的生成器对每个图像只执行一次，并且不需要字幕模型来帮助训练。此外，我们的工作，首先利用字幕丰富产生丰富的特征和SAEMs更有效地利用多字幕，取得了显著的改进。

Text-to-Image Synthesis with Rich Feature

在图2中，给出一个标题，我们首先对其进行丰富，而不是直接合成图像。在caption匹配中，由于一幅图像在公共数据集中有多个caption，类似于人类记忆，所以我们将训练部分的每幅图像及其标题作为知识库中的一个项来处理
(记忆)。因此，丰富过程将从知识库中检索出兼容条目，并对条目的标题进行细化，以返回最佳补语作为图2的中间部分。然后，在丰富字幕的基础上，提出了一种带有SAEMs的注意GAN，可以有效地利用字幕合成图像。

Caption Matching with Prior Knowledge

给定一个字幕，字幕匹配需要返回与之兼容的字幕来增强字幕，这在自然语言处理中是一个困难问题，为了简化这个问题，我们把这个问题当作一个信息检索问题，并且从训练数据集召回相关的问题。
因此，给定一个数据集，我们将其视为先验知识，一个知识库 $\Omega$ ={ $\omega_i$ },其中，每一项 $\omega_i$ 由一张图片 $I_i$ 和它的字幕 $\omega_i=I_i+\{t_{i,k}\}^{N^k}_{k=0}$ . 给定一个字幕t和它对应的 $\omega_i$ ,我们利用 RE2来评估它们的兼容分数：
$S_{compat}(t,\omega_i)=\frac{1}{N^T}\sum_{k=0}^{N^T}S_{RE2}(t,t_{i,k})$

其中， $S_{RE2}(t_1,t_2)$ 返回的是给定字幕 $t_1$ 和 $t_2$ 的匹配分数；

该记分器由多个编码器、对齐层和融合层构成，如图二第二块。

编译器用几个相同的卷积网络来提取上下文嵌入的词语，而不是利用循环网络。

对齐层计算两个序列 ${c_{1,i}\}$ 和 ${c_{2,i}\}$ 的公式如下：
$\left\{\begin{array}{l} c_{1, i}^{\prime}=\sum_{j} \alpha_{i, j}^{\prime} \cdot c_{2, j} \\ c_{2, i}^{\prime}=\sum_{j} \alpha_{j, i}^{\prime} \cdot c_{1, j} \end{array}\right.$

其中， $\alpha'_{i,j}$ 是注意力权重，与 ${c_{1,i}\}$ 和 ${c_{2,i}\}$ 的点积成正比。

融合层由向前反馈网络构成，用来融合 $c'_{*,i}$ 和 $c_{*,j}$ .然后利用多层向前反馈模型来返回匹配分数。

由于字幕组 $\omega_i$ 同时描述标题 $\{t_{i,k}\}^{N^k}_{k=0}$ 和图像 $I_i$ ，所以它们是兼容的。因此，我们可以从字幕组 $\omega_i$ 中随机选择一个 $t_i$ 来构建一个正样本 $(t_i,\omega_{i,c})$ ,并选择字幕组中的其他部分作为上下文 $\omega_{i,c}$ 。因为不同的字幕可能会发生冲突，所以我们选择 $\omega_{r(i)}$ 中的字幕 $t_{r(i)}$ 来构建反样本 $(t_r(i),\omega_{i,c})$ (其中， $r(i))\ne i$ 是 $\Omega$ 中的一个随机索引，并且索引项的不同类。因此，与侧重于项目间相对偏好的两两排序损失相似，将匹配分数形成logistic回归，训练损失为：
$\begin{array}{l} L_{\text {compat }}(\Omega)=-\frac{1}{N^{T}} \sum_{i=0}^{N^{T}} \sigma\left(S_{\text {compat }}\left(t_{i}, \omega_{i, c}\right)\right) +\sigma\left(S_{\text {compat }}\left(t_{r(i)}, \omega_{i, c}\right)\right) \end{array}$

其中， $\theta$ 是一个sigmoid函数。

给定一个字幕t，k优的字幕用 $\omega_k(t)$ 表示，可以由 $\omega$ 通过公式一得到。为了提高语义一致性，并进一步排除冲突的字幕，我们选择嵌入比其他字幕在余弦相似度上更接近t的 $N^{test}$ 字幕来细化字幕。

Multicaptions Attentional GANs

在文本-图像合成中，给定一个标题，通过使用一个文本编码器创建嵌入的e，并将其输入条件GANs生成图像。AttnGAN[30]可以有效的用不同的单词绘制不同的子区域。因此，如图三我们构建了带有SAEMs和MultiCap-DAMSM。

$F_1$ 是一个上采样模块，上采样模块由全连接层、上采样层、3×3卷积层、批处理归一化层、门控线性层组成的几个上采样模块；
$F_2$ 和 $F_3$ 是上采样模块，由多个剩余网络和一个上采样模块组成。模块 $G_i$ 使用3×3卷积层和 $t a n h$ 激活函数，将内部特征 $h_i\in R^{N_i×N_w×N_h}$ 转换为图像;
$D_i$ 是由多个卷积层、批处理归一化层和漏整线性单元构成的鉴别器;
$F^{attn}_i$ 是一个注意模块，以单词特征w和内部特征hi为输入，计算如下:

$F_{i}^{a t t n}\left(h_{i}, w\right)=\left[\sum_{k=1}^{T} \alpha_{1, k} w_{k}, \cdots, \sum_{k=1}^{T} \alpha_{N_{3}, k} w_{k}\right]$

其中， $N_3 = N_w·N_h$ ; $T$ 是 $w$ 的长度;注意权值计算为:
$\alpha_{j, k}=\frac{\exp \left(s_{j, k}\right)}{\sum_{k}\left(\exp \left(s_{j, k}\right)\right)}$
其中， $s_{j,k}$ 是 $h_{i,j}$ , $w_k$ 的点积; $F_{ca}$ 是将嵌入的文本投射到一个较低的条件空间中的条件作用，以增强平滑性和增强鲁棒性。

在图3中，给定一组标题 $=\{t_{i,k}\}^{N^k}_{k=0}$ ，我们利用文本编码器 $f^{txt}_{word}$ 和 $f^{txt}_{cap}$ ，这是双向长短时记忆(LSTMs)[23]，提取 $t_j$ 的单词特征和句子特征:

在第一阶段,SAEM总特性计算 $F_1$ 和 $\hat{c}$ ,作为输入来计算h1和合成图像内在特征;
下一阶段，注意模型 $F^{attn}_1$ 需要这个词的特征和h1作为每个字幕的输入注意力特征,后跟一个SAEM计算总注意力特征 $\hat{w}^j_1$
然后 $\hat{w}^j_1$ 和h1结合F2和G2合成更大的图像。第三阶段与第二阶段相似，只是MultiCap-DAMSM将在训练中引入额外的约束。

Self-Attentional Embedding Mixture

基于注意力的模型已成功应用于许多领域，如双重任务、字幕等[7,15]。此外,Zhang等人[34]在convolutional GANs中引入了一种自我注意机制，在Inception score[22]上取得了显著的提高。

因此,我们引入SAEMs嵌入融合字幕。给定 $F_i$ 生成的每个 $t_j$ 的隐藏状态 $h_i$ ，计算其对应的嵌入量如下:
$\left\{\begin{array}{l} \hat{c}^{j}=F_{c a}\left(f_{c a p}^{t x t}\left(t_{j}\right)\right) \\ \hat{w}_{i}^{j}=F_{i}^{a t t n}\left(h_{i}, f_{w o r d}^{t x t}\left(t_{j}\right)\right) \end{array}\right.$
其中 $\hat{c^j}∈R^{N_C}$ 是tj的整个嵌入; $\hat{\omega^j_i}∈R^{N_i * N_i * N_w}$ 是条件嵌入，每个元素针对不同的单词。因此，为了提取字幕T的整体嵌入，我们利用自我注意模块[27]对嵌入进行融合，如下所示:
$\left\{\begin{array}{l} \hat{c}=f_{\max }\left(f_{\text {posw}}\left(L_{M H A}\left(\left[\hat{c}^{0}, \hat{c}^{1}, \cdots, \hat{c}^{N_{T}}\right]\right)\right)\right) \\ \hat{w}_{i}=f_{\max }\left(f_{\text {posw}}\left(L_{M H A}\left(\left[\hat{w}_{i}^{0}, \hat{w}_{i}^{1}, \cdots, \hat{w}_{i}^{N_{T}}\right]\right)\right)\right) \end{array}\right.$

其中 $f_{max}(x)$ 返回一个张量，其元素在x的列中是最大的; $f_{posw}$ 是位置前馈网络， $L_{MHA}(v)$ 是一个多头注意层，

$\begin{array}{l} L_{M H A}(v)= L_{n l}\left(L_{d r o p}\left(\left[\begin{array}{c} H_{0}(v) \\ \cdots \\ H_{N_{H}}(v) \end{array}\right]^{T} \cdot M_{3}\right)+v\right) \end{array}$
其中， $M_3∈R^{N_H·N_i×N_i}$ 是一个投影矩阵; $L_{nl}$ 是一种层归一化。注意功能 $H_i(E)$ 定义为:
$H_{k}(v)=L_{a t t}\left(M_{4,1}^{k} \cdot v, M_{4,2}^{k} \cdot v, M_{4,3}^{k} \cdot v\right)$
其中， $M_{4,1}^{j}, M_{4,2}^{j}, M_{4,3}^{j} \in R^{N_{i} \times N_{i}}$ 分别是将输入嵌入投影到问题空间、键空间、值空间中的矩阵。函数 $L_{a t t}(Q, K, V)=\operatorname{softmax}(\beta\cdot\left.Q \cdot K^{T}\right) \cdot V$ is the Scaled Dot-Product Attention,其中 $\beta$ 是一个尺度值，用来抵消小梯度的问题。

Multi-Caps DAMSM

如图4所示，我们同时考虑标题T，并使用DAMSM[30]来引导。因此，MultiCap-DAMSM损失定义为:
$\hat{L}_{D A M S M}(I, \mathbf{T})=\sum_{k=0}^{N_{T}} \mu_{k} \cdot L_{D A M S M}\left(I, t_{k}\right)$
其中， $\mu_k$ 为句子 $t_k$ 的权重，表示句子 $t_k$ 的重要性。公式10迫使生成的图像 $I$ 拟合整个描述T. $L_{DAMSM}(Q,D)$ 为DAMSM的损失。
$\begin{aligned} L_{D A M S M}\left(I, t_{k}\right)=& L_{1}^{w}\left(f_{\text {part}}^{i m g}(I), f_{\text {word}}^{\text {txt}}\left(t_{k}\right)\right)+L_{2}^{w}\left(f_{\text {part}}^{\text {img}}(I), f_{\text {word}}^{\text {txt}}\left(t_{k}\right)\right)+L_{1}^{s}\left(f_{\text {full}}^{i m g}(I), f_{\text {cap}}^{t x t}\left(t_{k}\right)\right)+L_{2}^{s}\left(f_{\text {full}}^{i m g}(I), f_{\text {cap}}^{t x t}\left(t_{k}\right)\right) \end{aligned}$
其中， $L_{1}^{w}, L_{2}^{w}$ 和 $L_{1}^{s}, L_{2}^{s}$ 为单词和句子丢失函数[30]，描述图像与对应字幕的匹配概率。给定一组图像-句子对， $L^w_1$ 计算图像与字幕相似度的交叉熵损失;利用从 $I$ 中提取的词的嵌入和它们对应的注意表征之间的余弦相似度计算图像 $I$ 和标题 $t$ 之间的相似度。 $L_{2}^{w}, L_{1}^{s} \text { and } L_{2}^{s}$ 做类似的处理。 $f_{\text {part}}^{i m g} \text { and } f_{\text {full}}^{i m g}$ 利用所构建的图像编码器（inception -v3模型[25]，1×1卷积层和多层感知器。）提取子区域特征和全局特征，

Jointed Training Value Function

多字幕合成的图像必须符合这些字幕。因此，在这种约束下进行训练对生成是有益的。在多组的约束下，总值函数为:
$\begin{array}{c} V\left(D_{1}, \cdots, D_{K}, G_{1}, \cdots, G_{K} \mid \mathbf{T}\right)= \\ \sum_{i=1}^{K}\left\{\mathbb{E}_{\boldsymbol{x} \sim p_{\text {data }}(\mathbf{T})}\left[\log D_{i}(\boldsymbol{x} \mid \mathbf{T})\right]+\right. \\ \left.\mathbb{E}_{\hat{\boldsymbol{x}} \sim p_{G_{i}}(\mathbf{T})}\left[\log \left(1-D_{i}(\hat{x} \mid \mathbf{T})\right)\right]\right\}+ \\ \lambda \cdot \mathbb{E}_{\hat{\boldsymbol{x}} \sim p_{G_{K}}(\mathbf{T})}\left[\hat{L}_{D A M S M}(\hat{x}, \mathbf{T})\right] \end{array}$
其中， $\hat{\boldsymbol{x}} \sim p_{G_{i}}(\mathbf{T})$ 图像是给定条件T由发生器 $G_i$ 合成的， $\lambda$ 是用于调整约束的超参数，K是generator的级数。

Collapsar_G

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
RiFeGAN: Rich Feature Generation for Text-to-Image Synthesis from Prior

摘要文本到图像的合成是一项具有挑战性的任务，它从文本序列中生成真实的图像，与相关的图像相比，文本序列所包含的信息有限，因而具有模糊性和抽象性。有限的文本信息仅对场景进行部分描述，会使生成过程复杂化，对其他细节进行含蓄的补充，从而导致图像质量低下。为了解决这个问题，我们提出了一种新的富特征生成文本到图像合成，称为RiFeGAN，以丰富给定的描述。为了提供更多的视觉细节，避免冲突，RiFeGAN 利用了 attention-based caption matching model，从先验知识中选择并提炼出t
复制链接

扫一扫

专栏目录