T2I论文阅读2020 SegAttnGAN

最新推荐文章于 2023-02-21 22:27:16 发布

芋圆526

最新推荐文章于 2023-02-21 22:27:16 发布

阅读量290

点赞数

分类专栏：论文阅读文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_26136211/article/details/115294938

版权

论文阅读专栏收录该内容

24 篇文章 2 订阅

订阅专栏

SegAttnGAN是一种利用分割注意力的文本到图像生成模型，结合了文本和空间信息以提升生成图片的质量。通过自我注意机制生成分割掩模，并用其引导图像生成，以更好地规范物体形状和布局。实验在CUB和Oxford-102数据集上进行，使用Inception Score和R-Precision进行评估。

摘要由CSDN通过智能技术生成

SegAttnGAN: Text to Image Generation with Segmentation Attention论文阅读

本人的话：突然想到如果能把输入文本从一个基于词组和词的句子变成一个基于词组的句子，会不会好一点。这篇论文没啥研究价值。

介绍

我们的SegAttnGAN，使用segmentation输入来添加额外的空间信息。和 https://editor.csdn.net/md/?articleId=115262969 有点像。
创新点：
1.生成网络能够同时使用文本和空间信息。
2.我们验证了如果添加额外的空间attention机制来规范物体形状和图片布局，从而提高图片质量。
3.我们建立了一个self-attention网络来生成segmentation mask，然后再用于图片生成。

SegAttnGAN

在这里插入图片描述
文本输入通过一个LSTM text encoder来提取句子和单词特征。句子特征concat一个高斯分布的噪声。

Segmentation attention module

该模块通过保留输入的语义图的空间限制来提高图片合成质量。
定义F是来自上一层的特征，S是输入的segmentation map。
在这里插入图片描述
BN是batch normalization，Conv是卷积。
该函数的核心是他能够保留segmentation mask的空间信息，这和超参数任务的想法类似。

Segmentation mask策略

在应对segmentation mask的时候，我们有两个不同的模型。第一个是SegAttnGAN，使用数据集中已存在的mask来作为attention输入，另一个是self-attention SegAttnGAN，使用self-attention generator生成的mask。它使用一个噪声z和文本向量作为输入，有三层，分辨率从64x64，128x128，256x256。

目标

在这里插入图片描述
t和s分别代表文本和segmentation输入。
generator的loss：

discriminator的loss：

对于self-attention SegAttnGAN，我们定义self-attention Generator——G_s。将G_s代换s得到相应的G loss和D loss。

实现细节

generator分别输出64x64, 128x128, 256x256的图片。
首先，我们处理segmentation mask，将其转化为label maps（每个channel包含不同的物体），然后在generator的每个上采样层，我们下采样segmentation label map到和当前hidden features相同的分辨率。然后我们使用attention module。
文本和图片encoder的实现方法同AttnGAN。
对于self-attention SegAttnGAN，不输入单词特征。
文本特征维度256.
loss权重λ=5.0
Adam optimizer的β1=0.5，learning rate=0.0002。