SegAttnGAN: Text to Image Generation with Segmentation Attention论文阅读
本人的话:突然想到如果能把输入文本从一个基于词组和词的句子变成一个基于词组的句子,会不会好一点。这篇论文没啥研究价值。
介绍
我们的SegAttnGAN,使用segmentation输入来添加额外的空间信息。和 https://editor.csdn.net/md/?articleId=115262969 有点像。
创新点:
1.生成网络能够同时使用文本和空间信息。
2.我们验证了如果添加额外的空间attention机制来规范物体形状和图片布局,从而提高图片质量。
3.我们建立了一个self-attention网络来生成segmentation mask,然后再用于图片生成。
SegAttnGAN
文本输入通过一个LSTM text encoder来提取句子和单词特征。句子特征concat一个高斯分布的噪声。
Segmentation attention module
该模块通过保留输入的语义图的空间限制来提高图片合成质量。
定义F是来自上一层的特征,S是输入的segmentation map。
BN是batch normalization,Conv是卷积。
该函数的核心是他能够保留segmentation mask的空间信息,这和超参数任务的想法类似。
Segmentation mask策略
在应对segmentation mask的时候,我们有两个不同的模型。第一个是SegAttnGAN,使用数据集中已存在的mask来作为attention输入,另一个是self-attention SegAttnGAN,使用self-attention generator生成的mask。它使用一个噪声z和文本向量作为输入,有三层,分辨率从64x64,128x128,256x256。
目标
t和s分别代表文本和segmentation输入。
generator的loss:
discriminator的loss:
对于self-attention SegAttnGAN,我们定义self-attention Generator——Gs。将Gs代换s得到相应的G loss和D loss。
实现细节
generator分别输出64x64, 128x128, 256x256的图片。
首先,我们处理segmentation mask,将其转化为label maps(每个channel包含不同的物体),然后在generator的每个上采样层,我们下采样segmentation label map到和当前hidden features相同的分辨率。然后我们使用attention module。
文本和图片encoder的实现方法同AttnGAN。
对于self-attention SegAttnGAN,不输入单词特征。
文本特征维度256.
loss权重λ=5.0
Adam optimizer的β1=0.5,learning rate=0.0002。
实验
使用CUB和Oxford-102。
Oxford-102是包含花的图片的数据集,我们使用6141图片训练,2047图片测试。
我们使用Inception Score和R-precision评估。