T2I论文阅读2020 SegAttnGAN

SegAttnGAN是一种利用分割注意力的文本到图像生成模型,结合了文本和空间信息以提升生成图片的质量。通过自我注意机制生成分割掩模,并用其引导图像生成,以更好地规范物体形状和布局。实验在CUB和Oxford-102数据集上进行,使用Inception Score和R-Precision进行评估。
摘要由CSDN通过智能技术生成

SegAttnGAN: Text to Image Generation with Segmentation Attention论文阅读

本人的话:突然想到如果能把输入文本从一个基于词组和词的句子变成一个基于词组的句子,会不会好一点。这篇论文没啥研究价值。

介绍

我们的SegAttnGAN,使用segmentation输入来添加额外的空间信息。和 https://editor.csdn.net/md/?articleId=115262969 有点像。
创新点:
1.生成网络能够同时使用文本和空间信息。
2.我们验证了如果添加额外的空间attention机制来规范物体形状和图片布局,从而提高图片质量。
3.我们建立了一个self-attention网络来生成segmentation mask,然后再用于图片生成。

SegAttnGAN

在这里插入图片描述
文本输入通过一个LSTM text encoder来提取句子和单词特征。句子特征concat一个高斯分布的噪声。

Segmentation attention module

该模块通过保留输入的语义图的空间限制来提高图片合成质量。
定义F是来自上一层的特征,S是输入的segmentation map。
在这里插入图片描述
BN是batch normalization,Conv是卷积。
该函数的核心是他能够保留segmentation mask的空间信息,这和超参数任务的想法类似。

Segmentation mask策略

在应对segmentation mask的时候,我们有两个不同的模型。第一个是SegAttnGAN,使用数据集中已存在的mask来作为attention输入,另一个是self-attention SegAttnGAN,使用self-attention generator生成的mask。它使用一个噪声z和文本向量作为输入,有三层,分辨率从64x64,128x128,256x256。

目标

在这里插入图片描述
t和s分别代表文本和segmentation输入。
generator的loss:
在这里插入图片描述
discriminator的loss:
在这里插入图片描述
对于self-attention SegAttnGAN,我们定义self-attention Generator——Gs。将Gs代换s得到相应的G loss和D loss。
在这里插入图片描述

实现细节

generator分别输出64x64, 128x128, 256x256的图片。
首先,我们处理segmentation mask,将其转化为label maps(每个channel包含不同的物体),然后在generator的每个上采样层,我们下采样segmentation label map到和当前hidden features相同的分辨率。然后我们使用attention module。
文本和图片encoder的实现方法同AttnGAN。
对于self-attention SegAttnGAN,不输入单词特征。
文本特征维度256.
loss权重λ=5.0
Adam optimizer的β1=0.5,learning rate=0.0002。

实验

使用CUB和Oxford-102。
Oxford-102是包含花的图片的数据集,我们使用6141图片训练,2047图片测试。
我们使用Inception Score和R-precision评估。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值