《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN

摘要

问题:即使生成的图像整体上与描述相匹配,单个图像区域或某些部分往往无法识别或与句子中的单词一致。

解决:框架语义空间感知GAN从输入文本合成图像(SSA-GAN),我们引入了一个简单有效的语义空间感知块SSA

(1)学习以文本为条件的语义自适应转换,以有效融合文本特征和图像特征;

(2)以依赖于当前文本图像融合过程的弱监督方式学习语义掩码,以指导空间转换。

1 介绍

本文贡献点:

1.一种新的单阶段框架SSA-GAN,用于从文本合成图像。计算量更少,训练效率更高,更稳定。

2.只使用句子嵌入。方法简单,计算成本更低。

3.引入一种新的SSA块,通过预测语义掩码,有效深度融合文本和图像特征,指导学习后的像素级文本自适应仿射变换。

4.语义掩码预测器以弱监督的方式进行训练,因此不需要额外的注释,并且该块有可能应用于其他T2I数据集

2 相关工作

AttnGAN:利用跨模态注意,在每个细化阶段为图像子区域重复选择文本中的重要词,进行文本-图像融合,以捕获更好的细节。

ControlGAN:进一步将文本和图像信息与单词级空间和通道级注意力驱动生成器融合,在生成过程中生成与最相关单词对应的子区域特征。

DM-GAN:利用记忆网络自适应选择重要的词,迭代细化图像特征

SD-GAN:引入词级条件批处理归一化(CBN)来更好地对齐文本和图像

3 方法

SSA-GAN包括一个文本编码器(text encoder),一个生成器(generater),一个鉴别器(discriminator)。

首先由一个随机整体噪声输入,经过FC层和一次Reshape后,加上句子特征,连接七个SSACN层,生成图片后输入鉴别器进行鉴别。

3.1 文本编码器

一个双向LSTM,通过最小化深度注意多模态相似模型(DAMSM)损失,使用真实图像-文本对进行预训练。

3.2 SSACN

每个SSACN块包括一个上采样块,一个掩码预测器,一个语义空间条件批量规范化(SSCBN)和一个残差块

3.2.1上采样块

上采样块使用双线性插值将图像特征的宽度和高度加倍。

3.2.2掩码预测器

3.2.3 语义条件批量规范化(SCBN)

BN首先将x标准化为每个特征通道的零平均值和单位偏差:

其就是将参数换成了一个函数,CBN能学习自适应于仿射变换给定条件的调制参数γ和β。

3.2.4 语义空间条件批量规范化

不添加更多的空间信息,则上一步的SCBN将在图像特征图上均匀地工作。

3.3鉴别器

通过两个卷积层将从生成的图像中提取的特征与文本向量连接起来计算对抗损失。

3.4损失函数

4 实验

不同先进方法的IS, FID和R-precision分数的性能,以及我们的方法在CUB和COCO测试集上的性能。

比较了我们的方法和最近三种最先进的T2I GAN模型生成的图像,即DM-GAN [39], DF-GAN[28]和DAE[24]。

消融实验

提出的SSA块和附加的DAMSM对网络性能的影响

5 结论

1.提出了一种新的语义空间感知GAN (SSA-GAN)框架。

它有一个生成器-鉴别器对,并以端到端方式进行训练。

2.核心模块是语义空间感知(SSA)模块,该模块基于当前生成的图像特征预测语义掩码,并从编码的文本向量中学习仿射参数,实现语义空间条件批处理归一化。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值