《读论文系列 文本生成图像 再生成文本,计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription

Learning Text-to-image Generation by Redescription (通过重新描述学习文本到图像的生成)

摘要

从给定的文本描述生成图像有两个目标:视觉真实感和语义一致性。在本文中,我们提出MirrorGAN。MirrorGAN利用了通过重新描述学习文本到图像生成的思想,由三个模块组成:语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块(STREAM)

STEM:生成词级和句子级嵌入。

GLAM:利用局部词注意和全局句子注意,逐步增强生成图像的多样性和语义一致性。

STREAM:从生成的图像中重新生成文本描述,该图像在语义上与给定的文本描述保持一致。

1 介绍

本文贡献:

1.提出MirrorGAN:用于用于T2I和I2T一起建模的GAN。

2.提一个全局-局部协作关注模型,该模型无缝嵌入到级联生成器中,以保持跨域语义一致性并平滑生成过程。

3.除了视觉真实感对抗性损失:用于区分图像在视觉上是真实的还是虚假的
文本图像配对语义一致性对抗性损失:确定底层图像和句子语义是否一致。

还提出基于ce的文本语义损失:给定的文本描述之间的底层语义保持一致。

2 相关工作

1.CycleGAN:我们专门解决T2I问题,而不是图像到图像的翻译。文本和图像之间的跨媒体领域差距可能比具有不同属性的图像之间的差距要大得多;MirrorGAN采用镜像结构,而不是CycleGAN的循环结构。

3 MirrorGAN用于文本到图像的生成

3.1. STEM: Semantic Text Embedding Module(语义文本嵌入模块)

通过RNN从给定的文本描述T中提取词嵌入w和句子嵌入s

为了减少语义相似性,使用Fca得到增强的句子嵌入

3.2. GLAM: Global-Local collaborative Attentive Module in Cascaded Image Generators(在级联图像生成中的全局-局部协同关注模块)

首先通过感知层Ui−1将嵌入词w转换为视觉特征的底层公共语义空间为Ui−1w。然后乘以用视觉特征fi−1得到注意力得分。最后,通过计算注意分数与Ui−1w的内积得到注意词-上下文特征

增强的句子向量sca首先通过感知层Vi−1转换为视觉特征的底层公共语义空间Vi−1sca。然后,将其与视觉特征fi−1进行逐元素相乘,得到注意力得分。最后,通过计算注意分数和Vi−1sca的逐元素乘法得到注意句子-上下文特征

fi:每个阶段的视觉特征

Ii:生成的图像

Sca代表增强的句子嵌入

z代表随机噪声

F0,F1...Fm-1代表m个视觉特征transformer;G0,G1,...Gm-1代表图像生成器

Fatti代表全局-局部协同注意模块,包含Attwi−1和Attwi−1两个部分

3.3 STREAM: Semantic Text REgeneration and Alignment Module(语义文本再生和对齐模块)

图像编码器是在ImageNet上预训练的卷积神经网络(CNN)[11][5],解码器是RNN[12]

将Im-1输入到CNN编码器,得到x-1

We:表示一个词嵌入矩阵,它将词的特征映射到视觉特征空间。

x-1:是一种视觉特征,在开始时用作输入,告知RNN图像内容。

Pt+1:是单词的预测概率分布。

3.4 目标函数

视觉真实感对抗性损失:用于区分图像在视觉上是真实的还是虚假的
文本图像配对语义一致性对抗性损失:确定底层图像和句子语义是否一致。

基于ce的文本语义重建损失:给定的文本描述之间的底层语义保持一致。

4 实验

消融实验

5 结论

MirrorGAN成功地利用了通过重新描述学习文本到图像生成的思想。STEM生成词级和句子级嵌入。GLAM采用从粗到细的级联架构生成目标图像,利用局部词注意和全局句子注意,逐步增强生成图像的多样性和语义一致性。STREAM通过从生成的图像重新生成文本描述来进一步监督生成器,该图像在语义上与给定的文本描述保持一致。我们展示了MirrorGAN在两个基准数据集上实现了新的最先进的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值