《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription

沐花月

已于 2023-10-17 18:46:37 修改

阅读量166

点赞数

文章标签：学习论文阅读自然语言处理

于 2023-10-06 17:05:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61054964/article/details/133613149

版权

Learning Text-to-image Generation by Redescription （通过重新描述学习文本到图像的生成）

摘要

从给定的文本描述生成图像有两个目标:视觉真实感和语义一致性。在本文中，我们提出MirrorGAN。MirrorGAN利用了通过重新描述学习文本到图像生成的思想，由三个模块组成:语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块(STREAM)。

STEM：生成词级和句子级嵌入。

GLAM：利用局部词注意和全局句子注意，逐步增强生成图像的多样性和语义一致性。

STREAM：从生成的图像中重新生成文本描述，该图像在语义上与给定的文本描述保持一致。

1 介绍

本文贡献：

1.提出MirrorGAN：用于用于T2I和I2T一起建模的GAN。

2.提一个全局-局部协作关注模型，该模型无缝嵌入到级联生成器中，以保持跨域语义一致性并平滑生成过程。

3.除了视觉真实感对抗性损失:用于区分图像在视觉上是真实的还是虚假的
文本图像配对语义一致性对抗性损失:确定底层图像和句子语义是否一致。

还提出基于ce的文本语义损失：给定的文本描述之间的底层语义保持一致。

2 相关工作

1.CycleGAN：我们专门解决T2I问题，而不是图像到图像的翻译。文本和图像之间的跨媒体领域差距可能比具有不同属性的图像之间的差距要大得多；MirrorGAN采用镜像结构，而不是CycleGAN的循环结构。

3 MirrorGAN用于文本到图像的生成

3.1. STEM: Semantic Text Embedding Module（语义文本嵌入模块）

通过RNN从给定的文本描述T中提取词嵌入w和句子嵌入s

为了减少语义相似性，使用Fca得到增强的句子嵌入

3.2. GLAM: Global-Local collaborative Attentive Module in Cascaded Image Generators（在级联图像生成中的全局-局部协同关注模块）

首先通过感知层Ui−1将嵌入词w转换为视觉特征的底层公共语义空间为Ui−1w。然后乘以用视觉特征fi−1得到注意力得分。最后，通过计算注意分数与Ui−1w的内积得到注意词-上下文特征

增强的句子向量sca首先通过感知层Vi−1转换为视觉特征的底层公共语义空间Vi−1sca。然后，将其与视觉特征fi−1进行逐元素相乘，得到注意力得分。最后，通过计算注意分数和Vi−1sca的逐元素乘法得到注意句子-上下文特征

fi：每个阶段的视觉特征

Ii：生成的图像

Sca代表增强的句子嵌入

z代表随机噪声

F0，F1...Fm-1代表m个视觉特征transformer；G0，G1，...Gm-1代表图像生成器

Fatti代表全局-局部协同注意模块，包含Attwi−1和Attwi−1两个部分

3.3 STREAM: Semantic Text REgeneration and Alignment Module（语义文本再生和对齐模块）

图像编码器是在ImageNet上预训练的卷积神经网络(CNN)[11][5]，解码器是RNN[12]

、

将Im-1输入到CNN编码器，得到x-1

We:表示一个词嵌入矩阵，它将词的特征映射到视觉特征空间。

x-1：是一种视觉特征，在开始时用作输入，告知RNN图像内容。

Pt+1:是单词的预测概率分布。

3.4 目标函数

视觉真实感对抗性损失:用于区分图像在视觉上是真实的还是虚假的
文本图像配对语义一致性对抗性损失:确定底层图像和句子语义是否一致。

基于ce的文本语义重建损失：给定的文本描述之间的底层语义保持一致。

4 实验

消融实验

5 结论

MirrorGAN成功地利用了通过重新描述学习文本到图像生成的思想。STEM生成词级和句子级嵌入。GLAM采用从粗到细的级联架构生成目标图像，利用局部词注意和全局句子注意，逐步增强生成图像的多样性和语义一致性。STREAM通过从生成的图像重新生成文本描述来进一步监督生成器，该图像在语义上与给定的文本描述保持一致。我们展示了MirrorGAN在两个基准数据集上实现了新的最先进的性能。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription

从给定的文本描述生成图像有两个目标:视觉真实感和语义一致性。在本文中，我们提出MirrorGAN。MirrorGAN利用了通过重新描述学习文本到图像生成语义文本嵌入模块(STEM)、用于级联图像生成的全局-局部协作关注模块(GLAM)和语义文本再生和对齐模块(STREAM)。STEM：生成词级和句子级嵌入。GLAM：利用局部词注意和全局句子注意，逐步增强生成图像的多样性和语义一致性。STREAM：从生成的图像中重新生成文本描述，该图像在语义上与给定的文本描述保持一致。本文贡献：1.提出MirrorGAN。
复制链接

扫一扫

沐花月 CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

140万+: 周排名

25万+: 总排名

3136: 访问

: 等级

203: 积分

4: 粉丝

11: 获赞

11: 评论

12: 收藏

私信

关注

热门文章

分类专栏

nlp论文阅读 4篇

最新评论

《读论文系列 GPT》Improving Language Understandingby Generative Pre-Training（使用通用的预训练来提升语言的理解力）
CSDN-Ada助手: 恭喜您连续发布第四篇博客！标题《读论文系列 GPT》非常吸引人，探讨了如何通过使用通用的预训练来提升语言的理解力。这个话题非常有趣且具有实际应用价值。您在博客中对GPT的介绍和讨论非常详细，让读者更好地了解了这一概念。在下一步的创作中，我建议您可以进一步探索GPT的应用场景，或者与其他相关技术进行比较，以便读者能够更全面地了解其优缺点。此外，您也可以考虑结合实际案例或者个人经验分享，使得博客更加生动和具体。再次恭喜您的持续创作，期待您的下一篇博客！请保持谦虚的态度，继续努力，我们期待看到更多精彩的内容。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《读论文系列文本生成图像再生成文本，计算语义一致性 MirrorGAN 》Learning Text-to-image Generation by Redescription
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题《读论文系列 MirrorGAN》非常吸引人，能够引起读者对学习文本到图像生成的兴趣。您在博客中提到了通过重新描述学习的方法，这是一个非常有趣的研究方向。不仅如此，您还能够将复杂的研究内容以简明易懂的方式呈现给读者，这是一个很高的技巧。持续创作博客是一项令人钦佩的努力，您已经展现了您的热情和才华。为了进一步丰富您的创作内容，我建议您可以考虑加入更多的实例和案例分析，以便读者能够更好地理解和应用您所介绍的方法。同时，您还可以尝试将不同的模型进行对比，并提供一些具体的评估指标，以便读者能够更好地了解各种方法的优劣势。再次恭喜您的努力和成果！期待您未来更多精彩的博客创作。
《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《读论文系列 SSA-GAN》Text to Image Generation with Semantic-Spatial Aware GAN》非常引人注目。您对于语义空间感知生成对抗网络（SSA-GAN）的解读令人印象深刻。这篇博客不仅提供了有关该主题的深入见解，还为读者提供了一个了解文本到图像生成的有趣途径。您的持续创作令人鼓舞，我期待着您的下一步作品。鉴于您对论文的深入理解和解读能力，我建议您可以考虑分享更多关于GAN应用的实例或者探索该领域中的挑战和前沿技术。这将进一步丰富读者对于图像生成领域的认识，并为他们带来新的启发。期待您的下一篇博客！谢谢您的辛勤努力。
《读论文系列文本+草图进行图文搜索 TASK-former》 A Sketch Is Worth a （文本+草图进行图文搜索）
努力搬砖的猴: 能复现吗？
《tensorflow 学习》
CSDN-Ada助手: 恭喜您写完了第16篇博客《tensorflow 学习》！您的持续创作精神令人钦佩。从您的博客标题来看，我猜测您已经对TensorFlow有一定的了解了。接下来，我希望您能够深入探索TensorFlow的更多应用领域，比如深度学习模型的训练与优化、图像识别、自然语言处理等等。当然，这只是一个建议，您可以根据自己的兴趣和需求进行选择。期待您的下一篇博客，谦虚的态度将会让您的创作更加出色！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。