【论文阅读】AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Network

最新推荐文章于 2025-02-04 12:43:03 发布

小西几y

最新推荐文章于 2025-02-04 12:43:03 发布

阅读量1.8k

点赞数

分类专栏：论文阅读文章标签： AttnGAN GAN text to image 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41748260/article/details/103132247

版权

论文阅读专栏收录该内容

1 篇文章

订阅专栏

论文链接:：https://arxiv.org/pdf/1711.10485.pdf.
代码链接：https://github.com/taoxugit/AttnGAN.

一、摘要

文章要做的事情（Text to Image Synthesis）：
输入：text 　　　　　输出：image
作者提出了一个 Attentional Generative Ad-versarial Network(AttnGAN),
一种attention-driven的多级的细粒度文本到图像生成器
并借助一个深层注意多模态相似模型(deep attentional multimodal similarity model)来训练该生成器。
它首次表明 the layered attentional GAN 能够自动选择单词级别的condition来生成图像的不同部分。

二、AttnGAN框架

在这里插入图片描述
StackGAN++框架

三、第1部分：多stage图像细化（AttnGAN）

多stage的图片生成流程：

• 输入的文本通过一个Text Encoder 得到 sentence feature 和word features
• 用sentence feature 生成一个低分辨率的图像
• 基于低分辨率图像加入 word features 和setence feature 生成更高分辨率细粒度的图像

生成流程——第一步：

在这里插入图片描述
像大多数其他文本到图像转换器一样，AttnGAN从（随机噪音 + 说明文字的单词嵌套（captain‘s token-embeddings）总和）生成图像开始：
x(0) = G(0)(h(0))
得到一个低分辨率图像

由“句子”矢量（上面的E）生成图像的问题是，我们丢失了很多隐藏在单词里的细节。
例如，看上面的例子：当你把（绿色+皇冠+白色+肚子）结合成一个“字组”时，你很难了解皇冠和肚皮的实际颜色 - 因此生成的图像着色模糊。
为了解决这个问题，AttnGAN在每个阶段都使用Attention＆GAN的组合，为图像迭代添加细节

生成流程——第 i 步（i>=2）：

在这里插入图片描述
h(1)最关注的单词：
鸟，这，有，腹部，白色

h(2)最关注的单词：
黑色，绿色，白色，这个，鸟

四、第2部分：多模损失(Multi-modal loss)

在这里插入图片描述

五、数据集

在这里插入图片描述

六、论文中的结果图

在这里插入图片描述

七、其他有趣的

在这里插入图片描述安利一下这个网站，很有意思，https://cvalenzuelab.com/

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。