【论文阅读】AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Network

论文链接::https://arxiv.org/pdf/1711.10485.pdf.
代码链接:https://github.com/taoxugit/AttnGAN.

一、摘要

  • 文章要做的事情(Text to Image Synthesis):
    输入:text      输出:image

  • 作者提出了一个 Attentional Generative Ad-versarial Network(AttnGAN),
    一种attention-driven的多级的细粒度文本到图像生成器

  • 并借助一个深层注意多模态相似模型(deep attentional multimodal similarity model)来训练该生成器。

  • 它首次表明 the layered attentional GAN 能够自动选择单词级别的condition来生成图像的不同部分。

二、AttnGAN框架

在这里插入图片描述
StackGAN++框架
在这里插入图片描述

三、第1部分:多stage图像细化(AttnGAN)

多stage的图片生成流程:

• 输入的文本通过一个Text Encoder 得到 sentence feature 和word features
• 用sentence feature 生成一个低分辨率的图像
• 基于低分辨率图像 加入 word features 和setence feature 生成更高分辨率细粒度的图像

生成流程——第一步:

在这里插入图片描述
像大多数其他文本到图像转换器一样,AttnGAN从(随机噪音 + 说明文字的单词嵌套(captain‘s token-embeddings)总和)生成图像开始:
x(0) = G(0)(h(0))
得到一个低分辨率图像在这里插入图片描述

由“句子”矢量(上面的E)生成图像的问题是,我们丢失了很多隐藏在单词里的细节。
例如,看上面的例子:当你把(绿色+皇冠+白色+肚子)结合成一个“字组”时,你很难了解皇冠和肚皮的实际颜色 - 因此生成的图像着色模糊。
为了解决这个问题,AttnGAN在每个阶段都使用Attention&GAN的组合,为图像迭代添加细节

生成流程——第 i 步(i>=2):

在这里插入图片描述在这里插入图片描述
h(1)最关注的单词:
鸟,这,有,腹部,白色
在这里插入图片描述在这里插入图片描述
h(2)最关注的单词:
黑色,绿色,白色,这个,鸟

四、第2部分:多模损失(Multi-modal loss)

在这里插入图片描述

五、数据集

在这里插入图片描述在这里插入图片描述

六、论文中的结果图

在这里插入图片描述在这里插入图片描述

七、其他有趣的

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述安利一下这个网站,很有意思,https://cvalenzuelab.com/
在这里插入图片描述在这里插入图片描述

发布了14 篇原创文章 · 获赞 0 · 访问量 260
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览