【论文阅读】AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Network

论文链接::https://arxiv.org/pdf/1711.10485.pdf.
代码链接:https://github.com/taoxugit/AttnGAN.

一、摘要

  • 文章要做的事情(Text to Image Synthesis):
    输入:text      输出:image

  • 作者提出了一个 Attentional Generative Ad-versarial Network(AttnGAN),
    一种attention-driven的多级的细粒度文本到图像生成器

  • 并借助一个深层注意多模态相似模型(deep attentional multimodal similarity model)来训练该生成器。

  • 它首次表明 the layered attentional GAN 能够自动选择单词级别的condition来生成图像的不同部分。

二、AttnGAN框架

在这里插入图片描述
StackGAN++框架
在这里插入图片描述

三、第1部分:多stage图像细化(AttnGAN)

多stage的图片生成流程:

• 输入的文本通过一个Text Encoder 得到 sentence feature 和word features
• 用sentence feature 生成一个低分辨率的图像
• 基于低分辨率图像 加入 word features 和setence feature 生成更高分辨率细粒度的图像

生成流程——第一步:

在这里插入图片描述
像大多数其他文本到图像转换器一样,AttnGAN从(随机噪音 + 说明文字的单词嵌套(captain‘s token-embeddings)总和)生成图像开始:
x(0) = G(0)(h(0))
得到一个低分辨率图像在这里插入图片描述

由“句子”矢量(上面的E)生成图像的问题是,我们丢失了很多隐藏在单词里的细节。
例如,看上面的例子:当你把(绿色+皇冠+白色+肚子)结合成一个“字组”时,你很难了解皇冠和肚皮的实际颜色 - 因此生成的图像着色模糊。
为了解决这个问题,AttnGAN在每个阶段都使用Attention&GAN的组合,为图像迭代添加细节

生成流程——第 i 步(i>=2):

在这里插入图片描述在这里插入图片描述
h(1)最关注的单词:
鸟,这,有,腹部,白色
在这里插入图片描述在这里插入图片描述
h(2)最关注的单词:
黑色,绿色,白色,这个,鸟

四、第2部分:多模损失(Multi-modal loss)

在这里插入图片描述

五、数据集

在这里插入图片描述在这里插入图片描述

六、论文中的结果图

在这里插入图片描述在这里插入图片描述

七、其他有趣的

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述安利一下这个网站,很有意思,https://cvalenzuelab.com/
在这里插入图片描述在这里插入图片描述

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值