T2I论文阅读2019 MirrorGAN

MirrorGAN是一种文本到图像生成模型,它采用镜像结构,包括STEM,GLAM和STREAM三个模块。STEM负责语义文本嵌入,GLAM使用全局和局部注意力生成图像,而STREAM则实现从生成图像再生成文本。该模型使用对抗损失和基于交叉熵的文本语义重建损失进行端到端训练,旨在提高生成图像的多样性和语义一致性。
摘要由CSDN通过智能技术生成

MirrorGAN: Learning Text-to-image Generation by Redescription论文阅读笔记

本人的话:今天能看到演唱会彩排了哈哈哈哈好激动。MirrorGAN的效果比起DM-GAN差上不少,不过有不少可供改进的地方,比如STREAM使用的I2T结构可以换成更先进的。

介绍

T2I可以看做Image Caption(或I2T)的逆向。我们的MirrorGAN便是利用了这种镜像结构,它包含3个模块:STEM,GLAM,STREAM。
STEM生成word-level和sentence-level的embeddings,然后传给GLAM。
GLAM是一个级联结构,从coarse-to-fine生成图片。包含一个局部单词attention和全局句子attention,以此提高生成图片多样性和语义一致性。
STREAM从生成的图片再生文本。
为了端对端地训练,我们使用了两个对抗损失:visual realism 对抗损失。text-image paired semantic consistency对抗损失。
为了利用T2I和I2T的双向调节作用,我们使用了一个基于croo-entropy(CE)的text-semantics reconstruction损失。
在这里插入图片描述

相关工作

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值