T2I论文阅读2019 MirrorGAN

芋圆526

于 2021-03-25 16:32:01 发布

阅读量475

点赞数

分类专栏：论文阅读文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26136211/article/details/115207053

版权

MirrorGAN是一种文本到图像生成模型，它采用镜像结构，包括STEM，GLAM和STREAM三个模块。STEM负责语义文本嵌入，GLAM使用全局和局部注意力生成图像，而STREAM则实现从生成图像再生成文本。该模型使用对抗损失和基于交叉熵的文本语义重建损失进行端到端训练，旨在提高生成图像的多样性和语义一致性。

摘要由CSDN通过智能技术生成

MirrorGAN: Learning Text-to-image Generation by Redescription论文阅读笔记

本人的话：今天能看到演唱会彩排了哈哈哈哈好激动。MirrorGAN的效果比起DM-GAN差上不少，不过有不少可供改进的地方，比如STREAM使用的I2T结构可以换成更先进的。

介绍

T2I可以看做Image Caption（或I2T）的逆向。我们的MirrorGAN便是利用了这种镜像结构，它包含3个模块：STEM，GLAM，STREAM。
STEM生成word-level和sentence-level的embeddings，然后传给GLAM。
GLAM是一个级联结构，从coarse-to-fine生成图片。包含一个局部单词attention和全局句子attention，以此提高生成图片多样性和语义一致性。
STREAM从生成的图片再生文本。
为了端对端地训练，我们使用了两个对抗损失：visual realism 对抗损失。text-image paired semantic consistency对抗损失。
为了利用T2I和I2T的双向调节作用，我们使用了一个基于croo-entropy(CE)的text-semantics reconstruction损失。
在这里插入图片描述

相关工作

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
T2I论文阅读2019 MirrorGAN

MirrorGAN: Learning Text-to-image Generation by Redescription论文阅读笔记本人的话：今天能看到演唱会彩排了哈哈哈哈好激动。MirrorGAN的效果比起DM-GAN差上不少，不过有不少可供改进的地方，比如STREAM使用的I2T结构可以换成更先进的。介绍T2I可以看做Image Caption（或I2T）的逆向。我们的MirrorGAN便是利用了这种镜像结构，它包含3个模块：STEM，GLAM，STREAM。STEM生成word-level和
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。