MirrorGAN论文阅读笔记文本生成图片 Text-To-Image

最新推荐文章于 2024-04-11 17:29:56 发布

biu piu biu piu

最新推荐文章于 2024-04-11 17:29:56 发布

阅读量3.2k

点赞数

分类专栏：人工智能文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MISS_XDY/article/details/123223974

版权

原先的文本生成图片问题是输入文本，训练生成器和判别器，生成相对应的图片。MirrorGAN借鉴了CycleGAN的思想，在此基础上增加了一个判别过程，即将生成的图片再转化成文本描述，如果图片生成的是对的，那么再次转化后的文本描述应该与输入的文本有着相同的语义。

先放一张结构图：

MirrorGAN由三部分构成：STEM、CLAM、STREAM。

STEM：a semantic text embedding module 语义文本嵌入模块，生成单词级和句子级的文本嵌入

GLAM：a global-local collaborative attentive module for cascaded image generation 用于级联图像生成的全局-局部协作关注模块，生成由粗到细的尺度的目标图像，利用局部单词注意力和全局句子注意，增强图像的多样性和语义的一致性

STREAM：a semantic text regeneration and alignment module 语义文本再生和对齐模块，对生成的图片重新进行文本描述

StackGAN、AttnGAN、GAN-INT-CLS都使用一个判别器来区分生成的图像和对应的文本对

MirrorGAN使用两个对抗损失：图像视觉对抗损失、文本-图像对语义一致性对抗损失

分阶段介绍：

STEM：用RNN从文本描述T中提取语义嵌入，分别提取词嵌入w和句嵌入s

其中，

最低0.47元/天解锁文章

biu piu biu piu

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
MirrorGAN论文阅读笔记文本生成图片 Text-To-Image

原先的文本生成图片问题是输入文本，训练生成器和判别器，生成相对应的图片。MirrorGAN借鉴了CycleGAN的思想，在此基础上增加了一个判别过程，即将生成的图片再转化成文本描述，如果图片生成的是对的，那么再次转化后的文本描述应该与输入的文本有着相同的语义。先放一张结构图：MirrorGAN由三部分构成：STEM、CLAM、STREAM。STEM：a semantic text embedding module 语义文本嵌入模块，生成单词级和句子级的文本嵌入GLAM：a globa..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。