CPGAN: Full-Spectrum Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis

最新推荐文章于 2024-07-09 10:22:46 发布

chaozhd

最新推荐文章于 2024-07-09 10:22:46 发布

阅读量1k

点赞数

分类专栏： text2image 文章标签：计算机视觉图像识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Q774934440/article/details/105179532

版权

text2image相比单一的图像生成任务来说，其目标不仅是生成与目标分布一致的图像，而且还要使得生成的图像符合输入描述，也就是说相比单纯的图像生成任务来说，text2image是一个可以通过输入控制输出的任务。本文建立在大家已经对这个领域有了充分了解的基础上介绍最近一篇基于GAN的生成方法CPGAN，这篇论文采用全阶段解析的方式生成符合文本描述的图像，其基本架构如下：

其中的全阶段解析包含三个方面：

1. Memory-Attended Text Encoder

在文本编码阶段采用记忆结构去挖掘训练样本中词与各种不同视觉上下文之间的对应关系，使用该记忆模块的原因是：（1）a word in the vocabulary may have multiple visual context information （2）a word may correspond to more than one relevant images in training data；使用该模块后，（1) extract precises emantic features from the most salient region of relevant images for each word; （2) capture full sema

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。