text2image相比单一的图像生成任务来说,其目标不仅是生成与目标分布一致的图像,而且还要使得生成的图像符合输入描述,也就是说相比单纯的图像生成任务来说,text2image是一个可以通过输入控制输出的任务。本文建立在大家已经对这个领域有了充分了解的基础上介绍最近一篇基于GAN的生成方法CPGAN,这篇论文采用全阶段解析的方式生成符合文本描述的图像,其基本架构如下:
其中的全阶段解析包含三个方面:
1. Memory-Attended Text Encoder
在文本编码阶段采用记忆结构去挖掘训练样本中词与各种不同视觉上下文之间的对应关系,使用该记忆模块的原因是:(1)a word in the vocabulary may have multiple visual context information (2)a word may correspond to more than one relevant images in training data; 使用该模块后,(1) extract precises emantic features from the most salient region of relevant images for each word; (2) capture full sema