【CVPR2019】Object-driven Text-to-Image Synthesis via Adversarial Training论文阅读
本人的话:思路可以借鉴,效果不太好
提出了可以捕捉word/object-level information的Obj-GAN( Object-driven Attentive Generative Adversarial Networks):
- 将文本描述和预生成的semantic layout作为image generator的输入。在每一层,generator关注与边框里的物体最相关的单词来合成图片区域。
- 使用object-driven attention layer,它使用类标签来查询句子里的单词,形成单词上下文向量。
- object-wise discriminator检查每个边框确保生成的物体与semantic layout匹配。基于Fast R-CNN。
Object-driven Attentive GAN
如下图所示,Obj-GAN的生成过程包含生成semantic layout(类标签、边框、显著目标的形状)和生成图片两步。
输入:含Ts个token的句子。通过预训练的双向LSTM,我们将其编码为单词向量e∈RDxTs,以及全局句子向量e’∈RD