1 研究目的
现有基于生成对抗网络(GANs)的文本到图像生成模型存在的两个主要局限性:
(1)整体批量归一化方法在整个图像特征图上平等应用,忽略了局部语义。
(2)文本编码器在训练过程中保持固定
为了解决这些局限性,作者提出了一种名为语义空间感知GAN(SSA-GAN)的新框架,该框架采用端到端的方式训练,使得文本编码器能够获取更好的文本信息。具体来说,作者引入了一种新颖的语义空间感知卷积网络(SSACN),具有以下功能:
<(1)根据文本学习语义自适应变换以有效融合文本特征和图像特征
(2)以弱监督方式学习一个掩码图,依赖于当前的文本-图像融合过程以指导变换空间。