题目:Segattingan:关注分割的文本到图像生成
时间:2020.5
作者:苟玉川,吴千城,李明浩,龚柏,韩梅
被 CVPR 2020 的 AI 内容创作研讨会录取
Abstract
在本文中,我们提出了一种新的生成网络(SegAttnGAN),它利用额外的分割信息来完成文本到图像的合成任务。由于引入到模型中的分割数据为生成器训练提供了有用的指导,因此与以往的先进方法相比,该模型可以生成更逼真的图像,并具有更高的量化度量。我们在CUB数据集和Oxford-102数据集上的初始得分分别为4.84和3.52。此外,我们还测试了self-attenting SegAttnGAN,它使用生成的分割数据而不是来自数据集的masks来进行注意,并获得了类似的高质量结果,这表明我们的模型可以适用于文本到图像的合成任务。
1.Introduction
- 研究现状:基于语义描述生成高保真、逼真的图像是许多应用程序的核心任务。很多研究都集中在文本到图像合成任务上,该任务采用自然语言描述生成与文本匹配的图像。该任务的许多模型使用生成性对抗网络(GAN),以文本输入为条件,而不是高斯噪声来生成图像。
- 现有模型存在的问题:尽管像这样的模型在保持图像文本一致性的同时实现了令人满意的视觉质量,但除了唯一约束对象形状的特定关键字外,对生成图像的布局几乎没有控制。这些模型通常会生成形状变形的对象或布局不切实际的图像(见图1和图3)。
- 最近的工作表明,当分割数据的空间注意力用于指导图像生成时,图像合成任务可以获得良好的结果。为了解决变形的形状和不切实际的布局问题,我们设计了SegAttnGAN,它利用分割来增加文本输入之外的全局空间注意力。我们希望空间信息能够调整生成图像的布局,从而创建更逼真的图像。实验表明,当使用额外的分割信息来指导图像生成时,将获得令人满意的结果。
- 本文的贡献总结如下:
(1)我们提出了一种新的生成网络,它利用文本和空间注意来生成真实的图像。
(2)我们验证了在GAN中加入空间注意机制可以通过调节物体形状和图像布局显著提高视觉真实感。
(3)我们构建了一个自注意网络,首先生成分割masks,然后使用它生成图像。基于定性结果,自注意模型也能很好地