摘要
最近的研究表明了两个领域内图像到图像转换取得了显著的成功。然而,现有的方法处理两个以上的领域时在可伸缩性和鲁棒性上有局限,因为每对图像域都要构建不同的模型。为了解决这个局限,我们推出starGAN,一种新颖的、可扩展的方法,它可以仅使用一个模型对多个域执行图像到图像的转换。StarGAN的这种统一模型架构可以仅在一个网络中国训练多个数据集的多个领域。这使starGAN与现有模型相比,转换图片的质量更高,拥有灵活地将输入图像转换到任何目标域的新能力。我们的实验证明了我们的方法在面部特征转移和面部表情合成上的有效性。
1.介绍 Introduction
图像到图像转换的任务是改变图像上特定的部分,使给定的图像变成另一张图像,比如改变一个人的面部表情使他从微笑到皱眉(Fig.1),在引入生成性对抗网络(GANs)之后,这项任务经历了显著的改进,其结果包括改变头发颜色、从边缘地图重建照片和改变风景图片的季节。
给定来自两个不同域的训练数据,这些模型学习将图像从一个域转换到另一个域。我们定义attribute表示图片特征,例如头发颜色、性别或年龄,定义attribute value表示为属性的特定值,例如,黑色/金色/棕色表示头发颜色,或男性/女性表示性别。定义domain为一系列共享了某个属性的图片,如女性图片和男性图片分属不同的domain。
一些图像数据集包含许多标记属性。例如,CelebA数据集包含40个与面部属性相关的标签,如头发颜色、性别和年龄,RaFD数据集有8个面部表情标签,如“高兴”、“生气”和“悲伤”。这些设置使我们能够执行更有趣的任务,即多域图像到图像的转换,根据来自多个域的属性更改图像。图1的前五列展示了CelebA图像如何通过‘棕发’、‘性别’、‘年龄’‘白色皮肤’任意四个域之一进行转化的。我们可以更进一步地从多个数据集训练多个领域,例如,联合训练CelebA和RaFD图像,使用在RaFD上训练获得的特征来改变CelebA图像的面部表情,如图1的最右边的几栏。
然而,现有的各种模型在多领域图像转化问题上效率很低,现有的GAN模型效率低是因为为了实现在k个不同的风格域上进行迁移,需要构建k*(k-1)个生成器,图2说明了如何训练12个不同的生成器网络在4个不同的域之间转换图像。同时,尽管存在如人脸形状这样可以可以从所有领域的图像中学习到的全局特征,每个生成器也不能充分利用训练数据,只能从k中选2个学习,这是生成网络的效率很低。未能充分利用训练数据可能会限制生成图像的质量。此外,他们不能训练来自数据集的域,因为每个数据集都有部分标记,将在3.2节进一步讨论。
为了解决这一问题,我们提出starGAN,一种可以在多个域之间映射的生成对抗网络。如图2(b)所示,我们的模型仅用一个生成器训练多个领域,学习所有获得领域间的映射。这个思想很简单,我们的模型没有学习固定的转换(例如,从黑色到金色的头发),而是同时输入图像和域信息,并学习将输入的图像灵活地转换到相应的域中。我们使用一个标签(例如二进制或one-hot向量)来表示域信息, 在训练期间,随机生成一个目标域标签,并训练模型将输入图像灵活地转换到目标域。这样,我们可以控制域标签,并在测试阶段将图像转换到任何所需的域。
我们还介绍一种简单有效的方法,通过在域标签中添加mask vector来实现不同数据集的域之间的联合训练。我们提出的方法确保模型可以忽略位置标签关注特殊数据集提供的标签。用这种方法,我们的模型可以很好地执行任务,例如使用从RaFD学习的特征合成CelebA图像的面部表情,如图1最右边的列所示。直到目前我们所知的中,我们的工作是第一个成功实现跨不同数据集执行多域图像转换的。
总的来说,我们的贡献如下:
- 我们提出StarGAN,一种新颖的生成对抗网络,能够只用一个生成器和判别器学习多领域图像之间的映射。
- 我们证明了利用mask vector的方法我们成功的在不同的数据集上学习多领域图像的转换,这也使得我们提出的StarGAN能够控制各领域的标签。
- 我们使用StarGAN在人脸属性转换和人脸表情分析任务中提供了定量和定性的结果,展示了本模型相对于其他模型的优越性。
2.相关工作Related Work
Generative Adversarial Networks.生成对抗网络(GANs)在各种计算机视觉领域都显示出显著的效果,如图像生成、图像转换、超分辨率成像、面部图像合成。一个传统的GAN模型包含