风格迁移篇--StarGAN v2：多域多样图像合成

最新推荐文章于 2025-03-31 10:23:40 发布

啊菜来了

最新推荐文章于 2025-03-31 10:23:40 发布

阅读量5.2k

点赞数 5

分类专栏： GAN 文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/m0_61985580/article/details/125783421

版权

GAN 专栏收录该内容

19 篇文章

订阅专栏

这里写目录标题

Abstract
1. Introduction
2. StarGAN v2
- 2.1. Proposed framework
- 2.2. Training objectives
3. Experiments
- 3.1. Analysis of individual components
- 3.2. Comparison on diverse image synthesis
4. Discussion
5. Related work
6. Conclusion
A. The AFHQ dataset
B. Training details
C. Evaluation protocol
D. Additional results
E. Network architecture
References

在这里插入图片描述

Abstract

一个好的图像到图像转换模型应该学习不同视觉域之间的映射，同时满足以下属性：1）生成图像的多样性和2）跨多个域的可扩展性。现有方法解决了这两个问题中的任何一个，所有领域的多样性或多个模型都有限。我们提出了StarGAN v2，这是一个处理这两个问题的单一框架，并显示出比基线显著改进的结果。在CelebAHQ和一个新的动物面部数据集（AFHQ）上的实验验证了我们在视觉质量、多样性和可扩展性方面的优势。为了更好地评估图像到图像的翻译模型，我们发布了AFHQ，即具有较大域内和域内差异的高质量动物脸。代码、预训练模型和数据集可在clovaai/stargan-v2上获得。

1. Introduction

图像到图像的翻译旨在学习不同视觉域之间的映射[20]。在这里，域意味着一组图像，这些图像可以分组为视觉上不同的类别，每个图像都有一个独特的外观，我们称之为风格。例如，我们可以根据一个人的性别设置图像域，在这种情况下，样式包括化妆、胡须和发型（图1的上半部分）。理想的图像到图像的翻译方法应该能够综合考虑每个领域中的不同风格的图像。然而，设计和学习此类模型变得复杂，因为数据集中可能有任意数量的样式和域。

为了解决风格多样性问题，人们对图像到图像的翻译进行了大量研究[1、16、34、28、38、54]。这些方法向生成器注入低维潜在代码，可以从标准高斯分布中随机采样。他们的特定领域解码器在生成图像时将潜在代码解释为各种样式的配方。然而，由于这些方法只考虑了两个域之间的映射，因此无法扩展到越来越多的域。例如，有K个域，这些方法需要训练K（K-1）生成器来处理每个域之间的翻译，从而限制了它们的实际使用。

为了解决可扩展性问题，一些研究提出了一个统一的框架[2、7、17、30]。StarGAN[7]是最早的模型之一，它使用单个生成器学习所有可用域之间的映射。生成器将域标签作为附加输入，并学习将图像转换为相应的域。然而，StarGAN仍然学习每个域的确定性映射，这并不能捕捉数据分布的多模态性质。这种限制来自这样一个事实，即每个域都由一个预定的标签表示。请注意，生成器接收固定标签（例如一个热向量）作为输入，因此在给定源图像的情况下，它不可避免地在每个域中产生相同的输出。

为了充分利用这两个方面，我们提出了StarGAN v2，这是一种可扩展的方法，可以跨多个域生成不同的图像。特别是，我们从StarGAN开始，将其域标签替换为我们提出的特定于域的样式代码，该代码可以表示特定域的各种样式。为此，我们介绍了两个模块，一个映射网络和一个样式编码器。映射网络学习将随机高斯噪声转换为样式代码，而编码器学习从给定参考图像中提取样式代码。考虑到多个域，两个模块都有多个输出分支，每个输出分支都提供特定域的样式代码。最后，利用这些样式代码，我们的生成器学习在多个域上成功合成不同的图像（图1）。

我们首先研究了StarGAN v2各个组件的影响，并表明我们的模型确实受益于使用样式代码（第3.1节）。我们的经验证明，我们提出的方法可扩展到多个领域，与领先的方法相比，在视觉质量和多样性方面提供了显著更好的结果（第3.2节）。最后但并非最不重要的是，我们提出了一个新的高质量和广泛变化的动物面部数据集（AFHQ）（附录a），以更好地评估图像到图像翻译模型在较大域间和域内差异上的性能。我们发布了该数据集，供研究社区公开使用。

2. StarGAN v2

在本节中，我们描述了我们提出的框架及其训练目标函数。

2.1. Proposed framework

设X和Y分别为图像集和可能域。给定图像x∈ X和任意域y∈ Y、我们的目标是训练单个生成器G，该生成器可以生成对应于图像x的每个域Y的不同图像。我们在每个域的学习样式空间中生成特定于域的样式向量，并训练G以反映样式向量。图2概述了我们的框架，该框架由以下四个模块组成。

生成器（图2a）。我们的生成器G将输入图像x转换为反映特定于域的样式代码s的输出图像G（x，s），该代码由映射网络F或样式编码器E提供。我们使用自适应实例归一化（AdaIN）[15，22]将s注入G。我们观察到，s被设计为表示特定域y的样式，这消除了向G提供y的必要性，并允许G合成所有域的图像。

映射网络（图2b）。给定潜在代码z和域y，我们的映射网络F生成样式代码s=Fy（z），其中Fy（·）表示对应于域y的F的输出。F由具有多个输出分支的MLP组成，以提供所有可用域的样式代码。F可以通过对潜在向量z进行采样来生成不同样式的代码∈ Z和域y∈ Y随机。我们的多任务架构允许F高效地学习所有领域的风格表示。

样式编码器（图2c）。给定图像x及其对应的域y，我们的编码器E提取x的样式代码s=Ey（x）。这里，Ey（·）表示对应于域y的E的输出。与F类似，我们的样式编码器E受益于多任务学习设置。E可以使用不同的参考图像生成不同的样式代码。这允许G合成反映参考图像x的样式s的输出图像。

鉴别器（图2d）。我们的鉴别器D是一个多任务鉴别器[30，35]，它由多个输出分支组成。每个分支Dy学习一个二值分类，确定图像x是其域y的真实图像还是由G生成的伪图像G（x，s）。
在这里插入图片描述
[图2:StarGAN v2概述，由四个模块组成。（a）生成器将输入图像转换为反映特定于域的样式代码的输出图像。（b）映射网络将潜在代码转换为多个域的样式代码，其中一个域在训练期间随机选择。（c）样式编码器提取图像的样式代码，允许生成器执行参考引导的图像合成。（d）鉴别器可以区分来自多个域的真实图像和虚假图像。请注意，除生成器外的所有模块都包含多个输出分支，其中一个是在训练相应的域时选择的。]

2.2. Training objectives

给定图像x∈ X及其原始域y∈ Y、我们使用以下目标来训练我们的框架。对抗性目标。在训练期间，我们对潜在代码z进行采样∈ Z和目标域ey∈ Y随机，和生成目标样式代码es=Fey（z）。生成器G将图像x和es作为输入，并通过对抗损失学习生成输出图像G（x，es）
在这里插入图片描述
其中Dy（·）表示对应于域y的D的输出。映射网络F学习提供可能在目标域ey中的样式代码es，并且G学习利用es并生成与域ey的真实图像不可区分的图像G（x，es）。

风格重建。为了强制生成器G在生成图像G（x，es）时使用样式代码es，我们采用了样式重建损失
在这里插入图片描述
该目标类似于之前的方法[16，54]，该方法使用多个编码器来学习从图像到其潜在代码的映射。值得注意的区别是，我们训练了一个编码器E，以鼓励多个域的不同输出。在测试时，我们学习的编码器E允许G变换输入图像，反映参考图像的样式。

风格多样化。为了进一步使生成器G能够生成多样性图像，我们使用多样性敏感损失显式正则化G[34，48]
在这里插入图片描述
其中，目标样式代码es1和es2由F产生，条件是两个随机潜在代码z1和z2（即，对于i，esi=Fey（zi））∈ {1, 2}). 最大化正则化项迫使G探索图像空间并发现有意义的风格特征，以生成不同的图像。注意，在原始形式中，kz1的微小差异− 分母中的Z2K1显著增加了损失，这使得训练由于大梯度而不稳定。因此，我们去掉了分母部分，设计了一个新的稳定训练方程，但具有相同的直觉。

保留源特征。为了保证生成的图像G（x，es）适当地保留其输入图像x的域不变特征（例如位姿），我们采用了周期一致性损失[7，24，53]
在这里插入图片描述
其中，ˆs=Ey（x）是输入图像x的估计样式代码，y是x的原始域。通过鼓励生成器G用估计的样式代码ˆs重建输入图像x，G学习保持x的原始特征，同时忠实地更改其样式。

全面目标。我们的全部目标函数可以总结如下：
在这里插入图片描述
其中λsty、λds和λcyc是每个项的超参数。我们还以与上述目标相同的方式进一步训练我们的模型，在生成样式代码时使用参考图像而不是潜在向量。我们在附录B中提供了培训详细信息。

3. Experiments

在本节中，我们描述了评估设置并进行了一系列实验。我们分析了StarGAN v2的各个组成部分（第3.1节），并将我们的模型与不同图像合成的三个主要基线进行了比较（第3.2节）。所有实验都是在训练阶段使用看不见的图像进行的。

基线。我们使用MUNIT[16]、DRIT[28]和MSGAN[34]作为基线，所有这些都学习两个域之间的多模映射。对于多域比较，我们为每对图像域多次训练这些模型。我们还将我们的方法与StarGAN[7]进行了比较，StarGAN[7]使用单个生成器学习多个域之间的映射。所有基线都使用作者提供的实现进行训练。

数据集。我们在CelebA HQ[21]和我们新的AFHQ数据集（附录A）上评估StarGAN v2。我们将CelebAHQ分为雄性和雌性两个域，将AFHQ分为猫、狗和野生动物三个域。除域标签外，我们不使用任何其他信息（例如CelebA HQ的面部属性或AFHQ的品种），并让模型在没有监督的情况下学习这些信息，例如样式。为了公平比较，将所有图像调整为256×256分辨率进行训练，这是基线中使用的最高分辨率。

**评估指标。**我们使用Frechét初始距离（FID）[14]和学习的感知图像面片相似性（LPIPS）[52]来评估生成图像的视觉质量和多样性。我们计算数据集中每对图像域的FID和LPIP，并报告其平均值。附录C进一步描述了评估指标和协议的详细信息。

3.1. Analysis of individual components

我们使用CelebA HQ评估添加到基线StarGAN中的单个组件。表1给出了几种配置的FID和LPIP，其中每个组件累积添加在StarGAN的顶部。每个配置的输入图像和相应生成的图像如图3所示。基线配置（A）对应于StarGAN的基本设置，它使用WGAN-GP[11]、ACGAN鉴别器[39]和深度级联[36]向生成器提供目标域信息。如图3a所示，原始StarGAN通过在输入图像上应用化妆只产生局部变化。

我们首先通过用多任务鉴别器替换ACGAN鉴别器[35，30]来改进我们的基线，允许生成器转换输入图像的全局结构，如配置（B）所示。利用GANs的最新进展，我们通过应用R1正则化[35]并将深度级联转换为自适应实例归一化（AdaIN）[9，15]，进一步增强了训练稳定性并构建了新的基线（C）。注意，我们在表1中没有报告这些变化的LPIP，因为它们尚未被设计为针对给定输入图像和目标域产生多个输出。

为了诱导分集，可以考虑直接将潜在代码z赋予生成器G，并施加潜在重构损失|| z− E（G（x，z，y））||1[16，54]。然而，在多领域场景中，我们观察到该基线（D）不鼓励网络学习有意义的风格，也未能提供我们预期的多样性。我们推测这是因为潜在代码没有分离域的能力，因此潜在重建损失模型是域共享样式（例如颜色）而不是特定于域的样式（例如发型）。请注意，基线（C）和（D）之间的FID差距只是由于输出样本数量的差异。
在这里插入图片描述

[图4。CelebA HQ上的参考引导图像合成结果。第一行和第一列中的源图像和参考图像是真实图像，而其余图像是由我们提出的模型StarGAN v2生成的图像。我们的模型学习变换反映给定参考图像样式的源图像。参考图像遵循发型、化妆、胡须和年龄等高级语义，同时保留源图像的姿势和身份。请注意，每列中的图像共享一个具有不同样式的标识，每行中的图像共享一个具有不同标识的样式。]
在这里插入图片描述
为了学习有意义的风格，我们通过我们提出的映射网络（图2b）将潜在代码z转换为领域特定的风格代码s，并将风格代码注入生成器（E），而不是直接将潜在代码输入G。这里，我们还介绍了样式重建损失（等式（2））。注意，我们映射网络的每个输出分支都对特定域负责，因此样式代码在分离域时没有歧义。与潜在重建损失不同，样式重建损失允许生成器生成反映特定领域样式的不同图像。最后，我们通过采用多样性正则化（等式（3））进一步改进网络以产生多样性输出，并且该配置（F）对应于我们提出的方法StarGAN v2。图4显示，StarGAN v2可以合成反映不同风格参考的图像，包括发型、化妆和胡须，而不会损害源特征。

3.2. Comparison on diverse image synthesis

在本节中，我们从两个角度评估StarGAN v2对不同图像合成的影响：潜在引导合成和参考引导合成。

潜在引导合成。图5提供了竞争方法的定性比较。每种方法产生随机噪声减少多个输出。对于CelebAHQ，我们观察到，与基线模型相比，我们的方法合成的图像具有更高的视觉质量。此外，我们的方法是唯一可以成功更改源图像的整个头发样式的模型，这需要付出不平凡的努力（例如生成耳朵）。对于变化相对较大的AFHQ，基线的性能大大降低，而我们的方法仍然可以生成高质量和不同风格的图像。
在这里插入图片描述
[表2。潜在引导合成的定量比较。在训练集和测试集之间计算真实图像的FID。注意，由于测试图像的数量不足，它们可能不是最佳值，但我们报告它们以供参考。]

如表2所示，我们的方法在视觉质量方面大大优于所有基线。对于CelebA HQ和AFHQ，我们的方法实现的FIDs分别为13.7和16.2，是前者的两倍多改进了以前的引导方法。我们的LPIP也是CelebA HQ中最高的，这意味着我们的模型在给定单个输入的情况下产生的结果最多样化。我们推测AFHQ中基线模型的高LPIPS值是由于其虚假伪影。

参考导向合成。为了从参考图像中获得样式代码，我们从目标域中采样测试图像，并将其馈送到每种方法的编码器网络。对于CelebA HQ（图6a），我们的方法成功地渲染了不同的风格（例如刘海、胡须、化妆和发型），而其他风格大多与参考图像的颜色分布相匹配。对于更具挑战性的AFHQ（图6b），基线模型遭受了较大的域转移。它们几乎不反映每个参考图像的样式，仅与域匹配。相反，我们的模型渲染每个参考图像的不同风格（例如品种）以及其毛发图案和眼睛颜色。请注意，StarGAN v2在所有域中生成高质量图像，这些结果来自单个生成器。由于为每对域单独训练其他基线，因此输出质量在域之间波动。例如，在AFHQ（图6b）中，基线模型在狗对野生动物（第2行）中运行良好，而在猫对狗（第1行）中运行失败。

在这里插入图片描述
【参考导向合成的定量比较。我们对十幅参考图像进行采样，以合成不同的图像】

表3显示了用于参考引导合成的每种方法的FID和LPIP。对于这两个数据集，我们的方法实现了23.8和19.8的FID，分别比之前的领先方法高出约1.5倍和3.5倍。
StarGAN v2的LPIP在竞争对手中也是最高的，这意味着考虑到参考图像的样式，我们的模型产生了最多样化的结果。在这里，MUNIT和DRIT在AFHQ中遭受模式崩溃，这导致比其他方法更低的LPIP和更高的FID。

人类评估。我们使用Amazon Mechanical Turk（AMT）将我们方法的用户偏好与基线方法进行比较。给定一对源图像和参考图像，AMT工作人员被指示从方法的四个图像候选中选择一个，其顺序是随机洗牌的。我们分别询问哪种模型提供了最佳的图像质量，以及哪种模型在考虑参考图像的情况下对输入图像进行了最佳风格化。对于每次比较，我们随机生成100个问题，每个问题由10名工人回答。我们还向每位员工提出几个简单的问题，以检测不合格的员工。有效工人总数为76人。如表4所示，我们的方法在所有投票中获得多数票立场，尤其是在具有挑战性的AFHQ数据集和关于风格反射的问题中。这些结果表明，StarGAN v2比其他基线更好地提取样式并将其渲染到输入图像上.
在这里插入图片描述
【表4。对于视觉质量和风格反映方面最首选的方法，AMT工人表示满意（%）。StarGAN v2在所有方面都优于基线，具有显著的利润率。】

4. Discussion

我们讨论了StarGAN v2能够在多个领域成功合成不同风格图像的几个原因。首先，我们的样式代码由多头映射网络和样式编码器按域分别生成。通过这样做，我们的生成器只能专注于使用样式代码，其特定于域的信息已经由映射网络负责（第3.1节）。其次，根据StyleGAN[22]的见解，我们的风格空间是通过学习转换生成的。这为我们的模型提供了比基线[16、28、34]更大的灵活性，基线假设样式空间是固定的高斯分布（第3.2节）。最后但并非最不重要的一点是，我们的模块受益于充分利用来自多个领域的训练数据。通过设计，每个模块的共享部分应该学习引起正则化效果的域不变特征，鼓励更好地泛化到看不见的样本。为了证明我们的模型概括了看不见的图像，我们使用在CelebA HQ上训练的模型测试了来自FFHQ[22]的一些样本（图7）。在这里，StarGAN v2成功捕获了参考样式，并将这些样式正确地渲染到源图像。

5. Related work

生成对抗网络（GAN）[10]在许多计算机视觉任务中显示了令人印象深刻的结果，如图像合成[4,31,8]、着色[18,50]和超分辨率[27,47]。除了提高生成图像的视觉质量外，它们的多样性也被视为一个重要目标，这一目标已被专门的损失函数[34，35]或建筑设计[4，22]所解决。StyleGAN[22]引入了一种非线性映射函数，将输入潜在代码嵌入到中间样式空间中，以更好地表示变异因素。然而，这种方法在转换真实图像时需要付出很大的努力，因为其生成器的设计目的不是将图像作为输入。

众所周知，早期的图像到图像转换方法[20、53、29]即使在随机噪声输入下也能学习确定性映射。有几种方法可以加强控制连接边缘匹配[1]、潜在回归[54，16]和多样性正则化[48，34]，将随机噪声和生成的图像连接起来以实现多样性。其他方法在参考图像的引导下产生各种输出[5、6、32、40]。然而，所有这些方法只考虑两个域，并且它们对多个域的扩展是不平凡的。最近，FUNIT[30]利用目标域中的一些参考图像处理多域图像翻译，但它需要细粒度的类标签，并且不能生成带有随机噪声的图像。我们的方法提供了潜在引导和参考引导的合成，并且可以使用粗略标记的数据集进行训练。在并行工作中，余等人[51]解决了相同的问题，但他们将风格定义为领域共享特征，而不是特定领域的特征，这限制了输出的多样性。
在这里插入图片描述

6. Conclusion

我们提出了StarGAN v2，它解决了图像到图像翻译中的两个主要挑战；将一个域的图像转换为目标域的不同图像，并支持多个目标域。实验结果表明，我们的模型可以生成跨多个域的风格丰富的图像，显著优于以前领先的方法[16、28、34]。我们还发布了一个新的动物面部数据集（AFHQ），用于在大型域间和域内变异设置中评估方法。
致谢。我们感谢全职和到访的Clova AI成员的早期审查：吴圣珠、崔俊淑、穆罕默德·费贾德·奈姆和Kyungjune Baek。所有实验均基于NA-VER智能机器学习（NSML）[23，43]。
在这里插入图片描述

A. The AFHQ dataset

我们发布了一个新的动物脸数据集，动物脸shq（AFHQ），由15000张512×512分辨率的高质量图像组成。图8显示了AFHQ数据集的示例图像。该数据集包括猫、狗和野生动物的三个领域，每个领域提供5000张图像。通过拥有多（三）个域和各种品种的不同图像(≥ 八）对于每个域，AFHQ设置了一个更具挑战性的图像到图像的翻译问题。对于每个域，我们选择500个图像作为测试集，并提供所有剩余图像作为训练集。我们从Flickr1和Pixabay2网站收集了具有许可证的图像。所有图像都垂直和水平对齐，使眼睛位于中心。低质量的图像被人为丢弃。我们已在上提供数据集：https://github.com/clovaai/stargan-v2.

B. Training details

对于快速训练，批量大小设置为8，模型训练100K次迭代。我们在PyTorch[41]中实现了一个特斯拉V100 GPU，培训时间约为三天。我们为CelebA HQ设置λsty=1、λds=1和λcyc=1，为AFHQ设置λsty=1、λds=2和λcyc=1。为了稳定训练，权重λds在100K次迭代中线性衰减为零。我们采用了非饱和对抗损失[10]和R1正则化[35]，使用γ=1。我们使用β1=0和β2=0.99的Adam[25]优化器。G、D和E的学习速率设置为10−4，而F的设置为10−6.为了进行评估，我们对除D外的所有模块的参数[21，49]采用指数移动平均。我们使用初始化[12]初始化所有模块的权重，并将所有偏差设置为零，与AdaIN的标度向量相关的偏差除外，这些偏差设置为1。

C. Evaluation protocol

本节提供了所有实验中使用的评估指标和评估协议的详细信息。

Frechét初始距离（FID）[14]测量两组图像之间的差异。我们使用来自ImageNetpretrained Inception-V3最后一个平均池层的特征向量[44]。对于来自源域的每个测试图像，我们使用从标准高斯分布中随机采样的10个潜在向量将其转换为目标域。然后，我们计算目标域中翻译图像和训练图像之间的FID。我们计算每对图像域的FID值（例如CelebA HQ的女性？男性），并报告平均值。注意，对于参考引导合成，使用从目标域的测试集随机采样的10个参考图像对每个源图像进行变换。

学习的感知图像面片相似性（LPIPS）[52]使用从ImageNet预训练AlexNet[26]中提取的特征之间的L1距离测量生成图像的多样性。对于来自源域的每个测试图像，我们使用10个随机采样的潜在向量生成目标域的10个输出。然后，我们计算由相同输入（即45对）生成的所有输出之间的成对距离的平均值。最后，我们报告了所有测试图像的LPIPS值的平均值。对于参考引导合成，使用10个参考图像对每个源图像进行变换，以产生10个输出。

D. Additional results

我们提供了CelebA HQ和AFHQ的额外参考引导图像合成结果（图9和10）。在CelebA HQ，StarGAN v2以不同的外观综合了源身份，反映了参考风格，如发型和化妆。在AFHQ中，结果遵循参考图像的品种和头发，保留源图像的位姿。样式之间的插值结果可在以下位置找到：
https://youtu.be/0EVh5Ki4dIY.
在这里插入图片描述

E. Network architecture

在本节中，我们提供了StarGAN v2的架构细节，它由以下四个模块组成。

生成器（表5）。对于AFHQ，我们的生成器由四个下采样块、四个中间块和四个上采样块组成，所有这些块都继承预激活残差单元[13]。我们分别对下采样和上采样块使用实例归一化（IN）[45]和自适应实例归一化（AdaIN）[15、22]。将样式代码注入所有AdaIN层，通过学习的仿射变换提供缩放和移位向量。对于CelebA HQ，我们将下采样和上采样层的数量增加了一个。我们还删除了上采样剩余块中的所有快捷方式，并添加了与基于自适应机翼的热图的跳过连接[46]。

映射网络（表6）。我们的映射网络由具有K个输出分支的MLP组成，其中K表示域的数量。所有域之间共享四个完全连接的层，然后是每个域的四个特定完全连接的层。我们将潜在代码、隐藏层和样式代码的维数分别设置为16、512和64。我们从标准高斯分布中采样潜在代码。我们没有将像素归一化[22]应用于潜在代码，已经观察到这不会提高我们任务中的模型性能。我们还尝试了特征规范化[3，19]，但这降低了性能。

样式编码器（表7）。我们的风格编码器由一个具有K个输出分支的CNN组成，其中K是域的数量。在所有域之间共享六个预激活残余块，然后为每个域提供一个特定的全连接层。我们不使用全局平均池[16]来提取给定参考图像的精细特征。表7中的输出维度“D”设置为64，表示样式代码的维度。

鉴别器（表7）。我们的鉴别器是一个多任务鉴别器[35]，它包含多个线性输出分支3。鉴别器包含六个具有泄漏ReLU的预激活剩余块[33]。我们使用K fullyconnected layers对每个域进行真/假分类，其中K表示域的数量。对于真/假分类，输出维度“D”设置为1。我们没有使用任何特征归一化技术[19，45]或PatchGAN[20]，因为已经观察到它们不会改善输出质量。我们观察到，在我们的设置中，多任务鉴别器比其他类型的条件鉴别器提供更好的结果[36、37、39、42]。

在这里插入图片描述

References

[1] A. Almahairi, S. Rajeshwar, A. Sordoni, P . Bachman, and
A. Courville. Augmented cyclegan: Learning many-to-many
mappings from unpaired data. In ICML, 2018. 2, 8
[2] A. Anoosheh, E. Agustsson, R. Timofte, and L. V an Gool.
Combogan: Unrestrained scalability for image domain trans-
lation. In CVPRW, 2018. 2
[3] J. L. Ba, J. R. Kiros, and G. E. Hinton. Layer normalization.
In arXiv preprint, 2016. 12
[4] A. Brock, J. Donahue, and K. Simonyan. Large scale gan
training for high fidelity natural image synthesis. In ICLR,
2019. 8
[5] H. Chang, J. Lu, F. Y u, and A. Finkelstein. Pairedcycle-
gan: Asymmetric style transfer for applying and removing
makeup. In CVPR, 2018. 8
[6] W. Cho, S. Choi, D. K. Park, I. Shin, and J. Choo. Image-
to-image translation via group-wise deep whitening-and-
coloring transformation. In CVPR, 2019. 8
[7] Y . Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo.
Stargan: Unified generative adversarial networks for multi-
domain image-to-image translation. In CVPR, 2018. 2, 3,
4
[8] J. Donahue and K. Simonyan. Large scale adversarial repre-
sentation learning. In NeurIPS, 2019. 8
[9] V . Dumoulin, E. Perez, N. Schucher, F. Strub, H. d. Vries,
A. Courville, and Y . Bengio. Feature-wise transformations.
In Distill, 2018. 4
[10] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,
D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Gen-
erative adversarial networks. In NeurIPS, 2014. 8, 9
[11] I. Gulrajani, F. Ahmed, M. Arjovsky, V . Dumoulin, and
A. C. Courville. Improved training of wasserstein gans. In
NeurIPS, 2017. 4
[12] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into
rectifiers: Surpassing human-level performance on imagenet
classification. In ICCV, 2015. 9
[13] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in
deep residual networks. In ECCV, 2016. 12
[14] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and
S. Hochreiter. Gans trained by a two time-scale update rule
converge to a local nash equilibrium. In NeurIPS, 2017. 4, 9
[15] X. Huang and S. Belongie. Arbitrary style transfer in real-
time with adaptive instance normalization. In ICCV, 2017.
2, 4, 12
[16] X. Huang, M.-Y . Liu, S. Belongie, and J. Kautz. Multimodal
unsupervised image-to-image translation. In ECCV, 2018. 2,
3, 4, 6, 7, 8, 12
[17] L. Hui, X. Li, J. Chen, H. He, and J. Yang. Unsuper-
vised multi-domain image translation with domain-specific
encoders/decoders. In ICPR, 2018. 2
[18] K. Hyunsu, J. Ho Y oung, P . Eunhyeok, and Y . Sungjoo.
Tag2pix: Line art colorization using text tag with secat and
changing loss. In ICCV, 2019. 8
[19] S. Ioffe and C. Szegedy. Batch normalization: Accelerating
deep network training by reducing internal covariate shift. In
ICML, 2015. 12
[20] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros. Image-to-image
translation with conditional adversarial nets. In CVPR, 2017.
1, 8, 12
[21] T. Karras, T. Aila, S. Laine, and J. Lehtinen. Progressive
growing of GANs for improved quality, stability, and varia-
tion. In ICLR, 2018. 4, 9
[22] T. Karras, S. Laine, and T. Aila. A style-based generator
architecture for generative adversarial networks. In CVPR,
2019. 2, 8, 12
[23] H. Kim, M. Kim, D. Seo, J. Kim, H. Park, S. Park, H. Jo,
K. Kim, Y . Yang, Y . Kim, et al. Nsml: Meet the mlaas
platform with a real-world case study. arXiv preprint
arXiv:1810.09957, 2018. 8
[24] T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim. Learning to
discover cross-domain relations with generative adversarial
networks. In ICML, 2017. 3
[25] D. P . Kingma and J. Ba. Adam: A method for stochastic
optimization. In ICLR, 2015. 9
[26] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet
classification with deep convolutional neural networks. In
NeurIPS, 2012. 9
[27] C. Ledig, L. Theis, F. Huszár, J. Caballero, A. Cunningham,
A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, et al.
Photo-realistic single image super-resolution using a genera-
tive adversarial network. In CVPR, 2017. 8
[28] H.-Y . Lee, H.-Y . Tseng, J.-B. Huang, M. K. Singh, and M.-H.
Yang. Diverse image-to-image translation via disentangled
representations. In ECCV, 2018. 2, 4, 6, 7, 8
[29] M.-Y . Liu, T. Breuel, and J. Kautz. Unsupervised image-to-
image translation networks. In NeurIPS, 2017. 8
[30] M.-Y . Liu, X. Huang, A. Mallya, T. Karras, T. Aila, J. Lehti-
nen, and J. Kautz. Few-shot unsupervised image-to-image
translation. In ICCV, 2019. 2, 4, 8
[31] M. Lucic, M. Tschannen, M. Ritter, X. Zhai, O. Bachem, and
S. Gelly. High-fidelity image generation with fewer labels.
In ICML, 2019. 8
[32] L. Ma, X. Jia, S. Georgoulis, T. Tuytelaars, and L. V an Gool.
Exemplar guided unsupervised image-to-image translation
with semantic consistency. In ICLR, 2019. 8
[33] A. L. Maas, A. Y . Hannun, and A. Y . Ng. Rectifier nonlin-
earities improve neural network acoustic models. In ICML,
2013. 12
[34] Q. Mao, H.-Y . Lee, H.-Y . Tseng, S. Ma, and M.-H. Yang.
Mode seeking generative adversarial networks for diverse
image synthesis. In CVPR, 2019. 2, 3, 4, 6, 7, 8
[35] L. Mescheder, S. Nowozin, and A. Geiger. Which training
methods for gans do actually converge? In ICML, 2018. 2,
4, 8, 9, 12
[36] M. Mirza and S. Osindero. Conditional generative adversar-
ial nets. In arXiv preprint, 2014. 4, 12
[37] T. Miyato and M. Koyama. cGANs with projection discrim-
inator. In ICLR, 2018. 12
[38] S. Na, S. Y oo, and J. Choo. Miso: Mutual information loss
with stochastic style representations for multimodal image-
to-image translation. In arXiv preprint, 2019. 2
[39] A. Odena, C. Olah, and J. Shlens. Conditional image synthe-
sis with auxiliary classifier gans. In ICML, 2017. 4, 12
[40] T. Park, M.-Y . Liu, T.-C. Wang, and J.-Y . Zhu. Semantic
image synthesis with spatially-adaptive normalization. In
CVPR, 2019. 8
[41] A. Paszke, S. Gross, S. Chintala, G. Chanan, E. Yang, Z. De-
Vito, Z. Lin, A. Desmaison, L. Antiga, and A. Lerer. Auto-
matic differentiation in pytorch. In NeurIPSW, 2017. 9
[42] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and
H. Lee. Generative adversarial text to image synthesis. In
ICML, 2016. 12
[43] N. Sung, M. Kim, H. Jo, Y . Yang, J. Kim, L. Lausen, Y . Kim,
G. Lee, D. Kwak, J.-W. Ha, et al. Nsml: A machine learning
platform that enables you to focus on your models. arXiv
preprint arXiv:1712.05902, 2017. 8
[44] C. Szegedy, V . V anhoucke, S. Ioffe, J. Shlens, and Z. Wojna.
Rethinking the inception architecture for computer vision. In
CVPR, 2016. 9
[45] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normal-
ization: The missing ingredient for fast stylization. In arXiv
preprint, 2016. 12
[46] X. Wang, L. Bo, and L. Fuxin. Adaptive wing loss for robust
face alignment via heatmap regression. In ICCV, 2019. 12
[47] X. Wang, K. Y u, S. Wu, J. Gu, Y . Liu, C. Dong, Y . Qiao, and
C. Change Loy. Esrgan: Enhanced super-resolution genera-
tive adversarial networks. In ECCV, 2018. 8
[48] D. Yang, S. Hong, Y . Jang, T. Zhao, and H. Lee. Diversity-
sensitive conditional generative adversarial networks. In
ICLR, 2019. 3, 8
[49] Y . Yazıcı, C.-S. Foo, S. Winkler, K.-H. Yap, G. Piliouras, and
V . Chandrasekhar. The unusual effectiveness of averaging in
gan training. In ICLR, 2019. 9
[50] S. Y oo, H. Bahng, S. Chung, J. Lee, J. Chang, and J. Choo.
Coloring with limited data: Few-shot colorization via mem-
ory augmented networks. In CVPR, 2019. 8
[51] X. Y u, Y . Chen, T. Li, S. Liu, and G. Li. Multi-mapping
image-to-image translation via learning disentanglement. In
NeurIPS, 2019. 8
[52] R. Zhang, P . Isola, A. A. Efros, E. Shechtman, and O. Wang.
The unreasonable effectiveness of deep features as a percep-
tual metric. In CVPR, 2018. 4, 9
[53] J.-Y . Zhu, T. Park, P . Isola, and A. A. Efros. Unpaired image-
to-image translation using cycle-consistent adversarial net-
workss. In ICCV, 2017. 3, 8
[54] J.-Y . Zhu, R. Zhang, D. Pathak, T. Darrell, A. A. Efros,
O. Wang, and E. Shechtman. Toward multimodal image-to-
image translation. In NeurIPS, 2017. 2, 3, 4, 8