风格迁移篇--StarGAN：用于多域图像到图像翻译的统一生成对抗网络

最新推荐文章于 2022-07-25 18:40:47 发布

啊菜来了

最新推荐文章于 2022-07-25 18:40:47 发布

阅读量2.9k

点赞数 4

分类专栏： GAN 文章标签：生成对抗网络人工智能计算机视觉

本文链接：https://blog.csdn.net/m0_61985580/article/details/125766783

版权

GAN 专栏收录该内容

19 篇文章 16 订阅

订阅专栏

文章目录

Abstract
1. Introduction
2. Related Work
3. Star Generative Adversarial Networks
- 3.1. Multi-Domain Image-to-Image Translation
- 3.2. Training with Multiple Datasets
4. Implementation
5. Experiments
6. Conclusion

Abstract

最近的研究表明，在两个领域的图像到图像的翻译取得了显著的成功。然而，现有方法在处理两个以上的域时具有有限的可扩展性和鲁棒性，因为应为每对图像域独立构建不同的模型。为了解决这一局限性，我们提出了StarGAN，这是一种新颖且可扩展的方法，可以仅使用单个模型对多个域执行图像到图像的翻译。StarGAN的这种统一模型架构允许在单个网络中同时训练具有不同域的多个数据集。这使得StarGAN的翻译图像质量优于现有模型，并且能够灵活地将输入图像翻译到任何所需的目标域。我们通过实验证明了我们的方法在面部属性转移和面部表情合成任务中的有效性。

1. Introduction

图像到图像翻译的任务是将给定图像的特定方面更改为另一个方面，例如，将人的面部表情从微笑更改为皱眉（见图1）。随着生成对抗网络（GAN）的引入，这项任务经历了重大改进，结果包括改变头发颜色[8]、从边缘地图重建照片[7]和改变风景图像的季节[32]。

给定来自两个不同域的训练数据，这些模型学习将图像从一个域转换到另一个域。我们将术语属性表示为图像中固有的有意义的特征，例如头发颜色、性别或年龄，将属性值表示为属性的特定值，例如黑色/金发/棕色表示头发颜色，或男性/女性表示性别。我们进一步将域表示为共享相同属性值的一组图像。例如，女性的图像可以代表一个领域，而男性的图像代表另一个领域。

几个图像数据集附带了许多标记属性。例如，CelebA[18]数据集包含40个与头发颜色、性别和年龄等面部属性相关的标签，而RaFD[12]数据集包含8个面部表情标签，例如“高兴”、“愤怒”和“悲伤”。这些设置使我们能够执行更有趣的任务，即多域图像到图像的翻译，其中我们根据多个域的属性更改图像。图1中的前五列显示了如何根据四个域中的任何一个来翻译CelebA图像，“金发”、“性别”、“年龄”和“苍白皮肤”。我们可以进一步扩展到从不同数据集训练多个域，例如联合训练CelebA和RaFD图像，以使用通过RaFD训练学习的特征来改变CelebA图像的面部表情，如图1最右边的列所示。

然而，现有模型在此类多域图像翻译任务中既低效又无效。其效率低下的原因是为了学习k个域之间的所有映射，k（k−1）发电机必须经过培训。图2说明了必须如何训练十二个不同的生成器网络以在四个不同的域之间翻译图像。同时，即使存在可以从所有域（如人脸形状）的图像中学习的全局特征，每个生成器也无法充分利用整个训练数据，只能从k个域中的两个域中学习，这是无效的。未能充分利用训练数据可能会限制生成图像的质量。此外，它们无法从不同的数据集中联合训练域，因为每个数据集都有部分标记，我们将在第3.2节中进一步讨论。

为了解决这些问题，我们提出了StarGAN，一种能够学习多个域之间映射的生成对抗网络。如图2（b）所示，我们的模型接受多个域的训练数据，并仅使用一个生成器学习所有可用域之间的映射。这个想法很简单。我们的模型没有学习固定的翻译（例如，从黑色到金色的头发），而是将图像和域信息作为输入，并学习将输入图像灵活地翻译到相应的域中。我们使用标签（例如二进制或onehot向量）来表示域信息。在训练过程中，我们随机生成目标域标签，并训练模型将输入图像灵活地转换到目标域。通过这样做，我们可以控制域标签，并在测试阶段将图像转换为任何所需的域。
我们还介绍了一种简单但有效的方法，通过在域标签中添加掩码向量来实现不同数据集的域之间的联合训练。我们提出的方法确保了该模型可以忽略未知标签，并专注于特定数据集提供的标签。通过这种方式，我们的模型可以很好地执行任务，例如合成CelebA图像的面部表情（a）跨域模型21 4 3 G21 G12 G41 G14 G32 G23 G34 G43 2 1 5 4 3（b）StarGAN图2。跨域模型与我们提出的StarGAN模型之间的比较。（a）为了处理多个域，应该为每一对图像域建立跨域模型。（b） StarGAN能够使用单个生成器学习多个域之间的映射。该图表示连接多个域的星形拓扑。

从RaFD学习的ing特征，如图1最右边的列所示。据我们所知，我们的工作是第一次成功地跨不同数据集执行多域图像翻译。

总的来说，我们的贡献如下：

我们提出了StarGAN，这是一种新的生成对抗网络，它仅使用单个生成器和鉴别器学习多个域之间的映射，并从所有域的图像中进行有效训练
我们演示了如何利用掩码向量方法成功学习多个数据集之间的多域图像转换，该方法使StarGAN能够控制所有可用的域标签
我们使用StarGAN提供了人脸属性转移和人脸表情合成任务的定性和定量结果，显示了其优于基线模型。

[图2:跨域模型与我们提出的StarGAN模型之间的比较。（a）为了处理多个域，应该为每一对图像域建立跨域模型。（b） StarGAN能够使用单个生成器学习多个域之间的映射。该图表示连接多个域的星形拓扑。]

2. Related Work

生成性对抗网络。生成对抗网络（GAN）[3]在各种计算机视觉任务中取得了显著的成果，如图像生成[1、6、23、31]、图像翻译[7、8、32]、超分辨率成像[13]和人脸图像合成[9、15、25、30]。典型的氮化镓模型由两个模块组成：鉴别器和发生器。鉴别器学习区分真实和虚假样本，而生成器学习生成与真实样本无法区分的虚假样本。我们的方法还利用了对抗性损失，使生成的图像尽可能逼真。
有条件的GAN。基于GAN的条件图像生成也得到了积极的研究。先前的研究为鉴别器和生成器提供了类信息，以便生成以类为条件的样本[19, 20, 21]. 最近的其他方法侧重于生成与给定文本描述高度相关的特定图像[24，29]。条件图像生成的思想也已成功应用于域转移[8，27]、超分辨率成像[13]和照片编辑[2，26]。在本文中，我们提出了一种可扩展的GAN框架，通过提供条件域信息，可以灵活地将图像转换到各种目标域。
图像到图像的翻译。最近的工作在图像到图像的翻译方面取得了令人印象深刻的成果[7、8、16、32]。例如，pix2pix[7]使用CGAN[19]以有监督的方式学习该任务。它将对抗性损失与L1损失相结合，因此需要成对的数据样本。为了缓解获取数据对的问题，提出了未配对图像到图像的翻译框架[8、16、32]。单元[16]将变分自动编码器（V AEs）[11]与CoGAN[17]相结合，CoGAN[17]是一种GAN框架，其中两个生成器共享权重，以学习图像在跨域中的联合分布。CycleGAN[32]和DiscoGAN[8]利用循环一致性损失来保留输入和翻译图像之间的关键属性。然而，所有这些框架一次只能学习两个不同领域之间的关系。他们的方法在处理多个域时具有有限的可扩展性，因为应该为每对域训练不同的模型。与上述方法不同，我们的框架可以仅使用单个模型来学习多个领域之间的关系。
在这里插入图片描述
[图3。StarGAN的概述，由两个模块组成，一个鉴别器D和一个生成器G。（a）D学习区分真实图像和虚假图像，并将真实图像分类到其相应的域。（b） G接收图像和目标域标签作为输入，并生成假图像。目标域标签在空间上复制并与输入图像连接。（c） G尝试从给定原始域标签的伪图像重建原始图像。（d） G试图生成与真实图像无法区分的图像，并通过d分类为目标域]

3. Star Generative Adversarial Networks

我们首先描述了我们提出的StarGAN，一个在单个数据集中解决多域图像到图像转换的框架。然后，我们讨论了StarGAN如何整合包含不同标签集的多个数据集，以便使用这些标签中的任何一个灵活地执行图像翻译。

3.1. Multi-Domain Image-to-Image Translation

我们的目标是训练学习多个域之间映射的单个生成器G。为了实现这一点，我们训练G将输入图像x转换为以目标域标签c，G（x，c）为条件的输出图像y→ y、我们随机生成目标域标签c，以便G学习灵活地翻译输入图像。我们还引入了一个辅助分类器[21]，它允许单个鉴别器控制多个域。也就是说，我们的鉴别器在信源和域标签上产生概率分布，D:x→ {Dsrc（x），Dcls（x）}。图3说明了我们提出的方法的训练过程。

对抗性损失。为了使生成的图像与真实图像无法区分，我们采用了对抗性损失：
在这里插入图片描述
其中，G生成以输入图像x和目标域标签c为条件的图像G（x，c），而D试图区分真实图像和虚假图像。在本文中，我们将术语Dsrc（x）称为D给出的信源上的概率分布。生成器G试图将该目标最小化38791，而鉴别器D试图将其最大化。

域分类丢失。对于给定的输入图像x和目标域标签c，我们的目标是将x转换为输出图像y，该图像y被正确分类到目标域c。为了实现此条件，我们在D的顶部添加了一个辅助分类器，并在优化D和G时施加域分类损失。也就是说，我们将目标分解为两项：用于优化D的真实图像的域分类损失和用于优化G的虚假图像的域分类损失。具体而言，前者定义为：
在这里插入图片描述
其中，术语Dcls（c′|x）表示由D计算的域标签上的概率分布。通过最小化该目标，D学习将真实图像x分类到其相应的原始域c′。我们假设输入图像和域标签对（x，c′）由训练数据给出。另一方面，伪图像域分类的损失函数定义为:
在这里插入图片描述

重建损失。通过最小化对抗和分类损失，训练G生成逼真的图像，并将其分类到正确的目标域。然而，最小化损失（等式（1）和（3））并不能保证翻译后的图像在仅更改输入的域相关部分的同时保留其输入图像的内容。为了缓解这个问题，我们对生成器应用了循环一致性损失[8，32]，定义为：
在这里插入图片描述
其中，G以翻译图像G（x，c）和原始域标签c′作为输入，并尝试重建原始图像x。我们采用L1范数作为重建损失。注意，我们使用单个生成器两次，首先将原始图像转换为目标域中的图像，然后从转换后的图像重建原始图像。
全面目标。最后，分别编写优化G和D的目标函数，如下所示：
在这里插入图片描述
其中λcls和λrec是超参数，分别控制域分类和重建损失相对于对抗损失的相对重要性。我们在所有实验中使用λcls=1和λrec=10。

3.2. Training with Multiple Datasets

StarGAN的一个重要优点是，它同时合并了包含不同类型标签的多个数据集，因此StarGAN可以在测试阶段控制所有标签。然而，从多个数据集学习时的一个问题是，每个数据集只知道部分标签信息。在CelebA[18]和RaFD[12]的情况下，前者包含诸如头发颜色和性别等属性的标签，但它没有任何诸如“高兴”和“愤怒”等面部表情的标签，反之亦然。这是有问题的，因为当从翻译图像G（x，c）重建输入图像x时，需要标签向量c′上的完整信息（参见等式（4））。

**掩码向量。**为了缓解这个问题，我们引入了掩码向量m，该向量允许StarGAN忽略未指定的标签，并专注于特定数据集提供的显式已知标签。在StarGAN中，我们使用n维一维热向量来表示m，其中n是数据集的数量。此外，我们将标签的统一版本定义为向量。
在这里插入图片描述
其中[·]表示串联，ci表示第i个数据集标签的向量。已知标签ci的向量可以表示为二进制属性的二进制向量或分类属性的单热向量。对于剩余的n−1未知标签我们只分配零值。在我们的实验中，我们利用了CelebA和RaFD数据集，其中n为2。
培训策略。当使用多个数据集训练StarGAN时，我们使用等式（7）中定义的域标签▄c作为生成器的输入。通过这样做，生成器学习忽略未指定的标签（零向量），并专注于显式给定的标签。生成器的结构与使用单个数据集进行训练时的结构完全相同，但输入标签的维数除外。另一方面，我们扩展了鉴别器的辅助分类器，以生成所有数据集标签上的概率分布。然后，我们在多任务学习环境中训练模型，其中鉴别器尝试仅最小化与已知标签相关的分类错误。例如，当使用CelebA中的图像进行训练时，鉴别器仅最小化与CelebA属性相关的标签的分类错误，而不最小化与RaFD相关的面部表情。在这些设置下，通过在CelebA和RaFD之间交替，鉴别器学习两个数据集中的所有判别特征，生成器学习控制两个数据集中的所有标签。
在这里插入图片描述

4. Implementation

改进了GAN训练。为了稳定训练过程并生成更高质量的图像，我们将等式（1）替换为具有梯度惩罚[1，4]的Wasserstein-GAN目标，定义为：
在这里插入图片描述
其中ˆx沿一对真实图像和生成图像之间的直线均匀采样。我们在所有实验中使用λgp=10。

**网络架构。**改编自[32]，StarGAN具有由两个步长为2的卷积层（用于下采样）、六个残差块[5]和两个步长为2的转置卷积层（用于上采样）组成的生成器网络。我们对生成器使用实例归一化[28]，但对鉴别器不使用归一化。我们利用PatchGANs[7，14，32]作为鉴别器网络，该网络将局部图像补丁划分为真实还是虚假。见附录（第节）有关网络架构的更多详细信息。

5. Experiments

在本节中，我们首先通过进行用户研究，将StarGAN与最近的人脸属性转移方法进行比较。接下来，我们对面部表情合成进行了分类实验。最后，我们证明了实验结果，StarGAN可以从多个数据集学习图像到图像的翻译。我们的所有实验都是在训练阶段使用从看不见的图像中输出的模型进行的。

5.1. Baseline Models

作为我们的基线模型，我们采用DIA T[15]和CycleGAN[32]，这两种模型都在两个不同的域之间执行图像到图像的转换。为了进行比较，我们针对两个不同领域的每一对对对这些模型进行了多次训练。我们还采用IcGAN[22]作为基线，可以使用cGAN[21]执行属性转移。

DIAT使用对抗性损失从x学习映射∈ X到y∈ Y，其中x和Y分别是两个不同域x和Y中的人脸图像。该方法在映射上有一个正则项，即| | x− F（G（x））||1保留源图像的身份特征，其中F是在人脸识别任务中预训练的特征提取器。

CycleGAN还使用对抗损失来学习两个不同域X和Y之间的映射。该方法通过循环一致性损失| | x正则化映射− （GY X（GXY（X）））|1和||y− （GXY（GY X（y））||1。该方法需要两个生成器和鉴别器，用于两个不同域的每对。

IcGAN将编码器与cGAN[21]模型相结合。cGAN学习映射G：{z，c}→ x生成以潜在向量z和条件向量c为条件的图像x。此外，IcGAN引入编码器来学习cGAN的逆映射，Ez:x→ z和Ec:x→ c、这使得IcGAN只需改变条件向量并保留潜在向量即可合成图像。

在这里插入图片描述

5.2. Datasets

CelebA.。CelebFaces Attributes（CelebA）数据集[18]包含202599张名人的面部图像，每个图像都带有40个二进制属性的注释。我们将最初的178×218大小的图像裁剪为178×178，然后将其调整为128×128。我们随机选择2000幅图像作为测试集，并使用所有剩余图像作为训练数据。我们使用以下属性构建了七个域：头发颜色（黑色、金色、棕色）、性别（男性/女性）和年龄（年轻/老年）。

RaFD.Radboud人脸数据库（RaFD）[12]由从67名参与者收集的4824张图像组成。每个参与者在三个不同的注视方向上做出八个面部表情，从三个不同的角度捕捉。我们将图像裁剪为256×256，其中面居中，然后将其大小调整为128×128。

5.3. Training

所有模型均使用Adam[10]进行训练，β1=0.5，β2=0.999。对于数据增强，我们以0.5的概率水平翻转图像。我们在五次鉴别器更新之后执行一次生成器更新，如[4]所示。所有实验的批量大小都设置为16。对于CelebA的实验，我们在前10个阶段以0.0001的学习率训练所有模型，并在接下来的10个阶段将学习率线性衰减为0。为了弥补数据的不足，当使用RaFD进行训练时，我们以0.0001的学习率训练100个时代的所有模型，并在接下来的100个时代应用相同的衰减策略。在单个NVIDIA Tesla M40 GPU上进行培训大约需要一天。

5.4. Experimental Results on CelebA

我们首先在单属性和多属性传输任务上将我们提出的方法与基线模型进行比较。考虑到所有可能的属性值对，我们多次训练跨域模型，如DIAT和CycleGAN。在DIAT和CycleGAN的情况下，我们执行多步骤翻译来合成多个属性（例如，在改变头发颜色后转移性别属性）。

定性评估。图4显示了CelebA上的面部属性转移结果。我们观察到，与跨域模型相比，我们的方法在测试数据上提供了更高的视觉质量的翻译结果。一个可能的原因是StarGAN通过多任务学习框架的正则化效应。换句话说，我们训练模型根据目标域的标签灵活地翻译图像，而不是训练模型执行固定的翻译（例如棕色到金色的头发），这容易过度拟合。这使得我们的模型能够学习普遍适用于具有不同面部属性值的多个图像域的可靠特征。

此外，与IcGAN相比，我们的模型在保留输入的面部身份特征方面具有优势。我们推测这是因为我们的方法通过使用卷积层的激活图作为潜在表示来维护空间信息，而不是像IcGAN中那样仅使用低维潜在向量。

定量评估协议。为了进行定量评估，我们使用Amazon Mechanical Turk（AMT）以调查的形式进行了两项用户研究，以评估单属性和多属性转移任务。给定输入图片，指示Turkers根据感知真实感、属性传递质量和人物原始身份的保留来选择生成的最佳图像。选项是由四种不同方法生成的四个随机洗牌图像。在一项研究中，生成的图像在头发颜色（黑色、金色、棕色）、性别或年龄方面具有单一属性转换。在另一项研究中，生成的图像涉及属性转换的组合。每个土耳其人都被问了30到40个问题，还有几个简单但合乎逻辑的问题，以验证人类的努力。在单个和多个转移任务中，每个用户研究中验证的Turker数分别为146和100。
在这里插入图片描述

定量结果。表1和表2分别显示了我们在单属性和多属性转移任务上的AMT实验结果。斯塔根在所有情况下都获得了最佳转移属性的多数选票。在表1中的性别变化情况下，我们的模型与其他模型之间的投票差异很小，例如，StarGAN的投票率为39.1%，DIA T的投票率为31.4%。然而，在多属性变化情况下，例如表2中的“g+A”情况，性能差异变得显著，例如，StarGAN的投票率为49.8%，IcGAN的投票率为20.3%），这清楚地表明了StarGAN在更复杂、，多属性传输任务。这是因为与其他方法不同，StarGAN可以通过在训练阶段随机生成目标域标签来处理涉及多个属性变化的图像转换。

5.5. Experimental Results on RaFD

接下来，我们在RaFD数据集上训练我们的模型，以学习合成面部表情的任务。为了比较StarGAN模型和基线模型，我们将输入域固定为“中性”表达式，但目标域在其余七个表达式中有所不同。

定性评估。如图5所示，StarGAN在正确保持输入的个人身份和面部特征的同时，清楚地生成最自然的表情。虽然DIA T和CycleGAN大多保留了输入的身份，但他们的许多结果显示模糊，无法保持输入中的清晰度。IcGAN甚至无法通过生成男性形象来保持形象中的个人身份。

我们认为，StarGAN在图像质量方面的优势是由于其在多任务学习环境中的隐式数据增强效应。RaFD图像包含相对较小的样本大小，例如，每个域包含500个图像。当在两个域上训练时，DIA T和CycleGAN一次只能使用1000个训练图像，但StarGAN可以使用所有可用域中的4000个图像进行训练。这使StarGAN能够正确地学习如何保持生成输出的质量和清晰度。

定量评估。为了定量评估，我们计算了合成图像上人脸表情的分类误差。我们使用ResNet-18架构[5]在RaFD数据集上训练面部表情分类器（90%/10%分割用于训练集和测试集），获得接近完美的准确率99.55%。然后，我们使用相同的训练集训练每个图像翻译模型，78795在相同的、看不见的测试集上执行图像翻译。最后，我们使用上述分类器对这些翻译图像的表达进行分类。如表3所示，我们的模型实现了最低的分类误差，这表明我们的模型在所有比较的方法中产生了最真实的面部表情。
在这里插入图片描述
我们模型的另一个重要优点是在所需参数数量方面的可扩展性。表3的最后一列显示，StarGAN学习所有翻译所需的参数数量比DIA T小7倍，比CycleGAN小14倍。这是因为StarGAN只需要一个生成器和鉴别器对，而与域的数量无关，而在跨域模型（如CycleGAN）的情况下，应为每个源-目标域对训练完全不同的模型。

5.6. Experimental Results on CelebA+RaFD

最后，我们实证证明，我们的模型不仅可以从单个数据集中的多个领域学习，还可以从多个数据集中学习。我们使用掩码向量在CelebA和RaFD数据集上联合训练我们的模型（见第3.2节）。为了区分仅在RaFD上训练的模型和同时在CelebA和RaFD上训练的模型，我们将前者表示为StarGAN SNG（单个），后者表示为StarGAN JNT（联合）。

联合训练的效果。图6显示了StarGAN SNG和StarGAN JNT之间的定性比较，其中任务是在CelebA中合成图像的面部表情。StarGAN JNT展示了高视觉质量的情感表达，而StarGAN SNG生成了合理但模糊的灰色背景图像。这种差异是由于StarGAN JNT在训练期间学习翻译CelebA图像，而不是StarGAN SNG。换句话说，StarGAN JNT可以利用这两个数据集来改进共享的低级任务，例如面部关键点检测和分割。通过同时利用CelebA和RaFD，StarGAN JNT可以改进这些低级任务，这有利于学习面部表情合成。

学习了掩码向量的作用。在本实验中，我们通过将特定面部表情的维度（可从第二个数据集RaFD获得）设置为1。在这种情况下，由于明确给出了与第二个数据集相关联的标签，因此适当的掩码向量将为[0，1]。图7显示了给出该正确掩码向量的情况，以及给出错误掩码向量[1，0]的相反情况。当使用错误的掩码向量时，StarGAN JNT无法合成面部表情，并且它会处理输入图像的年龄。这是因为该模型忽略了未知的面部表情标签，并通过掩码向量将面部属性标签视为有效。请注意，由于其中一个面部属性是“年轻的”，因此当模型将零向量作为输入时，它会将图像从年轻转换为老年。从这一行为中，我们可以确认，当涉及多个数据集的所有标签时，StarGAN正确地了解了掩码向量在图像到图像翻译中的预期作用。

6. Conclusion

在本文中，我们提出了StarGAN，这是一种使用单个生成器和鉴别器在多个域之间进行可扩展的图像到图像转换的模型。除了在可扩展性方面的优势外，由于多任务学习设置背后的泛化能力，与现有方法[15、22、32]相比，StarGAN生成的图像具有更高的视觉质量。此外，使用拟议的简单掩码向量使StarGAN能够利用具有不同域标签集的多个数据集，从而处理其中的所有可用标签。我们希望我们的工作能够让用户跨多个领域开发有趣的图像翻译应用程序。

致谢。这项工作主要是在第一作者在NAVER的Clova AI research进行研究实习时完成的。我们感谢NAVER的所有研究人员，尤其是郭东玄，他们进行了富有洞察力的讨论。这项工作得到了韩国政府（MSIP）资助的韩国国家研究基金会（NRF）拨款的部分支持（编号：NRF2016R1C1B2015924）。周是通讯作者。

References

[1] M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gen-
erative adversarial networks. In Proceedings of the 34th In-
ternational Conference on Machine Learning (ICML), pages
214–223, 2017. 2, 5
[2] A. Brock, T. Lim, J. M. Ritchie, and N. Weston. Neural
photo editing with introspective adversarial networks. arXiv
preprint arXiv:1609.07093, 2016. 3
[3] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,
D. Warde-Farley, S. Ozair, A. Courville, and Y . Bengio. Gen-
erative adversarial nets. In Advances in Neural Information
Processing Systems (NIPS), pages 2672–2680, 2014. 2
[4] I. Gulrajani, F. Ahmed, M. Arjovsky, V . Dumoulin, and
A. Courville. Improved training of wasserstein gans. arXiv
preprint arXiv:1704.00028, 2017. 5, 6
[5] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In Proceedings of the IEEE confer-
ence on Computer Vision and Pattern Recognition (CVPR),
pages 770–778, 2016. 5, 7
[6] X. Huang, Y . Li, O. Poursaeed, J. Hopcroft, and S. Be-
longie. Stacked generative adversarial networks. In The
IEEE Conference on Computer Vision and Pattern Recog-
nition (CVPR), July 2017. 2
[7] P . Isola, J.-Y . Zhu, T. Zhou, and A. A. Efros. Image-to-image
translation with conditional adversarial networks. In Pro-
ceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2017. 1, 2, 3, 5
[8] T. Kim, M. Cha, H. Kim, J. K. Lee, and J. Kim. Learning to
discover cross-domain relations with generative adversarial
networks. In Proceedings of the 34th International Confer-
ence on Machine Learning (ICML), pages 1857–1865, 2017.
1, 2, 3, 4
[9] T. Kim, B. Kim, M. Cha, and J. Kim. Unsupervised visual
attribute transfer with reconfigurable generative adversarial
networks. arXiv preprint arXiv:1707.09798, 2017. 2
[10] D. Kingma and J. Ba. Adam: A method for stochastic opti-
mization. arXiv preprint arXiv:1412.6980, 2014. 6
[11] D. P . Kingma and M. Welling. Auto-encoding variational
bayes. In Proceedings of the 2nd International Conference
on Learning Representations (ICLR), 2014. 3
[12] O. Langner, R. Dotsch, G. Bijlstra, D. H. Wigboldus, S. T.
Hawk, and A. V an Knippenberg. Presentation and valida-
tion of the radboud faces database. Cognition and Emotion,
24(8):1377–1388, 2010. 2, 4, 6
[13] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunning-
ham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and
W. Shi. Photo-realistic single image super-resolution using a
generative adversarial network. In The IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2017. 2,
3
[14] C. Li and M. Wand. Precomputed real-time texture synthesis
with markovian generative adversarial networks. In Proceed-
ings of the 14th European Conference on Computer Vision
(ECCV), pages 702–716, 2016. 5
[15] M. Li, W. Zuo, and D. Zhang. Deep identity-aware transfer
of facial attributes. arXiv preprint arXiv:1610.05586, 2016.
2, 5, 8
[16] M.-Y . Liu, T. Breuel, and J. Kautz. Unsupervised
image-to-image translation networks. arXiv preprint
arXiv:1703.00848, 2017. 3
[17] M.-Y . Liu and O. Tuzel. Coupled generative adversarial net-
works. In Advances in Neural Information Processing Sys-
tems (NIPS), pages 469–477, 2016. 3
[18] Z. Liu, P . Luo, X. Wang, and X. Tang. Deep learning face
attributes in the wild. In Proceedings of the IEEE Interna-
tional Conference on Computer Vision (ICCV), 2015. 2, 4,
6
[19] M. Mirza and S. Osindero. Conditional generative adversar-
ial nets. arXiv preprint arXiv:1411.1784, 2014. 3
[20] A. Odena. Semi-supervised learning with generative adver-
sarial networks. arXiv preprint arXiv:1606.01583, 2016. 3
[21] A. Odena, C. Olah, and J. Shlens. Conditional image
synthesis with auxiliary classifier gans. arXiv preprint
arXiv:1610.09585, 2016. 3, 5
[22] G. Perarnau, J. van de Weijer, B. Raducanu, and J. M.
Álvarez. Invertible conditional gans for image editing. arXiv
preprint arXiv:1611.06355, 2016. 5, 8
[23] A. Radford, L. Metz, and S. Chintala. Unsupervised repre-
sentation learning with deep convolutional generative adver-
sarial networks. arXiv preprint arXiv:1511.06434, 2015. 2
[24] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and
H. Lee. Generative adversarial text to image synthesis. arXiv
preprint arXiv:1605.05396, 2016. 3
[25] W. Shen and R. Liu. Learning residual images for face at-
tribute manipulation. In The IEEE Conference on Computer
Vision and Pattern Recognition (CVPR), 2017. 2
[26] Z. Shu, E. Y umer, S. Hadap, K. Sunkavalli, E. Shechtman,
and D. Samaras. Neural face editing with intrinsic image
disentangling. In The IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), 2017. 3
[27] Y . Taigman, A. Polyak, and L. Wolf. Unsupervised cross-
domain image generation. In 5th International Conference
on Learning Representations (ICLR), 2017. 3
[28] D. Ulyanov, A. V edaldi, and V . Lempitsky. Instance normal-
ization: The missing ingredient for fast stylization. arXiv
preprint arXiv:1607.08022, 2016. 5
[29] H. Zhang, T. Xu, H. Li, S. Zhang, X. Huang, X. Wang, and
D. Metaxas. Stackgan: Text to photo-realistic image syn-
thesis with stacked generative adversarial networks. arXiv
preprint arXiv:1612.03242, 2016. 3
[30] Z. Zhang, Y . Song, and H. Qi. Age progression/regression
by conditional adversarial autoencoder. In The IEEE Confer-
ence on Computer Vision and Pattern Recognition (CVPR),
July 2017. 2
[31] J. Zhao, M. Mathieu, and Y . LeCun. Energy-based genera-
tive adversarial network. In 5th International Conference on
Learning Representations (ICLR), 2017. 2
[32] J.-Y . Zhu, T. Park, P . Isola, and A. A. Efros. Unpaired image-
to-image translation using cycle-consistent adversarial net-
works. In Proceedings of the IEEE International Conference
on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8

啊菜来了

关注

4
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
0
评论
风格迁移篇--StarGAN：用于多域图像到图像翻译的统一生成对抗网络

StarGAN的这种统一模型架构允许在单个网络中同时训练具有不同域的多个数据集。这使得StarGAN的翻译图像质量优于现有模型，并且能够灵活地将输入图像翻译到任何所需的目标域。
复制链接

扫一扫