[论文共读][翻译][CycleGAN] Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

论文地址

论文翻译:
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
使用周期一致性对抗网络的未配对图像到图像转换

0. 摘要

图像到图像转换是一类视觉和图形问题,其目标是使用一组对齐的图像对的训练来学习输入图像和输出图像之间的映射。但是,对于许多任务,配对训练数据将不可用。我们提出了一种学习方法,用于在没有配对样本的情况下将图像从源域 X 转换为目标域 Y。我们的目标是学习 G : X → Y 的映射,使得 G(X) 的图像分布与使用对抗损失的分布 Y 无法区分。由于这种映射受到高度欠限,我们将其与反向映射 F : Y → X 耦合,并引入周期一致性损失以强制 F(G(X)) ≈ X(反之亦然)。在不存在配对训练数据的几个任务上呈现了定性结果,包括集合样式转移、对象变形、季节转移、照片增强等。与几种先前方法的定量比较证明了我们方法的优越性。

1. 介绍

克劳德·莫奈(Claude Monet)在1873年一个美丽的春日将画架放在阿让特伊(Argenteuil)附近的塞纳河岸边时看到了什么(图1,左上角)?如果一张彩色照片是被发明出来的,它可能会记录下清脆的蓝天和一条倒映它的玻璃般的河流。莫奈通过轻盈的笔触和明亮的调色板传达了他对同一场景的印象。

如果莫奈在一个凉爽的夏日傍晚偶然出现在卡西斯的小港口(图1,左下角)会怎样?在莫奈的画廊中短暂漫步,可以想象他会如何渲染这个场景:也许是柔和的色调,带有突兀的颜料,以及一些平坦的动态范围。

我们可以想象这一切,尽管从未在他画的场景照片旁边看到过莫奈画作的并排例子。取而代之的是,我们了解了莫奈的一组画作和一组风景照片。我们可以推断出它们之间的风格差异两个集合,从而想象如果我们要将其从一个集合“翻译”到另一个集合,场景会是什么样子。

在本文中,我们提出了一种可以学习做同样事情的方法:捕获一个图像集合的特殊特征,并弄清楚如何将这些特征转化为另一个图像集合,所有这些都是在没有任何配对训练示例的情况下进行的。

这个问题可以更广泛地描述为图像到图像的转换[22],将图像从给定场景的一种表示形式x转换为另一种表示形式y,例如,将灰度转换为颜色,将图像转换为语义标签,将边缘映射转换为照片。在计算机视觉、图像处理、计算摄影和图形学方面的多年研究已经在监督设置中产生了强大的翻译系统,其中示例图像对 {习 , yi} N i=1 可用(图 2,左),例如 [11, 19, 22, 23, 28, 33, 45, 56, 58, 62]。但是,获取配对训练数据可能既困难又昂贵。例如,对于语义分割等任务(例如,[4]),只有几个数据集存在,而且它们相对较小。获取图形任务(如艺术风格化)的输入输出对可能更加困难,因为所需的输出非常复杂,通常需要艺术创作。对于许多任务,如对象变形(例如,斑马↔马,图 1 中上),所需的输出甚至没有明确定义。

因此,我们寻求一种算法,该算法可以在没有成对输入输出示例的情况下学习在域之间进行转换(图 2,右)。我们假设域之间存在某种潜在的关系——例如,它们是同一底层场景的两种不同渲染——并试图学习这种关系。尽管我们缺乏成对样本形式的监督,但我们可以在集合级别上利用监督:我们在域 X 中获得了一组图像,在域 Y 中获得了另一组图像。我们可以训练映射 G : X → Y,使得输出 yˆ = G(x), x ∈ X,与图像 y ∈ Y 无法区分,因为对手被训练将 yˆ 与 y 分开分类。从理论上讲,这个目标可以诱导出与经验分布pdata(y)匹配的yˆ输出分布(一般来说,这要求G是随机的)[16]。因此,最优 G 将域 X 转换为与 Y 分布相同的域 Yˆ。然而,这种转换并不能保证单个输入 x 和输出 y 以有意义的方式配对——有无限多的映射 G 会在 yˆ 上产生相同的分布。此外,在实践中,我们发现很难孤立地优化对抗性目标:标准程序通常会导致众所周知的模式崩溃问题,即所有输入图像都映射到相同的输出图像,而优化无法取得进展[15]。

这些问题要求为我们的目标增加更多的结构。因此,我们利用了翻译应该是“周期一致”的特性,从某种意义上说,如果我们将一个句子从英语翻译成法语,然后再将其从法语翻译成英语,我们应该回到原始句子[3]。从数学上讲,如果我们有一个转换器 G : X → Y,另一个转换器 F : Y → X,那么 G 和 F 应该是彼此的倒数,并且两个映射都应该是双射。我们通过同时训练映射 G 和 F,并添加周期一致性损失 [64] 来应用这一结构假设,该损失鼓励 F(G(x)) ≈ x 和 G(F(y)) ≈ y。将这种损失与域 X 和 Y 上的对抗性损失相结合,可以得出我们实现不成对图像到图像转换的全部目标。

我们将我们的方法应用于广泛的应用,包括收藏风格转移、物体变形、季节转移和照片增强。我们还与以前的方法进行了比较,这些方法要么依赖于手动定义的样式和内容分解,要么依赖于共享嵌入函数,并表明我们的方法优于这些基线。我们提供 PyTorch 和 Torch 实现。在我们的网站上查看更多结果。
在这里插入图片描述

2. 相关工作

生成对抗网络(GANs) [16,63]在图像生成[6,39]、图像编辑[66]和表征学习[39,43,37]方面取得了令人印象深刻的成果。最近的方法在条件图像生成应用中采用了相同的思想,如text2image [41]、图像修复[38]和未来预测[36],以及视频[54]和3D数据[57]等其他领域。GANs成功的关键是对抗性损失的概念,这种损失迫使生成的图像原则上与真实照片无法区分。这种损失对于图像生成任务来说尤其强大,因为这正是许多计算机图形学旨在优化的目标。我们采用对抗性损失(adversarial loss)来学习映射,使得翻译无法将图像与目标域中的图像区分开来。
在这里插入图片描述

在这里插入图片描述

图像到图像翻译 图像到图像翻译的想法至少可以追溯到 Hertzmann 等人的图像类比 [19],他们在单个输入输出训练图像对上采用了非参数纹理模型 [10]。最近的方法使用输入输出示例数据集来学习使用CNN的参数翻译函数(例如,[33])。我们的方法建立在Isola等人[22]的“pix2pix”框架之上,该框架使用条件生成对抗网络[16]来学习从输入图像到输出图像的映射。类似的想法已经应用于各种任务,例如从草图[44]或属性和语义布局[25]生成照片。然而,与上述先前的工作不同,我们在没有配对训练示例的情况下学习映射。

未配对的图像到图像转换 其他几种方法也处理未配对设置,其中目标是关联两个数据域:X 和 Y。Rosales等[42]提出了一个贝叶斯框架,该框架包括一个基于从源图像计算的基于补丁的马尔可夫随机场的先验和一个从多种样式图像获得的似然项。最近,CoGAN [32] 和跨模态场景网络 [1] 使用权重共享策略来学习跨域的共同表示。Liu等[31]通过结合变分自编码器[27]和生成对抗网络[16]扩展了上述框架。另一行并发工作[46,49,2]鼓励输入和输出共享特定的“内容”特性,即使它们在“样式”上可能有所不同。这些方法还使用对抗网络,并附加术语来强制输出接近预定义度量空间中的输入,例如类标签空间 [2]、图像像素空间 [46] 和图像特征空间 [49]。

与上述方法不同,我们的公式不依赖于任何特定于任务的预定义相似度函数补间输入和输出,我们也不假设输入和输出必须位于同一个低维嵌入空间中。这使我们的方法成为许多视觉和图形任务的通用解决方案。在第 5.1 节中,我们直接与几种先前和现代的方法进行了比较。

周期一致性 使用传递性作为正则化结构化数据的一种方式的想法由来已久。在视觉追踪中,几十年来,强制执行简单的前向-后向一致性一直是标准技巧[24,48]。在语言领域,通过“反向翻译和对账”来验证和改进翻译是人类翻译[3](包括马克吐温[51])以及机器[17]使用的一种技术。最近,高阶周期一致性已被用于运动结构[61]、3D形状匹配[21]、共分割[55]、密集语义对齐[65,64]和深度估计[14]。其中,周等[64]和戈达尔等[14]与我们的工作最为相似,因为他们使用周期一致性损失作为利用传递性来监督CNN训练的一种方式。在这项工作中,我们引入了类似的损失来推动 G 和 F 彼此一致。在我们的工作的同时,在这些相同的程序中,Yi等[59]独立使用类似的目标进行不成对的图像到图像翻译,其灵感来自机器翻译中的对偶学习[17]。

神经风格迁移 [13, 23, 52, 12] 是执行图像到图像翻译的另一种方法,它通过匹配预训练深度特征的 Gram 矩阵统计量,将一个图像的内容与另一个图像(通常是绘画)的风格相结合来合成新颖的图像。另一方面,我们的主要关注点是通过尝试捕获更高级别的外观结构之间的对应关系来学习两个图像集合之间的映射,而不是两个特定图像之间的映射。因此,我们的方法可以应用于其他任务,如绘画→照片、物体变形等,在这些任务中,单个样本转移方法效果不佳。我们将在第 5.2 节中比较这两种方法。

3. 方程

我们的目标是在给定训练样本 {习} N i=1 (其中 习 ∈ X 和 {yj}M j=1 (其中 yj ∈ Y 1 )的情况下学习两个域之间的映射函数。我们将数据分布表示为 x ∼ pdata(x) 和 y ∼ pdata(y)。如图 3 (a) 所示,我们的模型包括两个映射 G : X → Y 和 F : Y → X。此外,我们还引入了两个对抗判别器DX和DY,其中DX旨在区分图像{x}和翻译图像{F(y)};同样,DY 旨在区分 {y} 和 {G(x)}。我们的目标包含两类术语:对抗性损失 [16],用于将生成图像的分布与目标域中的数据分布相匹配;以及周期一致性损失,以防止学习的映射 G 和 F 相互矛盾。

3.1 对抗性损失
我们将对抗性损失 [16] 应用于两个映射函数。对于映射函数 G : X → Y 及其判别器 DY ,我们将目标表示为:
在这里插入图片描述
其中 G 试图生成看起来与域 Y 中的图像相似的图像 G(x),而 DY 旨在区分翻译样本 G(x) 和真实样本 y。 G 旨在最小化此目标,对抗试图最大化该目标的对手 D,即 minG maxDY LGAN(G, DY , X, Y )。我们为映射函数 F : Y → X 及其判别器 DX 引入了类似的对抗损失: 即 minF maxDX LGAN(F, DX, Y, X)

3.2 周期一致性损失
从理论上讲,对抗性训练可以学习映射 G 和 F,这些映射产生的输出分别作为目标域 Y 和 X 分布相同(严格来说,这要求 G 和 F 是随机函数)[15]。但是,如果容量足够大,网络可以将同一组输入图像映射到目标域中的任何随机图像排列,其中任何学习的映射都可以诱导出与目标分布匹配的输出分布。因此,仅靠对抗性损失并不能保证学习到的函数可以将单个输入习映射到所需的输出 yi 。为了进一步减少可能的映射函数的空间,我们认为学习到的映射函数应是周期一致的:如图 3 (b) 所示,对于域 X 中的每个图像 x,图像平移周期应能够将 x 带回原始图像,即 x → G(x) → F(G(x)) ≈ x。我们称之为前向周期一致性。同样,如图 3 (c) 所示,对于来自域 Y 的每个图像 y,G 和 F 也应满足后向周期一致性:y → F(y) → G(F(y)) ≈ y。我们使用周期一致性损失来激励这种行为:
在这里插入图片描述
在初步实验中,我们还尝试用F(G(x))和x之间以及G(F(y))和y之间的对抗性损失来替换此损失中的L1范数,但没有观察到性能的提高。由周期一致性损失引起的行为可以在图4中观察到:重建的图像F(G(x))最终与输入图像x紧密匹配。

3.3 完整目标
我们的全部目标是:
在这里插入图片描述
其中 λ 控制两个目标的相对重要性。我们的目标是解决:
在这里插入图片描述
请注意,我们的模型可以看作是训练两个“自动编码器”[20]:我们学习一个自动编码器 F ◦ G : X → X 与另一个 G◦F : Y → Y 一起学习。然而,这些自动编码器都有特殊的内部结构:它们通过中间表示将图像映射到自身,该中间表示是将图像转换为另一个域。这种设置也可以看作是“对抗性自编码器”[34]的一种特例,它使用对抗性损失来训练自编码器的瓶颈层以匹配任意目标分布。在我们的例子中,X → X 自动编码器的目标分布是域 Y 的目标分布。

在第 5.1.4 节中,我们将我们的方法与完整目标的消融进行了比较,包括单独的对抗性损失 LGAN 和单独的循环一致性损失 Lcyc,并实证表明这两个目标在获得高质量结果方面都起着关键作用。我们还评估了我们的方法,仅在一个方向上损失了周期,并表明单个周期不足以使这个约束不足问题的训练正规化。

4. 实施

网络架构 我们采用了Johnson等人[23]的生成网络架构,他们在神经风格迁移和超分辨率方面取得了令人印象深刻的结果。该网络包含三个卷积、几个残差块 [18]、两个步幅为 1 2 的小数步长卷积,以及一个将特征映射到 RGB 的卷积。我们使用 6 个块来存储 128 × 128 张图像,使用 9 个块来存储 256×256 和更高分辨率的训练图像。与Johnson等[23]类似,我们使用实例归一化[53]。对于判别器网络,我们使用 70 × 70 个 PatchGAN [22, 30, 29],旨在对 70 × 70 个重叠的图像补丁是真实的还是假的进行分类。这种补丁级鉴别器架构的参数比全图像鉴别器少,并且可以以完全卷积的方式处理任意大小的图像[22]。

训练细节 我们应用了最近工作中的两种技术来稳定我们的模型训练过程。首先,对于LGAN(公式1),我们用最小二乘损失替换负对数似然目标[35]。这种损失在训练期间更稳定,并产生更高质量的结果。具体而言,对于 GAN 损失 LGAN(G, D, X, Y),我们训练 G 以最小化 Ex∼pdata(x) [(D(G(x)) − 1)2 ] 并训练 D 以最小化 Ey∼pdata(y) [(D(y) − 1)2 ] + Ex∼pdata(x) [D(G(x))2 ]。

其次,为了减少模型振荡[15],我们遵循Shrivastava等人[46]的策略,并更新了判别器,使用生成的图像的历史记录,而不是由最新生成器生成的图像。我们保留一个图像缓冲区,用于存储之前创建的 50 个图像。

对于所有实验,我们在公式 3 中设置 λ = 10。我们使用亚当求解器[26],批量大小为1。所有网络都是从头开始训练的,学习率为 0.0002。我们在前 100 个纪元中保持相同的学习率,并在接下来的 100 个纪元中将学习率线性衰减为零。有关数据集、架构和训练过程的更多详细信息,请参阅附录(第 7 节)。

5. 结果

我们首先将我们的方法与最近在配对数据集上进行未配对图像到图像转换的方法进行了比较,在这些数据集中,真值输入输出对可用于评估。然后,我们研究了对抗性损失和周期一致性损失的重要性,并将我们的完整方法与几种变体进行了比较。最后,我们证明了我们的算法在不存在配对数据的广泛应用中的通用性。为简洁起见,我们将我们的方法称为 CycleGAN。PyTorch 和 Torch 代码、模型和完整结果可以在我们的网站上找到。

5.1. 评估
使用与“pix2pix”[22]相同的评估数据集和指标,我们将我们的方法与几个基线进行了定性和定量的比较。这些任务包括在Cityscapes数据集上写语义标签↔照片[4],以及在从Google地图抓取的数据上拍摄地图↔航拍照片。我们还对全损失函数进行消融研究。

5.1.1 评估指标
AMT感知研究 在地图↔航拍任务中,我们在 Amazon Mechanical Turk(AMT)上运行“真实与虚假”的感知研究,以评估我们输出的真实性。我们遵循Isola等人[22]的相同感知研究方案,不同之处在于我们测试的每个算法仅收集了25名参与者的数据。向参与者展示了一系列成对的图像,一张是真实的照片或地图,一张是假的(由我们的算法或基线生成),并被要求点击他们认为真实的图像。每个会议的前 10 个试验都是练习,并就参与者的回答是正确的还是不正确的进行反馈。其余40项试验用于评估每种算法欺骗参与者的比率。每个会话只测试一个算法,参与者只被允许完成一个会话。我们在这里报告的数字与[22]中的数字没有直接可比性,因为我们的地面实况图像的处理方式略有不同2,我们测试的参与者群体可能有所不同从 [22] 中的测试中分发(由于在不同的日期和时间运行实验)。因此,我们的数字只应用于将我们当前的方法与基线(在相同条件下运行)进行比较,而不是与[22]进行比较。

FCN 分数 尽管感知研究可能是评估图形真实感的黄金标准,但我们也在寻求一种不需要人体实验的自动定量测量。为此,我们采用了 [22] 中的“FCN 分数”,并用它来评估 Cityscapes 标签→照片任务。FCN 指标根据现成的语义分割算法([33] 中的全卷积网络 FCN)评估生成的照片的可解释性。FCN 预测生成的照片的标签映射。然后,可以使用标准语义将此标签映射与输入的真值标签进行比较,细分指标如下所述。直觉是,如果我们从“道路上的汽车”的标签地图生成一张照片,那么如果应用于生成的照片的 FCN 检测到“道路上的汽车”,那么我们就成功了。

语义分割指标 为了评估照片→标签的性能,我们使用了Cityscapes基准测试[4]中的标准指标[4],包括每像素准确率、每类准确率和平均类交叉并集(Class IOU)[4]。

5.1.2 基线
CoGAN [32] 这种方法学习一个用于域 X 的 GAN 生成器和一个用于域 Y 的 GAN 生成器,在前几层上具有相同的权重以表示共享潜在表示。从 X 到 Y 的转换可以通过找到一个生成图像 X 的潜在表示,然后将此潜在表示渲染为样式 Y 来实现。
SimGAN [46] 与我们的方法一样,Shrivastava 等[46] 使用对抗损失来训练从 X 到 Y 的翻译。正则化项 kx − G(x)k1 i s 用于惩罚在像素级别进行大更改。
在这里插入图片描述
在这里插入图片描述
特征损失 + GAN 我们还测试了 SimGAN [46] 的一个变体,其中 L1 损失是使用预训练网络 (VGG-16 relu4 2 [47]) 在深度图像特征上计算的,而不是在 RGB 像素值上计算的。像这样,在深度特征空间中计算距离有时也被称为使用“感知损失”[8,23]。

BiGAN/ALI [9,7] 无条件 GAN [16] 学习生成器 G : Z → X,该生成器将随机噪声 z 映射到图像 x。BiGAN [9] 和 ALI [7] 也提出学习逆映射函数 F : X → Z。虽然它们最初是为将潜在向量 z 映射到图像 x 而设计的,但我们实现了相同的目标,用于将源图像 x 映射到目标图像 y。

pix2pix [22] 我们还与在配对数据上训练的 pix2pix [22] 进行比较,看看在不使用任何配对数据的情况下,我们可以多么接近这个“上限”。

为了公平比较,我们使用与我们的方法相同的架构和细节来实现所有基线,除了 CoGAN [32]。CoGAN建立在生成器之上,这些生成器从共享的潜在表示中生成图像,这与我们的图像到图像网络不兼容。我们改用 CoGAN 的公共实现。

5.1.3 与基线的比较
如图 5 和图 6 所示,我们无法使用任何基线获得令人信服的结果。另一方面,我们的方法可以生成通常与完全监督的 PIX2PIX 质量相似的转换。
在这里插入图片描述

在这里插入图片描述

表 1 报告了有关 AMT 感知真实度任务的性能。在这里,我们看到我们的方法可以在大约四分之一的试验中欺骗参与者,无论是在地图→航拍照片方向还是在 256 × 256 分辨率下的航拍照片→地图方向3。所有的基线几乎从未欺骗过参与者。

表 2 评估了标签→照片任务在城市景观上的表现,表 3 评估了相反的映射(照片→标签)。在这两种情况下,我们的方法都再次优于基线。

5.1.4 损失功能分析
在表 4 和表 5 中,我们比较了全部损失的消融。去除GAN损失会大大降低结果,去除周期一致性损失也会大大降低结果。因此,我们得出结论,这两个术语对我们的结果至关重要。我们还仅使用一个方向的周期损耗来评估我们的方法:GAN + 正向周期损耗 Ex∼pdata(x) [kF(G(x))−xk1],或 GAN + 反向周期损耗 Ey∼pdata(y) [kG(F(y))−yk1](公式 2),发现它经常导致训练不稳定并导致模式崩溃,尤其是对于被移除的映射方向。图 7 显示了几个定性示例。

5.1.5 图像重建质量
在图 4 中,我们展示了重建图像 F(G(x)) 的几个随机样本。我们观察到,在训练和测试时,重建的图像通常接近原始输入 x,即使在一个域代表明显更多样化的信息的情况下,例如地图↔航拍照片。
在这里插入图片描述
在这里插入图片描述
5.1.6 配对数据集的其他结果
图 8 显示了“pix2pix”[22]中使用的其他配对数据集的一些示例结果,例如来自CMP Facade数据库[40]的建筑标签↔照片,以及↔来自UT Zappos50K数据集[60]的边缘鞋。我们的结果的图像质量接近于完全监督的 pix2pix 产生的图像质量,而我们的方法在没有配对监督的情况下学习映射。

5.2. 应用
我们在几个不存在配对训练数据的应用程序中演示了我们的方法。请参考附录(第 7 节)了解有关数据集的更多详细信息。我们观察到,训练数据的翻译通常比测试数据的翻译更具吸引力,并且可以在我们的项目网站上查看所有应用程序在训练和测试数据上的完整结果。

馆藏样式转移(图 10 和图 11) 我们使用从 Flickr 和 WikiArt 下载的风景照片来训练模型。与最近关于“神经风格迁移”[13]的研究不同,我们的方法学会了模仿整个艺术作品集的风格,而不是转移单个选定艺术作品的风格。因此,我们可以学习以梵高的风格生成照片,而不仅仅是星夜的风格。塞尚、莫奈、梵高和浮世绘的每种艺术家/风格的数据集大小分别为 526、1073、400 和 563。

对象变形(图 13):该模型经过训练,可以将 ImageNet [5] 中的一个对象类转换为另一个对象类(每个类包含大约 1000 个训练图像)。Turmukhambetov等[50]提出了一个子空间模型,用于将一个物体转换为同一类别的另一个物体,而我们的方法则侧重于两个视觉相似的类别之间的物体变形。

季节转移(图13) 该模型在优胜美地的 854 张冬季照片和 1273 张夏季照片上进行了训练,照片来自 Flickr

从绘画中生成照片(图12) 对于painting→photo,我们发现引入额外的损失以鼓励映射以保持输入和输出之间的颜色构成是有帮助的。具体而言,我们采用了Taigman等[49]的技术,当将目标域的真实样本作为输入提供给生成器时,将生成器正则化为接近身份映射:即,Lidentity(G, F) = Ey∼pdata(y) [kG(y) − yk1] + Ex∼pdata(x) [kF(x) − xk1]。

在这里插入图片描述
如果没有 L-identity,生成器 G 和 F 可以在不需要时自由更改输入图像的色调。例如,在学习莫奈的绘画和Flickr照片之间的映射时,生成器通常会将白天的绘画映射到日落时拍摄的照片,因为这种映射在对抗性损失和周期一致性损失下可能同样有效。图 9 显示了这种身份映射丢失的影响。

在图 12 中,我们展示了将莫奈的画作转换为照片的其他结果。该图和图 9 显示了包含在训练集中的绘画结果,而对于论文中的所有其他实验,我们仅评估和显示测试集结果。由于训练集不包含配对数据,因此为训练集绘画提供合理的翻译是一项艰巨的任务。事实上,由于莫奈不再能够创作新的绘画,推广到看不见的“测试集”,绘画并不是一个紧迫的问题。

照片增强(图14) 我们展示了我们的方法可用于生成景深较浅的照片。我们使用从 Flickr 下载的花卉照片来训练模型。源域由智能手机拍摄的花卉照片组成,由于光圈小,智能手机通常具有较深的景深。目标包含由具有较大光圈的数码单反相机拍摄的照片。我们的模型成功地从智能手机拍摄的照片中生成了景深较浅的照片。

与Gatys等人[13]的比较,在图15中,我们比较了我们的结果与神经风格迁移[13]在照片风格化上的结果。对于每一行,我们首先使用两幅具有代表性的艺术作品作为[13]的风格图像。另一方面,我们的方法可以生成整个系列风格的照片。与神经风格转移进行比较集合中,我们计算了目标域的平均 Gram 矩阵,并使用该矩阵与 Gatys 等人 [13] 一起转移“平均样式”。

图 16 演示了其他翻译任务的类似比较。我们观察到,Gatys等[13]需要找到与所需输出非常匹配的目标样式图像,但仍然经常无法产生逼真的结果,而我们的方法成功地产生了类似于目标域的自然结果。

6. 限制和讨论

尽管我们的方法可以在许多情况下获得令人信服的结果,但结果远非一致的积极结果。图 17 显示了几种典型的故障情况。在涉及颜色和纹理变化的翻译任务中,如上所述,该方法通常成功。我们还探索了需要几何更改的任务,但收效甚微。例如,在狗→猫变形的任务中,学习到的翻译退化为对输入进行最小的更改(图 17)。这种故障可能是由我们的generator架构引起的,这些架构是为在外观变化时提供良好性能而定制的。处理更多样化和更极端的变换,尤其是几何变化,是未来工作的一个重要问题。

一些失败的情况是由训练数据集的分布特征引起的。例如,我们的方法在马→斑马示例中变得混淆了(图 17,右),因为我们的模型是在 ImageNet 的野马和斑马同步集上训练的,其中不包含骑马或斑马的人的图像。

我们还观察到,使用配对训练数据可实现的结果与使用我们的未配对方法实现的结果之间存在挥之不去的差距。在某些情况下,这种差距可能很难(甚至不可能)弥合:例如,我们的方法有时会在 photos→labels 任务的输出中替换树和建筑物的标签。解决这种歧义可能需要某种形式的弱语义监督。集成弱数据或半监督数据可能会导致翻译器功能更强大,而注释成本仍然只是全监督系统的一小部分。

尽管如此,在许多情况下,完全不配对的数据是丰富的,应该加以利用。本文突破了在这种“无监督”环境中可能实现的界限

致谢
我们感谢 Aaron Hertzmann、Shiry Ginosar、Deepak Pathak、Bryan Russell、Eli Shechtman、Richard Zhang 和 Tinghui 周 (Tinghui Zhou) 的许多有益评论。这项工作部分得到了 NSF SMA1514512、NSF IIS-1633310、Google 研究奖、Intel Corp 和 NVIDIA 硬件捐赠的支持。JYZ 得到了 Facebook Graduate Fellowship 的支持,TP 得到了三星奖学金的支持。用于风格转换的照片由AE拍摄,主要在法国。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值