摘要
无监督的图像-图像翻译(UI2I)任务涉及到在没有配对图像的情况下学习两个领域之间的映射。虽然现有的UI2I方法通常需要大量来自不同领域的非配对图像进行训练,但有许多场景的训练数据是相当有限的。在本文中,我们认为,即使每个领域只包含一张图像,UI2I仍然可以实现。为此,我们提出了TuiGAN,这是一个生成模型,只对两张未配对的图像进行训练,相当于一次无监督学习。通过TuiGAN,图像以一种从粗到细的方式被转换,生成的图像从全局结构逐渐被调整为局部细节。我们进行了广泛的实验,以验证我们的多功能方法能够在各种UI2I任务上胜过强大的基线。此外,TuiGAN能够实现与最先进的UI2I模型相媲美的性能,而这些模型是用足够的数据训练出来的。
1、介绍
无监督图像-图像翻译(UI2I)任务旨在将图像从源域映射到目标域,保留主要的源内容并转移目标风格,同时没有成对的数据可用于训练模型。最近的UI2I方法已经取得了显著的成功。其中,有条件的UI2I得到了很多关注,其中给出了两张图片:一张来自源域的图片用于提供主要内容,另一张来自目标域,用于指定主要内容应转换为哪种风格。为了实现UI2I,通常需要从源域和目标域收集大量未配对的图像。
然而,我们经常遇到这样的情况:可能没有足够的非配对数据来训练图像翻译器。一个极端的情况类似于One-Shot的无监督学习,即只给了源域中的一幅图像和目标域中的一幅图像,但没有配对。这样的情况在现实世界中有广泛的应用,例如,拍摄一张照片,然后将其转换为给定图片的特定风格,或者用目标对象替换图片中的对象进行图片处理。在本文中,我们朝着这个方向迈出了第一步,研究了只给定两张未配对图像的UI2I。
注意,上述问题包括传统的图像样式转移任务。这两个问题都需要一个源图像和一个目标图像,它们分别用作内容图像和风格图像。在图像风格转移中,用于描述翻译图像和风格图像的风格的特征(如预先训练的深度特征的Gram矩阵[8])应该匹配(例如,图1(a))。在我们的广义问题中,不仅样式,而且高级语义信息也应该匹配。如图6所示,1(c),在斑马到马的翻译中,不仅背景风格(例如草原)被转移,而且高级语义(即斑马的轮廓)也被改变。
实现UI2I需要模型有效地捕捉两个领域之间的领域分布变化,这是我们问题的最大挑战,因为只有两张图片可用。为了实现这种一次性转换,我们提出了一个新的条件生成对抗网络TuiGAN,它能够通过将图像从粗到细的逐步转换,将输入图像的域分布转移到目标域。渐进式翻译使该模型能够通过不断改变不同尺度的接受场来提取两幅图像之间的潜在关系。具体来说,我们使用两个金字塔式的生成器和判别器,将生成的结果从全局结构逐步调整为局部细节。对于同一尺度的每一对生成器,它们负责生成看起来像目标域的图像。对于同一比例的每一对判别器,它们负责捕捉当前比例下两个领域的领域分布。我们论文中的 "一次性 "术语与[2,5]中的术语不同,后者使用源域的单一图像和目标域的一组图像进行UI2I。相比之下,我们的工作中只使用两个领域的两张未配对的图像。
我们进行了广泛的实验验证,与各种基线方法进行比较,使用各种UI2I任务,包括马↔斑马、门面↔标签、空中鸟瞰图↔地图、苹果↔橘子等等。实验结果表明,这种多功能的方法有效地解决了One-shot图像翻译的问题。我们表明,我们的模型不仅可以在One-shot的情况下超过现有的UI2I模型,而且更值得注意的是,我们的模型还可以达到与用充足数据训练的UI2I模型相当的性能。
我们的贡献可以概括为以下几点:
- 我们提出了一个TuiGAN,以实现只有两个未配对图像的图像到图像的翻译。
- 我们利用两个金字塔的条件GANs来逐步将图像从粗到细地翻译。
- 我们证明了广泛的UI2I任务可以用我们的多功能模型来解决。
2、相关工作
2.1、图像到图像翻译
最早的图像到图像的翻译(I2I)的概念可以在[12]中提出,它支持各种各样的图像滤波效果。Rosales等人提出使用贝叶斯框架推断源图像和另一目标图像之间的对应关系。随着深度神经网络的发展,生成对抗网络(GAN)的出现真正激发了I2I的许多工作。Isola等人提出了一个称为 "pix2pix "模型的条件性GAN,用于广泛的有监督的I2I任务。然而,在许多情况下,成对的数据可能是困难的,甚至是不可能获得的。DiscoGAN、CycleGAN和DualGAN被提出来,通过约束两个跨域翻译模型以保持周期一致性来解决无监督的图像到图像的翻译(UI2I)问题。Liu等人提出了一个用于Few-shot的UI2I的FUNIT模型。然而,FUNIT不仅需要大量的训练数据和计算资源来推断未见过的领域,而且训练数据和未见过的领域也要有类似的属性。我们的工作不需要任何预训练和特定形式的数据。与我们的工作相关,Benaim等人和Cohen等人提出解决One-shot跨域翻译问题,其目的是学习一个单向的映射函数,给定源域的单一图像和目标域的一组图像。此外,他们的方法不能在相反的方向上翻译图像,因为他们声称在目标域中看到的一个样本对于捕捉域分布是很困难的。然而,在这项工作中,我们专注于解决UI2I,只给两个领域的两个未配对的图像,并在两个方向上实现I2I。与我们的工作同时,Benaim等人也试图通过使用多尺度生成模型来学习两个未配对图像之间的转换。
2.2、图像风格变化
图像风格转移可以追溯到赫兹曼等人的工作。最近的方法是使用神经网络来学习风格统计。Gatys等人首先通过最小化预训练的深度特征的Gram矩阵来建立图像风格转移模型。Luan等人进一步提出实现逼真的风格转换,可以保留内容图像的逼真度。为了避免在语义统一的区域中出现不一致的风格化,Li等人引入了一个两步框架,其中两个步骤都有一个封闭式的解决方案。然而,这些模型要转移更高层次的语义结构,如目标转换,是很困难的。我们证明了我们的模型可以在各种UI2I任务中胜过Li等人。
2.3、单图像生成模型
单一图像生成模型的目的是捕捉图像的内部分布。基于条件GAN的模型已被提出用于纹理扩展和图像重定位。InGAN用单一的自然输入进行训练,并通过图像特定的GAN学习其内部分块分布。基于GAN的无条件模型也用于纹理合成和图像处理。特别是,SinGAN采用了一个无条件的金字塔生成模型来学习基于不同比例的图像的补丁分布。然而,这些单一的图像生成模型通常只考虑到一个图像,并没有捕捉到两个图像之间的关系。相反,我们的模型旨在捕捉两幅未配对图像之间的分布变化。这样,我们的模型可以将一幅图像从一个源分布转移到一个目标分布,同时保持其内部内容的一致性。
3、方法
给定两个图像和,其中A和B是两个图像域,我们的目标是将转换为,将IB转换为∈A,而没有任何其他数据可以访问。由于我们只有两个未配对的图像,翻译后的结果(如)应该继承源图像(如)的领域不变的特征,并用目标图像(如)的特征替换领域特定的特征。为了实现这样的图像转换,我们需要得到一对映射函数和,以便
我们的表述旨在学习和之间的内部领域分布变化。考虑到训练数据相当有限,和被实现为两个多尺度条件GAN,逐步将图像从粗到细进行转换。通过这种方式,训练数据可以在不同的分辨率尺度上得到充分的利用。我们将和下采样到个不同的尺度,然后得到和,其中和分别从和下采样,比例系数。
在以前的文献中,多尺度架构已被探索用于具有多个训练图像的无条件图像生成,具有多个成对训练图像的条件图像生成和具有单一训练图像的图像生成。在本文中,我们利用多尺度结构的优势进行一次性无监督学习,其中只有两幅未配对的图像被用来学习UI2I。
3.1、网络结构
提出的TuiGAN的网络结构如图2所示。整个框架由两个对称的翻译模型组成: 用于→的(图2中的顶部部分)和用于→的(图2中的底部部分)。和由一系列生成器组成,,它们可以实现相应尺度下的图像平移。在每个图像尺度上,我们还需要判别器,用来验证输入图像是否是相应领域的自然图像。
渐进的翻译
翻译从最低分辨率的图像开始,逐渐向更高的分辨率移动。和首先将和映射到相应的目标域:
对于尺度为n<N的图像,生成器有两个输入,和之前生成的 。同样地,将和作为输入。 数学表达式为:
其中,↑表示使用双三次取样,将图像按比例系数s调整大小。利用,可以用更多的细节来重新调整之前的输出,而也提供了当前分辨率的目标图像的全局结构。公式(3)被反复应用,直到最终的输出和得到。
尺度敏感生成器
的网络结构如图3所示。请注意,和有相同的结构,但有不同的权重。由两个完全卷积网络组成。在数学上,的工作原理如下:
其中⊗代表像素级的乘法。如公式(4)所示,我们首先用Φ将预处理成作为初始翻译。然后,我们使用注意力模型来生成一个掩码,该掩码是跨图像区域的长期和多尺度依赖的模型。将,和作为输入,考虑到平衡两个尺度的结果,输出。最后,和通过生成的进行线性组合,得到输出。
同样地,在第n个尺度上,翻译的实现方法如下:
通过这种方式,生成器将注意力集中在图像中负责合成当前比例的细节的区域,并保持之前学到的全局结构在前一个比例中不被触动。如图3所示,前一个生成器在中生成了斑马的全局结构,但仍然无法生成条纹的细节。在第n个尺度中,当前的生成器生成了一个 注意力图来增加斑马的条纹细节,产生了更好的结果。
3.2、损失函数
我们的模型从低分辨率逐步训练到高分辨率。每个尺度在训练后保持不变。对于任何,第n个尺度的整体损失函数被定义如下:
其中,分别指对抗性损失、循环一致性损失、身份损失和总变异损失,是平衡各损失项之间权衡的超参数。在每个尺度上,生成器的目标是最小化,而判别器的训练则是最大化。我们将介绍这些损失函数的细节。
对抗性损失
对抗性损失建立在这样一个事实之上:鉴别器试图将真实图像与合成图像区分开来,而生成器则试图通过生成真实的图像来欺骗鉴别器。在每个尺度,有两个鉴别器,它们将图像作为输入,并输出输入是相应领域的自然图像的概率。我们选择WGAN-GP作为对抗性损失,它可以通过权重剪裁和梯度惩罚有效地提高对抗性训练的稳定性:
其中 其中, λPEN是惩罚系数。
循环一致性损失
条件GAN的训练问题之一是模式崩溃,即无论输入是什么,生成器都会产生一个特别合理的输出。我们利用循环一致性损失[39]来约束模型,使其在翻译后保留输入图像的固有属性:,
身份损失
我们注意到,依靠上述两种损失进行单次图像翻译很容易导致颜色[39]和纹理不一致的结果。为了解决这个问题,我们引入了每个尺度的身份损失,它被表示为。从数学上讲,
我们发现,如第4.4节所示,身份损失可以有效地保持输入和输出图像之间颜色和纹理色调的一致性。
总变化损失
为了避免噪音和过度的像素化,继[30]之后,我们引入了总变化(TV)损失,以帮助去除生成图像的粗糙纹理,获得更多空间连续和更平滑的结果。它通过计算图像中相邻像素值的差异,鼓励图像由多个斑块组成。让表示位于图像的第行和第列中的像素。在第个尺度上的TV损失被定义如下:
3.3、实现细节
网络结构
如前所述,所有生成器都有相同的结构,它们都是全卷积网络。具体来说,是由5个3x3 Conv-BatchNorm-LeakyReLU形式的块构成,跨度为1。是由4个3x3 Conv-BatchNorm-LeakyReLU形式的块构成的。对于每个判别器,我们使用马尔科夫判别器(PatchGANs),它具有与相同的11x11的补丁尺寸,以保持与生成器相同的感受野。
训练设置
我们使用Adam训练我们的网络,初始学习率为0.0005,每迭代1600次后,学习率衰减。我们设定比例因子,每个比例训练4000次迭代。尺度的数量被设定为4。对于所有的实验,我们设置权重参数,,和。我们的模型在单个2080-Ti GPU上需要3-4小时,图像大小为。
4、实验
我们在几个无监督的图像到图像的翻译任务上进行了实验,包括一般的UI2I任务、图像风格转换、动物脸部翻译和绘画到图像的翻译,以验证我们通用的TuiGAN。为了构建一次性图像翻译的数据集,给定一个特定的任务(如马↔斑马翻译),我们分别从源域和目标域中随机抽取一张图像,并在所选数据上训练模型。
4.1 基线
我们将TuiGAN与两种类型的基线进行比较。第一种类型是利用完整的训练数据而不进行子抽样。我们选择CycleGAN和DRIT算法进行图像合成。第二种类型是利用部分数据,甚至只有一个或两个图像。我们选择以下基线:
(1) OST,其中给出了源域的一张图像和目标域的一组图像;
(2) SinGAN,它是一个金字塔式的无条件生成模型,只对目标域的一幅图像进行训练,并将源域的一幅图像注入到训练的模型中进行图像转换。
(3) PhotoWCT,它可以被认为是一种特殊的图像到图像的翻译模型,在保持逼真的情况下,将内容照片转为参考照片的风格。
(4) FUNIT,它的目标是少数照片的UI2I,需要大量的数据进行预训练。我们测试了FUNIT的单张翻译。
(5) ArtStyle,这是一个经典的艺术风格转换模型。
对于上述所有的基线,我们使用他们的官方发布的代码来产生结果。
4.2 评价指标
(1) 单一图像入射距离(SIFID): SIFID反映了两幅图像之间内部分布的差异,它是通过计算两幅图像的深度特征之间的Frechet Inception Distance(FID)来实现的。SIFID得分越低,说明两幅图像的风格越相似。我们计算翻译图像和相应的目标图像之间的SIFID。
(2) 感知距离(PD): PD计算图像之间的知觉距离。PD得分越低,说明两幅图像的内容越相似。我们计算翻译后的图像和相应的源图像之间的PD。
(3) 用户偏好(UP): 我们进行用户偏好研究以进行性能评估,因为定性评估是非常主观的。
4.3 结果
通用的UI2I任务
继[39]之后,我们首先对Facade↔Label、Apple↔Orange、Horse↔Zebra和Map↔Aerial Photo的翻译任务进行了一般性实验,以验证我们算法的有效性。我们提出的TuiGAN和基线的视觉结果显示在图4。
总的来说,TuiGAN生成的图像比OST、SinGAN、PhotoWCT和FUNIT表现出更好的翻译质量。虽然SinGAN和PhotoWCT都改变了源图像的全局颜色,但它们未能像我们的模型那样转移高层次的语义结构(例如,在Facade↔Labels和Horse↔Zebra中)。尽管OST是用目标领域的完整训练集训练的,并且在某些情况下转移了高层次的语义结构,但生成的结果包含许多明显的假象,例如,苹果和橙子上的不规则噪音。与在完整数据集上训练的CycleGAN和DRIT相比,TuiGAN达到了 与它们的结果相当。在某些情况下,TuiGAN的结果要好于这两个模型。在Labels→Facade、Zebra→Horse等任务中,TuiGAN的结果比这两个模型要好,这也进一步证明了我们的模型是可行的。这进一步验证了我们的模型实际上可以在只有两张未配对图像的情况下捕获领域分布。这进一步验证了我们的模型实际上可以在只有两张未配对图像的情况下捕捉域分布。
表1中报告了平均SIFID、PD和UP的结果。为了研究用户的偏好,我们随机选择了8个未配对的图像,并为每个一般的UI2I任务生成8个翻译图像。总的来说,我们为每个受试者收集了32幅翻译过的图像来评估。我们将源图像、目标图像以及我们的模型和另一种基线方法的两幅翻译图像分别以随机顺序显示在一个网页上。我们要求每个受试者在每个页面上选择更好的翻译图像。最后,我们收集了18位受试者的反馈意见,总共有576票,每项比较有96票。我们计算出一种方法被选中的百分比,作为用户偏好(UP)得分。
我们可以看到,TuiGAN在所有基线中获得了最好的SIFID得分,这表明我们的模型成功地捕捉到了目标领域中的图像分布。此外,我们的模型在PD评分中获得了第三名,仅次于CycleGAN和PhotoWCT。从视觉结果来看,我们可以看到PhotoWCT只能改变源图像的全局颜色,这也是它获得最佳PD得分的原因。在用户研究方面,我们可以看到,与OST、SinGAN、PhotoWCT和FUNIT相比,大多数用户更喜欢由TuiGAN生成的翻译结果。与在完整数据上训练的DRIT相比,我们的模型也获得了类似的主体投票。
图像风格转换
我们展示了我们的TuiGAN在图像风格转换上的有效性:艺术风格转换,即用特定的笔触或纹理将图像转换成目标艺术风格,以及逼真风格转换,即获得保持逼真的风格化照片。结果显示在图5中。从图5的第一行可以看出,TuiGAN保留了建筑的轮廓,并生成了具有生动笔触的风格化结果,看起来就像梵高的画。相反,SinGAN未能生成清晰的风格化图像,而PhotoWCT[25]只改变了真实照片的颜色,没有捕捉到突出的绘画图案。在第二行中,我们将夜间图像转为逼真的白天图像,并保留了关键的语义信息。尽管SinGAN和ArtStyle产生了逼真的风格,但它们未能保持详细的边缘和结构。PhotoWCT的结果也不像我们的那样干净。总的来说,我们的模型在两种类型的图像风格转移上都取得了有竞争力的表现,而其他的方法通常只能针对一个特定的任务,但在另一个任务中却失败了。
动物脸部翻译
为了与在动物脸部数据集上建立的几张照片模型FUNIT进行比较,我们进行了动物脸部翻译实验,如图6所示。我们还包括SinGAN和PhotoWCT进行比较。我们可以看到,与其他基线相比,我们的模型可以更好地将目标域的图像中的毛皮颜色转移到源域的图像中:SinGAN[33]产生的结果带有微弱的伪影和模糊的狗的形状;PhotoWCT[25]虽然很好地保留了内容,但不能从目标图像中转移高级风格特征(如斑点);FUNIT产生的结果与目标狗的外观不一致。
绘画到图像的翻译
这项任务的重点是根据SinGAN中描述的大致相关的剪贴画,生成具有更多细节的照片般真实的图像。我们使用SinGAN提供的两个样本进行比较。结果显示在图7中。尽管两张测试图像有着相似的元素(如树木和道路),但它们的风格却极为不同。因此,PhotoWCT和ArtStyle在两个翻译案例中未能转移目标风格。SinGAN也不能生成特定的细节,如图7第一行中道路上的树叶,也不能保持准确的内容,如图7第二行中的山和云。 相反,我们的方法保留了输入的关键成分,并在两种情况下生成了丰富的局部细节。
4.4、消融研究
为了研究不同训练损失、发生器结构和多尺度结构的影响,我们基于Horse进行了几项消融研究↔斑马任务。具体而言,
(1) 固定N=4,我们去除了循环一致性损失(不含的TuiGAN)、同一性损失(无的TuiGAN)、总变异损失(无的TuiGAN),并比较了差异。
(2) 我们将N的范围从0到4来观察不同尺度的效果。当时,我们的模型可以粗略地看作是用两个不成对的图像训练的CycleGAN。
(3) 我们去掉生成器中的注意模型Ψ,并通过简单的加法将和结合起来(简称TuiGAN w/o A)。没有LIDT,生成的结果会出现颜色和纹理不准确的情况(例如,转移的斑马上的绿色)。没有注意机制或,我们的模型不能保证物体形状的完整性(例如,转移的马的腿被遗漏)。如果没有,我们的模型会产生带有伪影的图像(例如,马周围的色斑)。从N=0到N=3的结果,要么包含的全局内容信息很差(如马的布局),要么有明显的伪影(如斑马条纹)。我们的完整模型(TuiGAN N = 4)可以捕捉到源图像的突出内容,并转移目标图像的显著风格模式。
目标图像的显著风格。我们通过评估TuiGAN的不同变体的SIFID和PD分数来计算定量的消融。如表2所示,我们的完整模型仍然获得最低的SIFID分数和PD分数,这表明我们的TuiGAN可以在保持内容不变的情况下产生更真实和风格化的输出。
5、结论
在本文中,我们提出了TuiGAN,一个多功能的条件生成模型,它只在两个未配对的图像上训练,用于图像到图像的翻译。我们的模型是以粗到细的方式设计的,其中两个金字塔式的条件生成模型逐步将结果从全局结构调整到局部细节。此外,为了更好地结合两个尺度的结果,还引入了一个尺度感知生成器。通过与几个强大的基线进行比较,我们验证了TuiGAN在各种无监督的图像对图像翻译任务上的能力。消融研究也证明了损失和网络尺度的设计是合理的。我们的工作代表着向以极其有限的数据进行无监督学习的可能性又迈进了一步。