全局与局部一致的图像补全Globally and Locally Consistent Image Completion

全局与局部一致的图像补全

摘要:我们提出了一种新颖的图像完成方法,该方法生成的图像在局部和全局上都是一致的。通过使用全卷积神经网络(全卷积神经网络(Fully Convolutional Neural Network,FCNN)是一种特殊类型的神经网络,它主要用于处理图像数据。与传统的卷积神经网络(CNN)不同,全卷积神经网络在网络的所有层中都使用卷积层,而不是在末端使用全连接层。这样的设计使得全卷积神经网络能够接受任意尺寸的输入图像,并产生相应尺寸的输出,这对于图像分割、图像补全等任务特别有用。),我们能够完成任意分辨率图像的缺失区域填补,无论这些区域的形状如何。为了训练这个图像完成网络以保持一致性,我们使用全局和局部上下文鉴别器,这些鉴别器被训练用来区分真实图像与完成图像。全局鉴别器查看整个图像,以评估它作为一个整体是否连贯,而局部鉴别器只查看以完成区域为中心的小区域,以确保生成的贴片在局部上的一致性。然后训练图像完成网络欺骗这两个上下文鉴别器网络,这要求它生成的图像在整体连贯性以及细节上与真实图像无法区分。我们展示了我们的方法可以用来完成各种场景的图像。此外,与基于贴片的方法(如PatchMatch)相比,我们的方法可以生成图像中其他位置没有出现的片段,这使我们能够自然地完成具有熟悉且高度特定结构的对象的图像,如面孔。

关键词:图像补全,卷积神经网络。

1 引言

图像补全是一项技术,允许用替代内容填充目标区域。这使得移除不想要的对象或为基于图像的3D重建生成被遮挡的区域成为可能。虽然已经提出了许多图像补全方法,例如基于补丁的图像合成[Barnes等人,2009; Darabi等人,2012; Huang等人,2014; Simakov等人,2008; Wexler等人,2007],但这仍然是一个挑战性的问题,因为它经常需要对场景进行高层次的识别。不仅需要完成纹理图案的补全,还重要的是要理解正在补全的场景和对象的结构。基于这一观察,在这项工作中,我们考虑了场景的局部连续性和全局构成,在单一框架下进行图像补全。

我们的工作基于最近提出的Context Encoder(CE)方法[Pathak等人,2016],该方法采用了一个卷积神经网络(CNN),通过对抗性损失[Goodfellow等人,2014]进行训练。CE方法的动机是特征学习,并没有完全描述如何处理任意的修补遮罩,以及如何将该方法应用于高分辨率图像。我们提出的方法解决了这两个问题,并进一步提高了结果的视觉质量,正如我们将看到的。

我们利用全卷积网络作为我们方法的基础,并提出了一种新颖的架构,使得图像补全在局部和全局上都保持一致。我们的架构由三个网络组成:一个补全网络,一个全局上下文判别器,和一个局部上下文判别器。补全网络是全卷积的,用于完成图像补全,而全局和局部上下文判别器则是仅用于训练的辅助网络。这些判别器用于判断一个图像是否被一致地补全了。全局判别器采用整个图像作为输入,以识别场景的全局一致性,而局部判别器只查看完成区域周围的小区域,以判断更详细外观的质量。在每次训练迭代中,先更新判别器,使其正确区分真实和补全的训练图像。之后,更新补全网络,使其足够好地填补缺失区域,以欺骗上下文判别器网络。如图1所示,使用局部和全局上下文判别器对于获得逼真的图像补全至关重要。

我们评估并比较了我们的方法与现有方法在多种场景上的效果。我们还展示了在更具挑战性的特定任务上的结果,例如面部补全,我们的方法可以生成如眼睛、鼻子或嘴巴等对象的图像片段,以逼真地完成面部。我们通过用户研究评估了这种具有挑战性的面部补全的自然性,在这项研究中,我们的结果与真实面部之间的区别77%的时间内是无法辨识的。

图1. 我们方法的图像补全结果。遮罩区域以白色显示。我们的方法可以生成图像中不存在的新片段,例如完成面部所需的片段;这是基于补丁的方法无法实现的。图片致谢:Michael D Beckwith (CC0),Mon Mer (公共领域),davidgsteadman (公共领域),以及 Owen Lucas (公共领域)。

总结来说,在本文中我们提出了:

  1. 一种高性能的网络模型,能够完成任意缺失区域的补全,
  2. 一种用于图像补全的全局和局部一致的对抗性训练方法,
  3. 应用我们的方法于特定数据集以完成更具挑战性的图像补全的结果。

2 相关工作

图像补全领域已经提出了多种不同的方法。其中一个较为传统的方法是基于扩散的图像合成技术。这种技术通过传播目标孔洞周围的局部图像外观来填补它们。例如,传播可以基于等照线方向场[Ballester et al. 2001; Bertalmio et al. 2000],或基于局部特征直方图的全局图像统计[Levin et al. 2003]进行。然而,通常来说,基于扩散的方法只能填补小的或狭窄的孔洞,例如老照片中常见的划痕。

与基于扩散的技术相比,基于补丁的方法能够执行更复杂的图像补全,可以填补自然图像中的大孔洞。基于补丁的图像补全最初是为纹理合成提出的[Efros and Leung 1999; Efros and Freeman 2001],在该方法中,从源图像中采样纹理补丁,然后粘贴到目标图像中。这后来通过图像拼接[Kwatra et al. 2003]、基于能量优化的图像生成[Kwatra et al. 2005]等方法得到扩展。对于图像补全,提出了几种修改方法,如最优补丁搜索[Bertalmio et al. 2003; Criminisi et al. 2004; Drori et al. 2003]。特别是Wexler et al. [2007]和Simakov et al. [2008]提出了一种基于全局优化的方法,可以获得更一致的填充。这些技术后来通过一个名为PatchMatch的随机补丁搜索算法[Barnes et al. 2009, 2010]得到加速,该算法允许实时高级图像编辑。Darabi et al. [2012]通过将图像梯度整合到补丁间的距离度量中,展示了改进的图像补全方法。然而,这些方法依赖于低级特征,如补丁像素值的平方差之和,这对于填补复杂结构的孔洞并不有效。此外,它们无法生成源图像中未出现的新对象,与我们的方法不同。

为了解决生成结构化场景中大面积缺失区域的问题,一些方法采用了结构引导,这些结构通常是手动指定的,以保留重要的底层结构。这可以通过指定兴趣点[Drori et al. 2003]、线条或曲线[Barnes et al. 2009; Sun et al. 2005],以及透视扭曲[Pavić et al. 2006]来完成。也提出了自动估计场景结构的方法:利用张量投票算法在孔洞间平滑连接曲线[Jia and Tang 2003];利用基于结构的优先级进行补丁排序[Criminisi et al. 2004],基于瓦片的搜索空间限制[Kopf et al. 2012],补丁偏移的统计[He and Sun 2012],以及透视平面表面的规律性[Huang et al. 2014]。这些方法通过保留重要结构来提高图像补全的质量。然而,这样的引导基于特定场景类型的启发式约束,因此仅限于特定的结构。

大多数现有基于补丁的方法的明显限制是合成的纹理仅来自输入图像。当一个令人信服的补全需要在输入图像中未找到的纹理时,这就成了一个问题。Hays和Efros[2007]提出了一种使用大型图像数据库的图像补全方法。他们首先在数据库中搜索与输入最相似的图像,然后通过从匹配的图像中剪切相应区域并粘贴到孔洞中来完成图像。然而,这假设数据库中包含与输入图像相似的图像,这可能不是实际情况。这也被扩展到特定情况,即图像数据库中包含完全相同场景的图像[Whyte et al. 2009]。然而,假设数据库中包含完全相同的场景大大限制了与一般方法相比的适用性。

面部补全作为修复的一个特定应用也受到关注。Mohammed等[2009]使用面部数据集构建补丁库,并提出了一个全局和局部参数模型用于面部补全。Deng等[2011]使用基于光谱图的算法进行面部图像修复。然而,这些方法需要对齐的图像来学习补丁,并且不能推广到任意修复问题。

卷积神经网络(CNNs)也被用于图像补全。最初,基于CNN的图像修复方法仅限于非常小且薄的遮罩[Köhler et al. 2014; Ren et al. 2015; Xie et al. 2012]。类似的方法也被应用于MRI和PET图像,用于补全缺失数据[Li et al. 2014]。更近期的,与本工作同时,Yang et al. [2017]也提出了一种基于CNN的优化方法用于修复。然而,与我们的方法不同,这种方法由于需要对每张图像进行优化,因此计算时间增加。

我们在最近提出的Context Encoder (CE) [Pathak et al. 2016]的基础上进行了构建,该方法将基于CNN的修复扩展到了大遮罩,并提出了一个上下文编码器来通过修复学习特征,基于生成对抗网络(GAN) [Goodfellow et al. 2014]。GAN的原始目的是使用卷积神经网络训练生成模型。这些生成网络通过使用一个辅助网络(称为判别器)进行训练,该网络用来区分图像是由网络生成的还是真实的。生成网络被训练来欺骗判别网络,而判别网络则并行更新。通过结合使用均方误差(MSE)损失和GAN损失,Pathak et al. [2016]能够训练一个修复网络,完成128×128像素图像中心的64×64像素区域,避免了仅使用MSE损失时常见的模糊。我们通过使用全卷积网络来扩展他们的工作,以处理任意分辨率,并通过同时使用全局和局部判别器显著提高了视觉质量。

GAN的主要问题之一是学习过程中的不稳定性,这导致了大量的相关研究[Radford et al. 2016; Salimans et al. 2016]。我们通过不仅仅训练生成模型并调整学习过程以优先考虑稳定性,避免了这个问题。此外,我们针对图像补全问题特别优化了架构和训练过程。特别是,我们不使用单一的判别器,而是使用两个:一个全局判别器网络和一个局部判别器网络。正如我们展示的,这在获得语义上和局部上一致的图像补全结果中至关重要。

我们的方法能够克服现有方法的限制,实现多样化场景的逼真补全。不同方法的高层次比较可以在表1中看到。一方面,基于补丁的方法[Barnes et al. 2009, 2010; Darabi et al. 2012; Huang et al. 2014; Wexler et al. 2007]能够为任意图像大小和遮罩提供高质量的重构;然而,它们无法提供图像中未出现的新图像片段,也无法理解图像的高层次语义:它们仅在局部补丁层面上寻找相似性。另一方面,基于上下文编码器的方法[Pathak et al. 2016]能够生成新对象,但仅限于固定的低分辨率图像。此外,该方法可能缺乏局部一致性,因为未考虑补全区域与周围区域的连续性。我们的方法能够处理任意图像大小和遮罩,同时与图像保持一致并能够生成新对象。

表1. 补全方法的比较。基于补丁的方法,如[Barnes et al. 2009],无法生成新的纹理或对象,仅考虑局部相似性,而不考虑场景的语义。上下文编码器[Pathak et al. 2016]仅处理小尺寸固定大小的图像,且未能保持与周围区域的局部一致性。相比之下,我们的方法可以补全任何大小的图像,根据场景的局部和全局结构生成新的纹理和对象。

3 方法

3.1 卷积神经网络

我们的方法基于深度卷积神经网络,专门为图像补全任务训练。一个单一的补全网络用于图像补全。另外两个网络,全局和局部上下文判别器网络,用于训练这个网络以实现逼真的图像补全。在训练过程中,判别器网络被训练以确定一幅图像是否已经被补全,而补全网络则被训练以欺骗它们。只有通过联合训练这三个网络,补全网络才能实现多样化图像的逼真补全。这种方法的概述可以在图2中看到。

图2. 我们学习图像补全的架构概述。它包括一个补全网络和两个辅助的上下文判别器网络,这些判别器网络仅用于训练补全网络,在测试时不使用。全局判别器网络以整个图像作为输入,而局部判别器网络仅以补全区域周围的小区域作为输入。两个判别器网络都被训练以确定一个图像是真实的还是由补全网络完成的,同时补全网络则被训练以欺骗这两个判别器网络。

我们的方法基于卷积神经网络(Convolutional Neural Networks, CNNs)【Fukushima 1988; LeCun et al. 1989】。这些是一种特殊的神经网络变体,基于使用保持输入空间结构的卷积运算符,通常由图像组成。这些网络由多层组成,在这些层中,一组滤波器与输入图映射卷积,产生进一步用非线性激活函数处理的输出映射,最常用的是修正线性单元(ReLU),定义为σ(·)=max(·,0)【Nair和Hinton 2010】。

我们不仅使用标准的卷积层,还使用了一种称为扩张卷积层(扩张卷积(Dilated Convolution):与标准卷积不同,扩张卷积在遍历输入数据时引入了空间间隔。这通过在卷积核的应用中扩散(或“跳过”)一定数量的像素来实现。这种方法允许卷积核覆盖更广泛的区域,而不需要增加卷积核的大小或网络的参数数量。扩张卷积特别适合于捕捉更宽范围内的特征,同时保持网络深度和复杂度不变。)的变体【Yu和Koltun 2016】,这允许增加每层可以作为输入使用的区域。这是通过在输入图映射上扩散卷积核来完成的,而不增加可学习的权重数量。更具体地说,如果一个2D层是一个C通道的h×w映射,而下一层是一个C'通道的h'×w'映射,扩张卷积运算符可以为每个像素写成如下:

kw和kh分别是核的宽度和高度(奇数),η是扩张因子,xu,v ∈ RC和yu,v ∈ RC'是层的输入和输出的像素分量,σ(·)是逐元素的非线性转移函数,Ws,t是核的C'×C矩阵,b ∈ RC'是层偏置向量。当η = 1时,方程变为标准卷积操作。

然后,这些网络通过反向传播【Rumelhart et al. 1986】训练以最小化损失函数,并使用由输入和输出对组成的数据集进行训练。损失函数通常试图最小化网络输出和数据集中相应输出对之间的距离。

3.2 补全网络

补全网络基于全卷积网络构建。网络模型架构的概览可以在表2中看到。补全网络的输入是一个带有二进制通道的RGB图像,该二进制通道指示图像补全掩码(对于需要补全的像素为1),输出是一个RGB图像。由于我们不希望在补全区域以外的区域发生变化,所以补全区域外的输出像素将恢复为输入的RGB值。这个架构遵循编码器-解码器的结构,这样做可以通过最初降低分辨率来减少内存使用和计算时间,之后再通过反卷积层【Long et al. 2015】将输出恢复到原始分辨率,这些层由具有分数步长的卷积层组成。与使用许多池化层来降低分辨率的其他架构不同,我们的网络模型只通过步幅卷积将分辨率降低两次,降至原始大小的1/4,这对于在缺失区域生成非模糊纹理很重要。

表2展示了图像补全网络的架构。在每个卷积层之后(最后一个除外),都有一个修正线性单元(ReLU)层。输出层由一个卷积层组成,但使用sigmoid函数而不是ReLU层,以将输出标准化到[0, 1]范围内。"Outputs"指的是层输出的输出通道数。

扩张卷积层【Yu和Koltun 2016】也用在中间层(使用η > 1的公式(1))。扩张卷积使用扩散的核,允许每个输出像素计算时覆盖更大的输入区域,同时使用相同数量的参数和计算能力。这对于图像补全任务非常重要,因为上下文对于真实感至关重要。通过在较低分辨率处使用扩张卷积,模型在计算每个输出像素时相比标准卷积层可以“看到”输入图像的更大区域。结果网络模型在计算每个输出像素时受到输入图像307×307像素区域的影响。如果不使用扩张卷积,它只会使用99×99像素区域,无法完成大于99×99像素的孔洞,如图3所示。

图3. 空间支持的重要性。为了能够补全大面积区域,用来计算输出像素的空间支持必须包括孔洞外的像素。在左边,像素p1是根据空间支持Ω1中的影响区域计算得出的,而像素p2无法计算,因为支持区域Ω2不包含孔洞外的任何信息。然而,在右边,空间支持比孔洞大,允许补全中心像素。

3.3 上下文判别器

全局上下文判别器网络和局部上下文判别器网络的目标是辨别一幅图像是真实的还是已经被补全的。这些网络基于卷积神经网络,将图像压缩成小的特征向量。网络的输出通过一个连接层融合在一起,该层预测一个与图像为真实图像的概率相对应的连续值。网络的概览可以在表3中看到。

表3描述了我们网络模型中使用的判别器的架构。全连接(FC)层指的是标准的神经网络层。输出层由一个全连接层和一个sigmoid传递层组成,该层输出输入图像来自真实图像而非补全网络的概率。

全局上下文判别器将整个图像作为输入,图像被缩放到256×256像素。它由六个卷积层和一个单独的全连接层组成,输出一个1024维的向量。所有卷积层使用2×2像素的步长来降低图像分辨率,同时增加输出滤波器的数量。与补全网络相比,所有卷积都使用5×5的核。这种设计使得全局上下文判别器能够捕捉到图像的整体结构和内容,评估补全部分是否与整个图像在视觉上一致。而局部上下文判别器则专注于补全区域周围的小区域,以确保补全的细节与周围环境自然融合。通过结合这两个判别器的评估,网络可以更准确地判断补全的图像是否接近真实图像,从而指导补全网络生成更高质量的输出。

局部上下文判别器遵循与全局上下文判别器相同的模式,除了其输入是围绕已完成区域中心的128×128像素图像块。(注意,在训练时,总是只有一个已完成的区域。然而,经过训练的补全网络可以同时填补任意数量的孔洞。)在图像不是一个已完成图像的情况下,会选择图像的一个随机块,因为没有已完成的区域来定位它。由于初始输入分辨率是全局判别器的一半,因此不需要全局判别器中使用的第一层。输出是一个1024维向量,代表围绕已完成区域的局部上下文。

最后,全局和局部判别器的输出被连接成一个单一的2048维向量,然后通过一个全连接层进行处理,以输出一个连续值。使用Sigmoid传递函数,以确保这个值在[0, 1]范围内,并代表图像是真实的而非补全的概率。

3.4 训练

设C(x, Mc)代表以函数形式的补全网络,其中x是输入图像,Mc是与输入图像同尺寸的补全区域掩码。二进制掩码Mc在待填充区域内取值为1,在其他地方取值为0。作为预处理,C通过将训练输入图像x的补全区域覆盖为一个常数颜色,即训练数据集的平均像素值,然后再将其输入网络。同样,D(x, Md)表示以函数形式的结合上下文判别器。

为了训练网络现实地完成输入图像,联合使用了两种损失函数:加权均方误差(MSE)损失用于训练稳定性,以及生成对抗网络(GAN)【Goodfellow et al. 2014】损失用于提高结果的真实感。使用这两种损失函数的混合允许高性能网络模型的稳定训练,并已被用于图像补全【Pathak et al. 2016】,以及与本工作同时期,用于各种图像到图像转换问题【Isola et al. 2017】。训练是通过反向传播【Rumelhart et al. 1986】完成的。

为了稳定训练过程,使用了一个考虑补全区域掩码的加权均方误差(MSE)损失【Pathak et al. 2016】。MSE损失定义为:

其中,⊙是逐像素乘法,||·||是欧几里得范数。

上下文判别器网络也作为一种损失工作,有时称为GAN损失【Goodfellow et al. 2014】。这是我们方法中训练的关键部分,涉及将神经网络的标准优化转变为一个min-max优化问题,在每次迭代中,判别器网络与补全网络一起更新。对于我们的补全和上下文判别器网络,优化变为:

其中,Md是随机掩码,Mc是输入掩码,期望值就是训练图像x上的平均值。

这个公式涉及到两个网络:补全网络(C)和判别器网络(D)。这里,C(x, M_c)表示补全网络尝试对输入图像x的遗漏区域(由掩码M_c指定)进行填补的结果,而D是评价图像是真实还是由补全网络生成的判别器网络。

GAN损失的组成部分:

1.log D(x, M_d):这部分表示判别器D评估一个给定的真实图像x(和相应的掩码M_d)为真实图像的对数概率。这里,M_d是随机掩码,用于训练判别器以识别真实图像的区域。判别器的目标是最大化这个概率,使其尽可能靠近1(即判别器能够正确识别真实图像)。

2. log(1-D(C(x, M_c), M_c)):这部分表示判别器D评估补全网络C生成的图像为假图像的对数概率。补全网络试图填补输入图像x中由掩码M_c指定的遗漏区域。生成的图像旨在欺骗判别器,使其认为这是一个真实的图像。生成器的目标是最小化这个概率(即生成的图像尽可能让判别器误认为是真实的)。

优化目标:

对于判别器(D):尝试最大化整个表达式,即提高识别真实图像和由补全网络生成的图像的能力。

对于补全网络(C):尝试最小化log(1-D(C(x, M_c), M_c))部分,即生成尽可能让判别器认为是真实的图像。

通过这种设置,GAN损失函数引入了一个对抗游戏,其中补全网络尝试生成逼真的补全图像来“欺骗”判别器,而判别器则努力区分真实图像和生成图像。这种对抗性训练促进了补全网络生成更加自然和逼真的图像补全结果。

通过结合两种损失函数,优化变为:

其中,a是一个权重超参数。在优化过程中,这里称为C和D的补全网络和判别器网络会发生变化,实际上这意味着网络的权重和偏置会改变。让我们用θC表示补全网络C的参数。在标准随机梯度下降中,上述的min-max优化意味着,对于训练C,我们采取损失函数相对于θC的梯度,并更新参数以降低损失函数的值。梯度为:

实际上,我们采取更细粒度的控制,例如最初保持MSE损失梯度的范数大约与判别器梯度的范数相同的数量级。这有助于稳定学习过程。

我们也以类似的方式更新判别器网络D,除了我们采取相反的方向进行更新,以便损失增加。注意,在这里D包括了局部和全局上下文判别器。因此,反向传播中梯度的流动最初分裂成两个网络,然后再合并进入补全网络。在优化中,我们使用ADADELTA算法【Zeiler 2012】,它为网络中的每个权重自动设置一个学习率。

3.5 稳定训练

在训练过程中,上下文判别器被训练用于区分假图像和真实图像,同时补全网络被训练以欺骗判别器。由于优化包括了同时最小化和最大化相互冲突的目标,它并不是非常稳定。与其他专注于图像生成的方法【Salimans et al. 2016】不同,我们的方法不是从噪声生成图像。这有助于训练过程最初更加稳定。然而,由于图像补全任务本身非常具有挑战性,仍然需要非常小心地进行训练以使网络收敛。

一般训练程序的概览可以在算法1中看到。训练分为三个阶段:首先,补全网络使用公式(2)中的MSE损失进行训练TC轮迭代。之后,补全网络被固定,判别器从头开始训练TD轮迭代。最后,补全网络和内容判别器一起联合训练直到训练结束。补全网络和判别器网络的预训练对于成功的训练至关重要。

为了促进梯度在网络中的传播,在训练时,我们在补全网络和判别器网络的最后层之外的所有卷积层后面使用批量归一化层【Ioffe和Szegedy 2015】。这通过使用在线更新的输出统计数据来归一化每一层的输出。在测试时,它们可以被集成到前面的卷积层中,以免增加计算负担。

训练是通过调整图像大小进行的,使得最小边缘是[256, 384]像素范围内的随机值。之后,提取一个随机的256×256像素块,并用作输入图像。对于掩码,我们在[96, 128]像素范围内生成一个随机空洞,并用训练数据集的平均像素值填充。注意,这个空洞的宽高比可以变化,因为宽度和高度是分别绘制的。全局上下文判别器的输入是完整的256×256像素图像,而局部上下文判别器的输入是围绕完成区域中心的128×128像素块(或对于真实样本是随机区域)。

3.5.1 简单后处理

尽管我们的网络模型可以合理地填充缺失区域,但有时生成区域与周围区域的颜色存在细微不一致。为了避免这种情况,我们通过将完成区域与周围像素的颜色混合来进行简单的后处理。具体来说,我们使用快速行进方法【Telea 2004】,随后跟随泊松图像融合【Pérez et al. 2003】。

4 结果

我们使用来自Places2数据集【Zhou et al. 2016】的8,097,967张训练图像来训练我们的模型。这个数据集包括多种场景的图像,最初是为场景分类设计的。我们将权重超参数设置为alpha = 0.0004,并使用96张图像的批量大小进行训练。补全网络训练了T_C = 90,000 轮迭代;然后判别器训练了 T_D = 10,000轮迭代;最后两者共同训练以达到总共 T_{train} = 500,000轮迭代。整个训练过程在配备了四个K80 GPUs的单台机器上大约需要2个月的时间。

我们使用在训练数据中未使用的各种场景的图像评估我们的模型,并与现有方法进行比较,展示了我们方法的性能。除非另有说明,我们的模型是在Places2数据集上训练的。

4.0.1 计算时间 

图像补全的处理时间取决于输入图像的分辨率,而不是待补全区域的大小。表 4 显示了几种分辨率下的计算时间。我们在 CPU 和 GPU 上进行了评估,使用的是 英特尔酷睿 i7-5960X CPU(3.00 GHz,8 个内核)和英伟达 GeForce TITAN X GPU。使用 GPU 时,即使是大型图像也能在1秒内完成。

表 4. 我们模型的计算时间分析。我们注意到 在使用 GPU 时,计算时间大幅缩短至秒。

4.1 与现有工作的比较

我们在通用任意区域填充以及[Pathak等人,2016年]的中心区域填充任务上评估了我们的方法。

4.1.1 任意区域完成。

我们将我们的结果与使用PatchMatch [Barnes等人,2009年]、图像融合 [Darabi等人,2012年]、[Huang等人,2014年]以及[Pathak等人,2016年]的Photoshop内容感知填充进行了比较。为了进行比较,我们重新训练了[Pathak等人,2016年]的模型,使用Places2数据集针对任意遮罩进行了与我们模型相同周期数的训练,并使用了训练过程中表现最好的模型。我们通过将图像调整为其固定输入大小、处理、重新调整为原始大小,并恢复遮罩外的像素来评估它。此外,我们使用与我们的方法相同的后处理,这对于获得结果至关重要。

结果显示在图4中。基于补丁的方法无法在图像中生成新颖的对象,不同于我们的方法。此外,虽然它们能够使用局部一致的图像补丁完成,但它们不一定与场景全局一致,例如,对象可能出现在半空中或其他对象的中间。[Pathak等人,2016年]的模型结果在我们的后处理下,仍然呈现模糊且易于识别的区域。我们的方法明确训练为既局部又全局一致,导致图像完成更加自然。

图4. 与现有工作的比较。我们使用随机遮罩与Photoshop内容感知填充(PatchMatch)、图像融合、[Huang等人,2014年]以及[Pathak等人,2016年]进行比较。为了进行比较,我们重新训练了[Pathak等人,2016年]的模型,在Places2数据集上进行任意区域完成。此外,我们使用了与我们的方法相同的后处理。我们可以看到,虽然PatchMatch和图像融合可以生成从图像的其他部分提取的局部一致的补丁,但它们与场景的其他部分不是全局一致的。[Pathak等人,2016年]的方法可以填充新颖区域,但填充区域往往容易被识别,即便使用了我们的后处理。我们的方法,旨在实现局部和全局的一致性,结果在自然场景中表现得更加自然。照片由Katja Hasselkus(公共领域)、密西西比州档案和历史部门(公共领域)、Sprachenatelier Berlin(CC0)和Sami Alhammad(公共领域)提供。更多结果可以在补充材料中找到。

4.1.2 中心区域补全

我们还将我们的方法与Context Encoder (CE) [Pathak等人,2016年]在他们提供的128×128像素测试图像上进行比较,这些测试图像取自ImageNet [Deng等人,2009年],图像中心固定有64×64像素的填充遮罩。为了公平比较,我们使用他们的训练数据训练我们的模型,该数据由ImageNet的100K图像子集组成,训练了500个周期。我们的模型结果也没有进行后处理。

结果显示在图5中。对于中心区域完成任务,CE的结果明显优于通用任意区域完成案例。我们在补充材料中提供了更多结果,并鼓励读者查看它们,以欣赏我们技术和CE相对性能。我们注意到,虽然CE方法专门用于填充这种大小和固定空洞的图像,但我们的模型能够在任何分辨率下完成任意区域填充。我们还展示了在Places2数据集上使用更高分辨率图像训练的我们的完整模型,用于任意区域完成的结果。我们注意到,其他两个模型专门为这一特定任务训练,即在128×128像素的固定分辨率下完成中心区域,而这个模型可以完成任何分辨率图像的任意区域。为了完整性,也在比较中提供了基于补丁的方法[Barnes等人,2009年; Darabi等人,2012年; Huang等人,2014年]的结果。

图5. 在ImageNet验证集上取得的图像中,与Context Encoder (CE) [Pathak等人,2016年]进行中心区域完成的比较。所有图像都调整为128×128像素,且中心64×64像素区域被完成。CE和ours(CM)都在ImageNet的相同100k训练图像子集上训练,以完成固定的中心遮罩。ours是我们的完整模型,它在Places2数据集上使用更高分辨率的图像训练,用于任意区域完成,而不仅仅是像CE和ours(CM)模型那样,在固定分辨率下完成中心区域。我们还提供了PatchMatch(PM)、图像融合(IM)和[Huang等人,2014年](SC)的结果,以便完成比较。前两行展示了我们在ImageNet上训练的模型表现更好的示例,而接下来的两行展示了获得大致相同性能的示例,最后一行展示了CE在我们的模型上表现更好的一个示例。更多结果可以在补充材料中找到。

4.2 全局与局部一致性

我们通过训练仅使用其中一个的模型并与完整方法进行比较,研究了全局和局部上下文判别器的影响。我们在图6中展示了结果。我们可以看到,当不使用局部判别器时(b)(c),结果是通过大面积模糊区域完成的。另一方面,虽然仅使用局部判别器(d)结果在局部有更现实的纹理,但没有全局判别器它仍然缺乏全局一致性。通过同时使用全局和局部判别器,我们可以实现既局部又全局一致的结果。

图6. 使用不同判别器配置训练的比较。我们展示了使用不同判别器配置训练的模型结果:(b)加权MSE(无判别器),(c)使用加权MSE和仅全局判别器,(d)使用加权MSE和仅局部判别器,以及(e)使用加权MSE和全局及局部判别器。照片由rente42(公共领域)和Pete(公共领域)提供。

4.3 后处理和训练数据的影响

我们在图7中展示了我们简单后处理的效果。我们可以看到这种简单的后处理如何被用来使得填充区域更好地融入全局图像。

图 7. 我们简单的后处理效果。

我们还研究了用于训练我们模型的数据集的影响。特别是,我们比较了在Places2 [Zhou等人,2016年]和ImageNet [Deng等人,2009年]上训练的模型。Places2数据集包含大约800万张场景图像,而ImageNet数据集专注于对象的分类,只有100万张图像。结果显示在图8中。尽管结果相当相似,但在广泛多样的场景中,训练于Places2的模型表现更好,除非另有说明,否则它是我们使用的主要模型。

图8. 使用不同数据集训练的结果。特别是,我们比较了在ImageNet数据集上训练的模型与在Places2数据集上训练的模型。照片由Bernard Spragg. NZ(CC0)和Big Cypress National Preserve(公共领域)提供。

4.4 对象移除

图像补全的主要动机之一是能够在图像中移除不需要的对象。我们在图9中展示了对象移除的示例。我们方法的结果是自然的,几乎不可能识别出哪里有一个对象被移除了。

图9. 使用我们的方法进行对象移除的示例。照片由Ginés González de la Bandera(公共领域)和Katja Hasselkus(公共领域)提供。

4.5 人脸和立面

尽管我们的模型可以生成各种纹理或对象来完成一般图像中缺失的区域,但使用特定数据集对模型进行微调可以为更具体和复杂的图像完成任务达到更好的结果。特别是,我们考虑了CelebFaces属性数据集(CelebA)[Liu等人,2015年]和CMP Facade数据集[Radim Tyleček 2013年],分别包含202,599和606张图像。对于这两个数据集,我们使用在Places2数据集上训练的图像完成网络,然后在新数据上进一步训练它。为了适应新数据,我们最初从头开始训练上下文判别器,然后上下文判别器和完成网络一起训练。

对于CelebA数据集,我们使用200,000张图像进行训练。由于数据集的图像为178×218像素,我们稍微调整了训练方法:我们使用160×160像素的图像块进行训练,而不是使用256×256像素的图像块。我们在[48, 96]像素范围内随机生成洞,因此将局部判别器的输入修改为96×96像素,而不是128×128像素。最后,我们从全局上下文判别器中移除了一个层,并调整了全局和局部上下文判别器的全连接层,以适应新的训练分辨率。

对于CMP Facade数据集,我们使用550张图像进行训练。训练程序与Places2数据集相同,除了完成网络是用在Places2数据集上训练的网络进行初始化的,而不是使用MSE损失进行TC迭代训练。

我们在图10中展示了结果。我们可以看到,尽管有很大的遮挡区域,我们的方法可以真实地完成人脸。需要注意的是,基于补丁的方法无法完成人脸,因为它要求算法生成新的对象,如眼睛、鼻子和嘴巴,这些不是图像已有的部分。我们还看到,我们的方法可以以局部和全局一致的方式完成各种类型的立面。

图10. 人脸和立面。我们还将我们的模型应用于更具体的数据集,如人脸和建筑立面,通过在不同数据集上进行微调。在前两行中,我们展示了在CelebA数据集上训练的模型的结果,而最后一行展示了在CMP Facade数据集上训练的模型的结果。填充遮罩是随机选择的。照片由SKV Florbal(公共领域)、美国农业部(公共领域)、SKV Florbal(公共领域)、Mo Che(公共领域)、美国驻乌拉圭大使馆(公共领域)、Efd Initiative(CC0)、Fiona White(公共领域)、Paradox Wolf(公共领域)、thinkrorbot(公共领域)和Darrell Neufeld(公共领域)提供。更多结果可以在补充材料中找到。

4.6 用户研究

我们使用CelebA数据集的验证集进行了一个挑战性的面部补全任务的用户研究,并在图11中展示了结果。我们请10位用户评估补全的自然性。用户只显示完整补全的图像或数据集中的随机图像,并被要求猜测图像是来自数据集的实际图像还是补全的图像。图表显示被认为是真实的图像的百分比。也就是说,77.0%的由我们方法补全的图像被认为是真实的。作为对比,真实图像正确分类的时间为96.5%。这突显了我们方法图像补全的现实主义。

图11. 我们对CelebA数据集上的图像补全自然度进行用户研究的结果。数字表示10位不同用户认为是真实的图像的百分比,包括真实数据(GT)和我们方法补全的结果。

4.7 额外结果

我们在图12中展示了我们方法的额外结果。我们的方法可以完成多种多样的场景,如山脉、墙壁的近距离拍摄和教堂。此外,即使图像的大部分区域被补全,结果看起来仍然自然。

图12. 使用随机生成的遮罩,在图像上应用我们方法的额外图像补全结果。照片由Alex Liivet(CC0)、纽卡斯尔图书馆(公共领域)、黄石国家公园(公共领域)、神农多国家公园(公共领域)、神农多国家公园(公共领域)、thinkrorbot(公共领域)、Alan Levine(CC0)、Bruce Caron(公共领域)、Mr. Delirium(公共领域)、Bernard Spragg. NZ(CC0)、顾岩寺(CC0)、Allie G(公共领域)和gnuckx(CC0)提供。更多结果可以在补充材料中找到。

4.8 限制和讨论

尽管我们的模型可以处理任何大小的各种图像和任意的洞,但如第3.2节所讨论的,由于模型的空间支持,显著大的洞无法填补。通过改变模型架构以包含更多扩张卷积,可以推动这一限制的突破。注意,这种限制严格指的是方形遮罩,例如,宽阔区域仍然可以完成,只要它们不是太高:将使用上方和下方的信息来完成图像。这在图像外推的情况下尤其限制,其中填充遮罩位于图像的边缘。图13左边显示了这样一个例子,来自[Hays和Efros 2007]的数据集。不仅缺失区域相对于图像非常大,而且只有区域一侧的信息可用。图13右边显示了另一个因大面积填充区域而失败的案例。我们注意到,在这种情况下,[Hays和Efros 2007]也未能真实地填充遮罩。像[Hays和Efros 2007]这样的方法,利用庞大的数据库复制和粘贴大部分图像,如果数据库包含与输入相似的图像,则工作得很好。实际上,对于这样的方法,外推比填充更容易,因为在边界处匹配的内容更少。注意,在[Hays和Efros 2007]的输出中,遮罩外的原始图像部分通过从数据库中拟合图像补丁而被修改。

图13. 来自[Hays和Efros 2007]数据集的失败案例。为了比较,我们已经在Places2数据集上重新训练了[Pathak等人,2016年]的模型,用于任意区域。左侧的图像对应于图像外推的案例,即填充遮罩位于图像的边界上。在这个数据集的51张图像中,有32张的遮罩对应于图像外推。更多结果可以在补充材料中找到。

我们对这个数据集进行了一项用户研究,采用了标准的测试协议来比较我们的方法、Context Encoder (CE) [Pathak等人,2016年],以及[Hays和Efros,2007年]的方法。对于CE,我们使用了重新训练的模型,该模型针对Places2数据集上的任意遮罩进行了训练,并应用了我们的后处理技术。共有11名用户参与了这项研究,他们被要求将图像分类为真实或经过修改的。图14展示了用户判断图像是否经过修改所需的时间。由于许多图像在边缘有较大的空白区域,我们还专门评估了一个包含19张图像的子集,这些图像的空白区域位于中心而非边缘。当图像边缘有大的空白区域时,[Hays和Efros,2007年]的方法表现比中心空白区域的情况要好得多,这个数据集的高分辨率对我们的方法构成了挑战。在神经网络方法中,我们的方法比CE更难被识别为人工合成的,这在图像插值的子集中表现出意外的差异。

图14. 对[Hays和Efros,2007年]数据集进行的用户研究。我们比较了真实图像(GT),[Hays和Efros,2007年](Hays),CE [Pathak等人,2016年],以及我们的方法。要求用户区分图像是否经过了操作。我们绘制了根据最大响应时间正确分类的百分比。实线对应于完整数据集,而虚线对应于一个包含19张图像的子集,这些图像的填充遮罩不在边缘。数值越低表示效果越好。

我们的方法相对于像PatchMatch这样的传统技术的主要优势在于能够创造出图像中原本不存在的新对象。虽然对于某些户外场景而言,利用图像的其他部分来完成图像可能足够了,但对于完成人脸等任务而言,能够生成鼻子、眼睛、嘴巴等部位变得至关重要,否则如图15所展示的,补全任务将失败。

图15. 与PatchMatch(PM)和图像融合(IM)的比较。我们提供了我们的通用模型(ours)和为面部微调的模型(ours(ft))的结果。基于补丁的方法无法在场景中生成新颖的对象,导致结果不自然。照片由Owen Lucas(公共领域)、Mon Mer(公共领域)和SKV Florbal(公共领域)提供。更多结果可以在补充材料中找到。

图16中展示了一些失败案例的示例。通常,当图像中的结构化对象(如人或动物)被部分遮挡时,最常见的失败情况就会发生。在左侧的图像中,我们可以看到模型优先于重建背景中的树木而非男孩的头部。在右侧的图像中,我们的方法未能成功补全狗。然而,值得注意的是,结构化纹理的补全如图12所示是成功的。

图16. 我们方法的失败案例,其中我们的模型无法完成如人和动物这样结构化的对象。照片由Pete(公共领域)和brad pierce(公共领域)提供。

5 结论

我们提出了一种新颖的图像补全方法,该方法基于卷积神经网络,生成既局部又全局一致的图像补全结果。我们展示了,通过使用全局和局部上下文判别器,可以训练模型生成真实感的图像补全。与基于补丁的方法不同,我们的方法可以生成图像中其他地方未出现的新颖对象。我们提供了与现有方法的深入比较,并展示了大量场景的真实感图像补全。此外,我们还使用我们的方法完成人脸图像,并通过用户研究显示,我们生成的人脸有77%的时间与真实人脸无法区分。

参考文献

参考文献格式整理:

- Coloma Ballester, Marcelo Bertalmío, Vicent Caselles, Guillermo Sapiro, and Joan Verdera. 2001. Filling-in by joint interpolation of vector fields and gray levels. IEEE Transactions on Image Processing 10, 8 (2001), 1200–1211.

- Connelly Barnes, Eli Shechtman, Adam Finkelstein, and Dan B Goldman. 2009. PatchMatch: A Randomized Correspondence Algorithm for Structural Image Editing. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 28, 3 (2009), 24:1–24:11.

- Connelly Barnes, Eli Shechtman, Dan B. Goldman, and Adam Finkelstein. 2010. The Generalized Patchmatch Correspondence Algorithm. In European Conference on Computer Vision. 29–43.

- Marcelo Bertalmio, Guillermo Sapiro, Vincent Caselles, and Coloma Ballester. 2000. Image Inpainting. In ACM Transactions on Graphics (Proceedings of SIGGRAPH). 417–424.

- M. Bertalmio, L. Vese, G. Sapiro, and S. Osher. 2003. Simultaneous structure and texture image inpainting. IEEE Transactions on Image Processing 12, 8 (2003), 882–889.

- A. Criminisi, P. Perez, and K. Toyama. 2004. Region Filling and Object Removal by Exemplar-based Image Inpainting. IEEE Transactions on Image Processing 13, 9 (2004), 1200–1212.

- Soheil Darabi, Eli Shechtman, Connelly Barnes, Dan B Goldman, and Pradeep Sen. 2012. Image Melding: Combining Inconsistent Images using Patch-based Synthesis. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 31, 4, Article 82 (2012), 82:1–82:10 pages.

- J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. 2009. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09.

- Yue Deng, Qionghai Dai, and Zengke Zhang. 2011. Graph Laplace for occluded face completion and recognition. IEEE Transactions on Image Processing 20, 8 (2011), 2329–2338.

- Iddo Drori, Daniel Cohen-Or, and Hezy Yeshurun. 2003. Fragment-based Image Completion. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 22, 3 (2003), 303–312.

- Alexei Efros and Thomas Leung. 1999. Texture Synthesis by Non-parametric Sampling. In International Conference on Computer Vision. 1033–1038.

- Alexei A. Efros and William T. Freeman. 2001. Image Quilting for Texture Synthesis and Transfer. In ACM Transactions on Graphics (Proceedings of SIGGRAPH). 341–346.

- Kunihiko Fukushima. 1988. Neocognitron: A hierarchical neural network capable of visual pattern recognition. Neural networks 1, 2 (1988), 119–130.

- Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. 2014. Generative Adversarial Nets. In Conference on Neural Information Processing Systems. 2672–2680.

- James Hays and Alexei A. Efros. 2007. Scene Completion Using Millions of Photographs. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 26, 3, Article 4 (2007).

- Kaiming He and Jian Sun. 2012. Statistics of Patch Offsets for Image Completion. In European Conference on Computer Vision. 16–29.

- Jia-Bin Huang, Sing Bing Kang, Narendra Ahuja, and Johannes Kopf. 2014. Image Completion Using Planar Structure Guidance. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 33, 4, Article 129 (2014), 10 pages.

- Sergey Ioffe and Christian Szegedy. 2015. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. In International Conference on Machine Learning.

- Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. 2017. Image-to-Image Translation with Conditional Adversarial Networks. (2017).

- Jiaya Jia and Chi-Keung Tang. 2003. Image repairing: robust image synthesis by adaptive ND tensor voting. In IEEE Conference on Computer Vision and Pattern Recognition, Vol. 1. 643–650.

- Rolf Köhler, Christian Schuler, Bernhard Schölkopf, and Stefan Harmeling. 2014. Mask-specific inpainting with deep neural networks. In German Conference on Pattern Recognition.

- Johannes Kopf, Wolf Kienzle, Steven Drucker, and Sing Bing Kang. 2012. Quality Prediction for Image Completion. ACM Transactions on Graphics (Proceedings of SIGGRAPH Asia) 31, 6, Article 131 (2012), 8 pages.

- Vivek Kwatra, Irfan Essa, Aaron Bobick, and Nipun Kwatra. 2005. Texture Optimization for Example-based Synthesis. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 24, 3 (July 2005), 795–802.

- Vivek Kwatra, Arno Schödl, Irfan Essa, Greg Turk, and Aaron Bobick. 2003. Graphcut Textures: Image and Video Synthesis Using Graph Cuts. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 22, 3 (July 2003), 277–286.

- Yann LeCun, Bernhard Boser, John S Denker, Donnie Henderson, Richard E Howard, Wayne Hubbard, and Lawrence D Jackel. 1989. Backpropagation applied to handwritten zip code recognition. Neural computation 1, 4 (1989), 541–551.

- Anat Levin, Assaf Zomet, and Yair Weiss. 2003. Learning How to Inpaint from Global Image Statistics. In International Conference on Computer Vision. 305–312.

- Rongjian Li, Wenlu Zhang, Heung-Il Suk, Li Wang, Jiang Li, Dinggang Shen, and Shuiwang Ji. 2014. Deep learning based imaging data completion for improved brain disease diagnosis. In International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, 305–312.

- Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. 2015. Deep Learning Face Attributes in the Wild. In International Conference on Computer Vision.

- Jonathan Long, Evan Shelhamer, and Trevor Darrell. 2015. Fully convolutional networks for semantic segmentation. In IEEE Conference on Computer Vision and Pattern Recognition.

- Umar Mohammed, Simon JD Prince, and Jan Kautz. 2009. Visio-lization: generating novel facial images. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 28, 3 (2009), 57.

- Vinod Nair and Geoffrey E Hinton. 2010. Rectified linear units improve restricted boltzmann machines. In International Conference on Machine Learning. 807–814.

- Deepak Pathak, Philipp Krähenbühl, Jeff Donahue, Trevor Darrell, and Alexei Efros. 2016. Context Encoders: Feature Learning by Inpainting. In IEEE Conference on Computer Vision and Pattern Recognition.

- Darko Pavić, Volker Schönefeld, and Leif Kobbelt. 2006. Interactive image completion with perspective correction. The Visual Computer 22, 9 (2006), 671–681.

- Patrick Pérez, Michel Gangnet, and Andrew Blake. 2003. Poisson Image Editing. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 22, 3 (July 2003), 313–318.

- Alec Radford, Luke Metz, and Soumith Chintala. 2016. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. In International Conference on Learning Representations.

- Radim Šára Radim Tyleček. 2013. Spatial Pattern Templates for Recognition of Objects with Regular Structure. In German Conference on Pattern Recognition. Saarbrucken, Germany.

- Jimmy SJ Ren, Li Xu, Qiong Yan, and Wenxiu Sun. 2015. Shepard Convolutional Neural Networks. In Conference on Neural Information Processing Systems.

- D.E. Rumelhart, G.E. Hinton, and R.J. Williams. 1986. Learning representations by back-propagating errors. In Nature.

- Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. 2016. Improved techniques for training gans. In Conference on Neural Information Processing Systems.

- Denis Simakov, Yaron Caspi, Eli Shechtman, and Michal Irani. 2008. Summarizing visual data using bidirectional similarity. In IEEE Conference on Computer Vision and Pattern Recognition. 1–8.

- Jian Sun, Lu Yuan, Jiaya Jia, and Heung-Yeung Shum. 2005. Image Completion with Structure Propagation. ACM Transactions on Graphics (Proceedings of SIGGRAPH) 24, 3 (July 2005), 861–868. DOI:https://doi.org/10.1145/1073204.1073274

- Alexandru Telea. 2004. An Image Inpainting Technique Based on the Fast Marching Method. Journal of Graphics Tools 9, 1 (2004), 23–34.

- Yonatan Wexler, Eli Shechtman, and Michal Irani. 2007. Space-Time Completion of Video. IEEE Transactions on Pattern Analysis and Machine Intelligence 29, 3 (2007), 463–476.

- Oliver Whyte, Josef Sivic, and Andrew Zisserman. 2009. Get Out of my Picture! Internet-based Inpainting. In British Machine Vision Conference.

- Junyuan Xie, Linli Xu, and Enhong Chen. 2012. Image Denoising and Inpainting with Deep Neural Networks. In Conference on Neural Information Processing Systems. 341–349.

- Chao Yang, Xin Lu, Zhe Lin, Eli Shechtman, Oliver Wang, and Hao Li. 2017. High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis. In IEEE Conference on Computer Vision and Pattern Recognition.

- Fisher Yu and Vladlen Koltun. 2016. Multi

-Scale Context Aggregation by Dilated Convolutions. In International Conference on Learning Representations.

- Matthew D. Zeiler. 2012. ADADELTA: An Adaptive Learning Rate Method. CoRR abs/1212.5701 (2012).

- Bolei Zhou, Aditya Khosla, Àgata Lapedriza, Antonio Torralba, and Aude Oliva. 2016. Places: An Image Database for Deep Scene Understanding. CoRR abs/1610.02055 (2016).

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值