Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation

摘要

事先学习好图像是图像复原和处理的一个长期目标。虽然现有的方法,如深度图像先验(DIP)捕获低层次的图像统计,但在图像先验捕获丰富的图像语义(包括颜色、空间一致性、纹理和高级概念)方面仍存在差距。本工作提出了一种有效的方法来利用被捕获的图像先验通过生成对抗网络(GAN)在大规模自然图像上训练。如图1所示,深度生成先验(DGP)提供了令人信服的结果来恢复缺失的语义,如颜色,块,分辨率,各种退化图像。它还支持各种图像操作,包括随机抖动、图像变形和类别转移。这种高度灵活的恢复和操作是通过释放现有GAN-inversion方法的假设而实现的,这些方法倾向于固定生成器。值得注意的是,我们允许通过GAN中鉴别器获得的特征距离逐步正则化的方式实时微调生成器。我们表明,这些易于实现和实用的变化有助于保持重建保留在自然图像的多样性,从而导致更精确的真实图像的重建。代码可以在https://github.com/XingangPan/deepgenerative-prior上找到。
图1。这些图像复原(a)(b)©(d)和处理(e)(f)(g)效果是通过利用GAN丰富的生成先验实现的。GAN在训练过程中不会看到这些图像

1 介绍

学习图像先验模型对于解决图像复原和处理的各种任务非常重要,如图像着色[25,43]、图像补绘[41]、超分辨率[14,26]和对抗防御[33]。在过去的几十年里,许多图像先验[30,47,15,18,31]被提出来捕捉自然图像的某些统计信息。尽管他们取得了成功,但这些经历往往是为了实现一个明确的目标。例如,通常采用马尔可夫随机域[30,47,15]对相邻像素之间的相关性进行建模,而采用暗通道先验[18]和总变差[31]分别进行去雾和去噪。

人们对通过深度学习模型来获取更丰富的图像统计数据的更普遍的先验知识的兴趣激增。例如,深度图像先验(DIP)[36]的开创性工作表明,随机初始化的卷积神经网络(CNN)的结构隐式捕获纹理级别图像先验。因此,可以通过对图像进行微调来恢复被破坏的图像。SinGAN[34]进一步表明,随机初始化生成对抗网络(GAN)模型能够在训练后从单个图像中捕获丰富的patch统计信息。这些先验在一些低级的图像恢复和操作任务,如超分辨率和协调中显示了令人印象深刻的结果。在这两个代表作品中,CNN和GAN都是从一个感兴趣的图像从零开始训练的。

在本研究中,我们感兴趣的是更进一步,研究我们如何利用在大型自然图像上训练的GAN[16]来获得比单个图像更丰富的先验。GAN是一种很好的自然图像流形逼近算法。通过学习大型图像数据集,它捕获了丰富的自然图像知识,包括颜色、空间一致性、纹理和高级概念,这对更广泛的图像恢复和操作效果是有用的。具体地说,我们将收缩的图像(如灰度图像)作为原始自然图像的部分观察,和在观察空间(例如,灰度空间)用GAN重建它,GAN的图像先验会倾向于以一种可靠的方式匹配自然图像去恢复缺失的语义(例如颜色)。尽管具有巨大的潜力,但利用GAN作为一般图像恢复和处理的先决条件仍然是一项具有挑战性的任务。关键的挑战在于需要处理来自不同任务、具有明显不同性质的任意图像。重建还需要生成符合自然图像流形的清晰、逼真的图像。

对于我们的问题,一个有吸引力的选择是GAN-inversion[45,10,2,5]。现有的gan反演方法通常通过优化潜向量来重建目标图像。z∗= arg minz∈Rd L(x, G(z;θ)),其中x为目标图像,G为固定生成器,z和θ分别为潜向量和生成器参数。在实践中,我们发现这种策略在复杂的真实图像中是失败的。特别是,它经常导致不匹配重建,其细节(如对象、纹理和背景)看起来与原始图像不一致,如图2 (b)©所示。一方面,现有的gan反演方法存在模态坍塌和生成器容量有限的问题,影响了其获取所需数据流形的能力。另一方面,可能更关键的局限性是,当生成器固定时,GAN不可避免地受到训练分布的限制,其反演不能忠实地重建不可见和复杂的图像。当使用GAN作为一般图像恢复和处理的先验时,进行这样的假设是不可行的。

尽管近似流形和真实流形之间存在差距,GAN生成器仍然可以捕捉到丰富的自然图像统计信息。为了在利用这些统计量的同时避免上述限制,本文提出了一种更宽松、更实用的先验挖掘重构公式。我们的第一个重新规划是允许生成器参数在目标图像上实时微调,即。,θ *,z * = arg minθ,zL(x, G(z;θ))。这消除了将重构限制在训练分布范围内的限制。然而,通过微调放松该假设仍然不足以保证任意目标图像的良好重建质量。我们发现,在DIP中使用标准损失(如感知损失[22]或均方误差(MSE))进行微调可能会消除原始丰富的先验。因此,在退化图像的重建过程中,重建过程可能变得越来越不自然。图2(d)显示了一个例子,表明需要一种新的损失和重构策略。
2
图2所示。在灰度观测空间下利用GAN重建灰度图像的各种方法的比较。传统的GAN-inversion策略,如(b)[45]和©[5],对现有语义产生不精确的重构。在本工作中,我们放松了生成器,使其可以实时微调,实现了(d)(e)(f)中更精确的重建,其中的优化分别基于(d) VGG感知损失,(e)鉴别器特征匹配损失,(f)结合渐进重建。我们强调,鉴别器是重要的,以保持生成先验,以实现更好的恢复缺失的信息(即,颜色)。建议的渐进策略消除了(e)中红框所示的“信息滞留”工件。

因此,在我们的第二次重新拟订中,我们设计了一项有效的重建战略,包括两个组成部分:
1)耦合鉴别器的特征匹配损失——我们充分利用训练好的GAN的鉴别器来正则化重建。请注意,在训练过程中,生成器经过优化,通过鉴别器提供的梯度模拟大量的自然图像。由于鉴别器比其他距离度量更好地保留了原始的参数结构,因此在引导发生器匹配单幅图像时仍然采用鉴别器是合理的。因此,从鉴别器中提取特征匹配损失可以帮助保持重建保持在自然图像空间中。虽然特征匹配损失在文献[37]中并不新鲜,但其对GAN重构的意义尚未研究。

2)渐进性重构——我们观察到,对生成器的所有参数进行联合微调可能会导致“信息滞留”,即在重构退化图像时,缺失的语义(如颜色)不会随着内容而自然改变。这是因为在高级配置对齐之前,生成器的深层开始匹配低级纹理。为了解决这个问题,我们提出了一种渐进重建策略,从最浅的层到最深的层,逐步对生成器进行微调。这允许重构从匹配高级配置开始,并逐渐将重点转移到低级细节上。

由于提出的技术能够在保持生成器先验的情况下实现准确的重建,我们的方法,我们称之为深度生成先验(DGP),很好地推广到各种各样的图像恢复和操作任务,尽管我们的方法不是专门为每个任务设计的。在依赖于任务的观测空间中重建受损图像时,DGP倾向于恢复缺失的信息,同时保持现有的语义信息不变。如图1 (a)(b)©所示,给定图像的颜色、缺失的块和细节分别恢复得很好。如图1 (e)(f)所示,我们可以通过调整生成器的潜在向量或类别条件来操纵图像的内容。图1 (g)表明,通过插值两个细调发生器的参数和这些图像对应的潜在向量,可以实现图像变形。据我们所知,这是首次在ImageNet[12]这样的复杂图像数据集上实现这些抖动和变形效果。我们在实验和附录中展示了更多有趣的例子。

2 相关工作

图像先验。描述自然图像的各种统计量的图像先验在计算机视觉中被广泛采用,包括马尔可夫随机域[30,47,15]、暗通道先验[18]和总变异正则化[31]。最近,深度图像先验(DIP)[36]的工作表明,图像统计信息被CNN的结构隐式捕获,它也是一种先验,可以用来恢复损坏的图像。SinGAN[34]对单个图像的patch随机初始化GAN进行微调,实现各种图像编辑或恢复效果。由于DIP和SinGAN都是从零开始训练的,因此它们对输入图像之外的图像统计信息的访问有限,这限制了它们在图像着色等任务中的适用性。还有其他深度先验开发用于低水平恢复任务,如深度降噪先验[42,6]和TNRD[8],但与它们竞争不是我们的目标。相反,我们的目标是研究和利用在GAN中捕获的先验,用于多用途恢复和操作任务。现有的使用经过训练的GAN作为图像统计源的尝试包括[4]和[20],它们分别适用于图像处理,例如:编辑图像的部分区域和图像恢复,如压缩感知和人脸的超分辨率。正如我们将在我们的实验中所展示的,通过使用基于鉴别器的距离度量和渐进性微调策略,DGP可以更好地保留GAN学习到的图像统计信息,从而获得更丰富的恢复和操作效果。

最近,一项基于[17]的多码GAN并行工作也通过求解GAN反演问题来进行图像处理。它使用多个潜向量来重建目标图像,并保持生成图像的固定,而我们的方法通过允许动态微调使生成图像自适应。

图像恢复与处理。在本文中,我们论证了将DGP应用于图像处理的多个任务的效果,包括图像着色[25]、图像补绘[41]、超分辨率[14,26]、对抗防御[33]和语义处理[45,46,9]。虽然许多特定任务的模型和损失函数已经被提出,以追求一个更好的性能在特定的修复任务[25,43,41,14,26,33),也有作品应用GAN和设计特定于任务的管道来实现不同的图像处理效果(37,46,94,35,40),如CycleGAN[46]和StarGAN[9]。在这项工作中,我们更感兴趣的是发现利用GAN先验作为一种任务无关的解决方案的潜力,在这里我们提出了几种技术来实现这一目标。此外,如图1(e)(g)所示,通过改进的重构过程,我们成功地在ImageNet上实现了图像抖动和变形,而以往的方法不足以处理这种复杂数据的影响。

GAN-Inversion。如第3节所述,利用生成先验的一种直接方法是基于gan反演进行图像重建。GAN反演的目标是在潜在空间中找到一个向量,在GAN生成器固定的地方,可以最好地重建给定的图像。之前的尝试要么通过梯度反向传播直接优化潜向量[10,2],要么利用额外的编码器映射图像到潜向量[45,13]。最近的一种方法[5]提出在发生器的浅层块上添加小扰动,以减轻反演任务。虽然这些方法可以处理有限复杂性的数据集或GAN本身采样的合成图像,但我们在实验中经验发现,它们可能会对复杂的真实场景产生不精确的重建,例如:ImageNet[12]中的图像。最近,StyleGAN[23]的工作通过在中间潜空间[1]中操作,为GAN的反转提供了一种新的方法,但仍然可以观察到明显的不匹配,vanilla GAN的反转(如BigGAN[7])仍然具有挑战性。在本文中,我们设计了一种更实用的方法,使用生成先验来重建给定的图像,而不是直接使用标准gan反演,该方法被证明可以获得更好的重建结果。

3 方法

在讨论如何利用DGP进行图像恢复和处理之前,我们首先对DIP和GAN进行了一些初步的探讨。

深度图像先验。Ulyanovet al[36]表明,图像统计被CNN的结构隐式捕获。这些数据可以被视为一种图像之前,可以利用各种图像恢复任务的调优一个随机初始化CNN在退化图像:θ∗=参数最小值θE(ˆx, f (z,θ)),x∗= f (z,θ∗),其中E是task-dependent距离度量,z是一个随机选择的潜在的向量,f是CNN,θ是它的参数。ˆx和x∗分别是退化的图像和恢复的图像。DIP的一个限制是恢复过程主要依靠输入图像中已有的统计信息,因此不能将DIP应用于需要更一般统计信息的任务,如图像着色[25]和操作[45]。

生成对抗网络(GANs)。gan被广泛用于建模复杂数据,如自然图像[16,39,11,23]。在GAN中,自然图像的底层流形通过参数生成器G和先验潜空间Z的组合来逼近,因此可以通过对潜向量z进行采样并应用G即G (z)来生成图像。GAN以一种对抗的方式联合训练G和一个参数鉴别器D,其中D应该将生成的图像与真实的图像区分开来。虽然为提高GAN的效率已经做了大量的努力,但由于容量不足、模态坍塌等问题,GAN的近似流形与实际流形之间不可避免地存在差距。

3.1 深层生成先验

设ˆx由ˆx=φ(x)得到,其中x为原始自然图像,φ为退化变换。,φ可以是将x变成灰度图像的灰度变换。许多图像恢复的任务可以被视为给定ˆx去恢复x。一种常见的做法是通过ˆx到x学习映射,这通常需要针对不同的φ进行特定任务的训练。或者,我们也可以使用一些之前存储的x的统计数据,并在x的空间中搜索最匹配ˆx的最理想的x,查看ˆx作为部分观察结果。

虽然在第二阶段的研究中已经提出了各种先验[30,36,34],但在本文中,我们感兴趣的是研究一种更通用的图像先验,即在大规模自然图像上训练的GAN生成器用于图像合成。具体来说,一个简单的实现就是基于GAN-inversion的重构过程,该过程优化了以下目标:
在这里插入图片描述
其中,L是一个距离度量,如L2距离,G是一个由θ参数化的GAN生成器,并在自然图像上训练。理想情况下,如果G足够强大,自然图像的数据流会被很好地捕获,上述目标将在潜在空间中拖缓z,并找到最佳的自然图像x∗=G(z∗;θ),它包含了ˆx和匹配ˆx在φ下的缺失语义。例如,如果φ是一个灰度变换,那么x∗将是一个对象为φ(x∗)=ˆx的自然颜色配置图像。然而,实际情况并非总是如此。

由于GAN发生器在式(1)及其改进版本中是固定的,如增加了一个额外的编码器[45,13],这些基于标准gan - inverse的重构方法存在固有的局限性,即自然图像的近似流形与实际流形之间存在差距。一方面,由于模式崩溃、容量不足等问题,GAN生成器不能很好地掌握由自然图像数据集表示的训练流形。另一方面,训练流形本身也是实际流形的近似值。这两个层次的近似不可避免地会导致差距。因此,经常会检索到一个次最佳的x∗,它经常包含与ˆx的显著不匹配,特别是当原始图像是一个复杂的图像时,例如ImageNet[12]图像,或位于训练集合外部的图像。如图2和现有文献[5,13]所示。

一种松弛GAN重构配方。尽管近似流形和真实流形之间存在差距,但经过良好训练的GAN生成器仍然可以覆盖自然图像的丰富统计数据。为了利用这些统计量,同时避免上述限制,我们提出了一个放宽的GAN重构公式,允许发生器的参数θ与潜在向量z一起进行适度微调。对θ的这种松弛产生了一个更新的目标:
在这里插入图片描述
我们将此更新目标称为深层生成先验(DGP)。通过这种放松,DGP显著提高了为ˆx定位一个理想的x∗的机会,因为将生成器适合于单个图像比完全捕获一个数据流更容易实现。请注意,在G里面生成的先验被埋没了,例如。在精细调优过程中,其输出真实自然图像的能力可能会下降。保持生成先验的关键在于设计一个合适的距离度量和优化策略。

3.2 鉴别引导的渐进式重建

(……待补全)

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值