Deep Photo Enhancer: Unpaired Learning for Image Enhancement from Photographs with GANs

Abstract

提出了一种图像增强的非成对学习方法。给定一组具有所需特征的图像,该方法学习一种图像增强器,该增强器将输入图像转换为具有这些特征的增强图像。该方法基于双向生成对抗网络(GANs)框架,并进行了改进。首先,我们增加了U-Net的全局特征,并表明它是更有效的。全局U-Net在我们的GAN模型中充当了生成器的角色。其次,利用自适应加权方法对Wasserstein GAN (WGAN)进行了改进。与WGAN-GP相比,该方案收敛速度快,收敛效果好,对参数的敏感性较低。最后,我们建议在双向GANs中对生成器使用单独的批处理规范化层。它有助于生成器更好地适应自己的输入分布。 总之,它们显着提高了我们应用的GAN训练的稳定性。 定量和视觉结果均表明所提出的方法对于增强图像是有效的。

1.Introduction

照片记录了我们生命中宝贵的时刻。随着手机摄像头的普及,用户更喜欢拍摄照片。然而,目前的相机具有局限性。他们必须从场景的一组不完整和不完美的样本中重建完整和高质量的图像。样品通常噪音大,颜色不完整,分辨率和动态范围有限。此外,相机传感器对入射光线性响应,而人类感知执行更复杂的非线性映射。因此,用户可能对他们拍摄的照片感到失望,因为这些照片与他们的期望和视觉体验不符。由于传感器小巧,镜头小巧,移动相机的问题更加严重。

图像增强方法试图解决颜色再现和图像清晰度的问题。为此目的,有交互式工具和半自动方法。大多数交互式软件提供基本工具,如直方图均衡,锐化,对比度调整和颜色映射,以及一些高级功能,如局部和自适应调整。然而,结果的质量很大程度上取决于用户的技能和美学判断。此外,通常需要大量时间才能达到令人满意的润饰效果。半自动方法仅需要调整一些参数来促进该过程。但是,结果可能对参数非常敏感。 此外,这些方法通常基于一些关于人类感知的启发式规则,例如增强细节或拉伸对比度。 因此,它们可能很脆弱并导致不良结果。

本文提出了一种通过学习照片来增强图像的方法。该方法仅需要一组“好”照片作为输入。它们具有用户想要的照片特征。它们可以从网站或任何照片库中轻松收集。我们将图像增强问题视为图像到图像转换问题,其中输入图像被转换为具有嵌入在训练照片集中的特征的增强图像。因此,我们用双向GAN解决了这个问题,其结构类似于CycleGAN [26]。然而,GAN因其不稳定性而臭名昭着。为了解决问题并获得高质量的结果,我们在构建双向GAN的过程中提出了一些改进。首先,对于生成器的设计,我们用全局特征来增强U-Net [20]。全局特征捕捉场景设置,全局照明条件甚至主题类型的概念。它们有助于确定应执行哪些局部操作。其次,我们提出了Wasserstein GAN(WGAN)[1]的自适应加权方案。WGAN使用权重裁剪来强制执行Lipschitz约束。后来发现了一种可怕的方式,有些人建议使用梯度惩罚来强制执行约束[9]。 但是,我们发现该方法对惩罚的加权参数非常敏感。因此,我们建议使用自适应加权方案来改善WGAN训练的收敛性。最后,大多数双向GAN架构在前向和后向传递中使用相同的发生器。这是有道理的,因为两个路径中的生成器使用相同的输入和输出域执行类似的映射。但是,我们发现,虽然在同一个域中,输入实际上来自不同的源,一个来自输入数据,另一个来自生成的数据。 输入源分布之间的差异可能对生成器的性能产生恶性影响。 我们建议对相同类型的生成器使用单独的批量标准化层。这样,生成器可以更好地适应输入数据分布。通过这些改进,我们的方法可以提供具有更好的色彩再现和清晰度的高质量增强照片。结果通常看起来比以前的方法更自然。此外,所提出的技术,全局U-Net,自适应WGAN和单个批量标准化,可用于其他应用。

2. Related work

图像增强已经研究了很长时间。已经提出许多操作和过滤器来增强细节,改善对比度和调整颜色。Wang等人[22]提出了一种在保持自然性的同时增强细节的方法。Aubry等[2]提出了局部拉普拉斯算子来增强细节。这些操作中的大多数都是算法并且基于启发式规则。 Bychkovsky等。 [4]提出了一种基于学习的回归方法,用于近似摄影师的调整技巧。为此,他们收集了一个数据集,其中包含摄影师调整前后的图像。

卷积神经网络(CNN)已成为广泛的计算机视觉和图像处理问题的主要工具。它们也已应用于图像增强问题。严等人[23]提出了第一种基于深度学习的照片调整方法。Gharbi等[7]提出了现有滤波器的快速近似。Ignatov等人采用了一种不同的方法,他们学习了手机相机和单反相机之间的映射。他们收集了由不同相机拍摄的相同场景的图像组成的DPED数据集。利用GAN模型学习映射。Chen等人使用全卷积网络对现有滤波器进行了近似。它只能学习现有的过滤器,不能做超出它们所能做的。所有这些方法都是监督的,需要成对的图像,而我们的方法是不成对的。这种不成对的性质简化了收集训练数据的过程。

我们的方法基于生成对抗网络(GAN)[8]。虽然GAN已被证明是强大的,但它们在训练不稳定性方面臭名昭着。在对GAN的稳定培训方面做出了重大努力。Wasserstein GAN使用地球移动距离来测量数据分布与模型分布之间的距离,并显着提高训练稳定性[1]。Gulrajani等发现WGAN仍然会产生低质量的样品或由于权重削减而无法收敛[9]。他们提出了相对于输入来惩罚鉴别器的梯度的范数而不是权重削减。得到的模型称为WGAN-GP(具有梯度罚分的WGAN)。它通常生成更高质量的样本,并且比WGAN更快收敛。还有基于能量的GAN变体,例如BEGAN [3]和EBGAN [25]。

Isola等提出了条件对抗网络作为图像到图像转换问题的通用解决方案[13],从场景的一种表示转换为另一种,例如从语义标签映射到真实图像或从白天图像到它的夜晚对应。虽然产生惊人的结果,但他们的方法需要配对图像进行训练。后来提出了双向GAN,通过引入循环一致性来解决问题。著名的双向GAN包括CycleGAN [26],DualGAN [24]和DISCOGAN [14]。我们将图像增强表示为图像到图像转换问题的一个实例,并用双向GAN解决它。

3. Overview

我们的目标是获得一个照片增强器Φ,它采用输入图像x并生成输出图像Φ(x)作为x的增强版本。然而,明确定义增强并不容易,因为人类感知是复杂和主观的。我们不是使用一组启发式规则来制定问题,例如“应该增强细节”或“应该拉伸对比度”,而是通过一组示例Y来定义增强。也就是说,我们问用户提供一组具有他/她想要的特征的照片。所提出的方法旨在发现Y中的图像的共同特征并且导出增强器,使得增强图像Φ(x)在内容中仍然类似于原始图像x的同时共享这些特征。

由于其具有集级监督的性质,该问题可以使用GAN框架自然地制定,该框架学习输入样本的嵌入并生成位于由训练样本跨越的子空间内的输出样本。GAN模型通常由鉴别器D和生成器G组成。该框架已用于解决图像到图像转换问题,该问题将输入图像从源域X转换为目标域Y中的输出图像[13]]。在我们的应用中,源域X表示原始图像,而目标域Y包含具有所需特征的图像。

图1(a)给出了单向GAN的架构。 给定输入x\in X,生成器G_{x}将x变换为y^{'}=G_{x}(x)\in Y。鉴别器D_{Y}旨在区分目标域{y}中的样本和生成的样本\{y^{'}=G_{X}{(x)}\}。为了实现循环一致性以获得更好的结果,一些人提出了双向GAN,例如CycleGAN [26]和DualGAN [24]。 它们需要G^{'}_{Y}(G_{X}(x))=x,其中生成器G'Y采用GX生成的样本并将其映射回源域X。此外,双向GAN通常包含前向映射(X→Y)和后向映射(Y→X)。图1(b)显示了双向GAN的体系结构。在正向传递中,x\overset{G_{x}}{\rightarrow}y^{'}\overset{G^{'}_{Y}}{\rightarrow}x^{''}我们检查x和x''之间的一致性。在向后传递中,y\overset{G_{Y}}{\rightarrow}x^{'}\overset{G^{'}_{X}}{\rightarrow}y^{''}我们检查y和y''之间的一致性。

在以下部分中,我们将首先介绍我们的生成器的设计(第4节)。 接下来,我们将描述单向GAN(第5节)的设计和我们的双向GAN(第6节)的设计。

4. Generator

对于我们的应用,GAN框架中的生成器起着重要作用,因为它将充当最终的照片增强器Φ。本节提出了一个生成器,并将其与几个选项进行比较。图2(a)显示了所提出的生成器。输入图像的大小固定为512×512。

我们的生成器基于U-Net [20],最初被提议用于生物医学图像分割,但后来在许多任务中也表现出强大的性能。然而,UNet在我们的任务上表现不佳。我们的猜想是U-Net不包括全局特征。我们的视觉系统通常根据整体照明条件和场景设置进行调整。同样,相机具有场景设置,并且通常根据当前设置应用不同类型的调整。全局特征可以揭示高级信息,例如场景类别,主题类型或整体照明条件,这些信息对于各个像素确定其局部调整可能是有用的。因此,我们将全局特征添加到U-Net中。

为了提高模型效率,全局特征的提取与U-Net的相同的契约部分共享前五层的局部特征的提取。每个收缩步骤包括5×5过滤,步长2,然后SELU激活[15]和批量标准化[12]。给定第五层的32×32×128特征图,对于全局特征,通过执行上述收缩步骤,特征图进一步减小到16×16×128然后8×8×128。然后通过完全连接的层将8×8×128特征图减少到1×1×128,接着是SELU激活层,然后是另一个完全连接的层。然后将提取的1×1×128全局特征复制32×32个拷贝并在32×32×128特征图之后连接用于低级特征,从而产生32×32×256特征图,其融合局部和全局特征 一起。然后在融合的特征图上执行U-Net的扩展路径。 最后,采用残差学习的思想是因为它已经被证明对图像处理任务有效并且有助于收敛。 也就是说,生成器仅学习输入图像和标签图像之间的差异。

其他图像处理任务(如着色[11])已经探索了全局特征。但是,他们的模型需要使用明确的场景标签训练的额外监督网络。对于许多应用程序,很难明确定义标签。我们模型的新颖之处在于使用U-Net本身来编码隐式特征向量,该向量描述了对目标应用程序有用的全局特征。

The dataset. 我们使用MIT-Adobe 5K数据集[4]进行训练和测试。该数据集包含5,000张图像,每张图像均由五位训练有素的摄影师使用全局和局部调整进行修饰。我们选择了摄影师C作为标签的结果,因为他在用户研究中排名最高[4]。数据集分为三个分区:第一个分区包含2,250个图像,它们的修饰版本用于本节监督设置的训练; 对于第5节和第6节中的不成对训练,另外2,250个图像的修饰图像充当目标域,而第一个分区的2,250个图像用作源域; 其余500张图像用于任一设置的测试。

The experiments. 我们评估了生成器的几种网络架构。(1)DPED [10]:由于我们只评估生成器,我们只采用了它们的GAN架构的生成器。(2)8RESBLK [26,17]:生成器已用于CycleGAN [26]和UNIT [17]。(3)FCN [6]:用于近似滤波器的完全卷积网络。(4)CRN [5]:该架构已被用于从语义标签合成逼真的图像。(5)U-Net [20]。 残差学习对它们所有都有所增强。由于图像大小和对存储容量的限制,第一层的特征数量限制为16。否则,整体架构不能安装在存储器内。损失函数是最大化PSNR:

arg \underset{G_{X}}{min}\underset{y,y^{'}}{E}[log_{10}(MSE(y,y^{'}))],其中

MSE(x,y)=\frac{1}{mn}\sum_{i=0}^{m-1}\sum_{j=0}^{n-1}||x(i,j)-y(i,j)||^{2}

表1显示了对于来自MITAdobe 5K数据集的500个测试图像的近似快速局部拉普拉斯滤波的所有比较架构的平均PSNR和SSIM值。通过添加全局特性,所提出的体系结构比没有全局特征的对应体提供了近3dB的增益,并且优于所有比较的体系结构。我们的生成器在逼近具有33.93dB PSNR的快速局部拉普拉斯滤波器方面做得非常出色,优于为此类任务设计的FCN。表2报告了这些架构在预测润饰图像方面的性能。 这项任务要困难得多,因为人工修饰可能比算法滤波器更复杂,更不一致。 同样,拟议的全局U-Net架构优于其他架构。

5. One-way GAN

本节介绍了我们针对非成对训练的GAN架构。图2(b)说明了我们的鉴别器的架构。通过将生成器(图2(a))用作GX并将鉴别器(图2(b))用作图1(a)中的DY,我们得到了单向GAN的架构。如第4节所述,为了训练GAN,为了避免源域和目标域之间的内容关联,我们使用2250个MIT-Adobe 5K数据集图像作为源域,同时使用另外2250个图像的润饰图像作为目标域。

GAN形式有许多变体。我们首先尝试了几种GAN,包括GAN [8],LSGAN [18],DRAGAN [16]和WGANGP [9],具有不同的参数设置。表3报告了其中一些的结果。所有GAN都需要参数α作为身份损失\underset{x,y^{'}}{E}[MSE(x,y^{'})]的权重,这确保输出类似于输入。参数D / G表示鉴别器和生成器训练通过次数之间的比率。在我们的应用程序中,WGAN-GP的性能优于GAN,LSGAN和DRAGAN。 表3仅报告了WGAN-GP以外方法的最佳性能。 然而,WGAN-GP的性能取决于附加参数λ,其对梯度罚分进行加权。

WGAN依赖于训练目标的Lipschitz约束:当且仅当其具有最多1个范数的梯度时,可微函数是1-Lipschtiz [9]。为了满足约束条件,WGAN-GP通过添加以下梯度罚分直接约束鉴别器输出相对于其输入的梯度范数,

 

 

 

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值