TowardsPerceptual I-D byPhysics-Based Disentanglement and AdversarialTraining基于物理解缠和对抗训练的感知图像去雾2018

摘要:单幅图像去雾是一个具有挑战性的欠约束问题,因为未知场景的亮度和透射具有模糊性。以前的方法是通过各种手工设计的先验或对合成模糊图像对进行监督训练来解决这一问题。然而,在实践中,预定义的先验很容易被违背,并且配对的图像数据无法用于监督训练。在这项工作中,我们提出了解纠缠脱雾网络,这是一个端到端模型,仅使用非配对监督生成逼真的无雾图像。我们的方法通过引入基于物理模型的解纠缠重建机制来缓解配对训练约束。采用多尺度对抗训练生成无雾图像。在合成数据集上的实验结果表明,我们的方法在PSNR、SSIM和CIEDE2000等方面都优于现有的方法。

如图1所示,我们的模型引入了一种基于物理模型的解纠缠和重建机制:首先将朦胧图像输入通过三个生成器网络解纠缠为三个隐藏因素:场景亮度介质传输大气光;然后将这些因素组合起来使用物理模型重建原始输入(Eq. 1)。隐藏因素也受到对抗性损失和正则化的约束。整个框架与CycleGAN (Scharstein et al . 2014)和最近的AIGN (Tung et al . 2014)共享类似的想法2017),通过利用来自向后/渲染过程的反馈信号来缓解配对训练的约束。

与他们的方法相反,我们的解纠缠机制使我们能够在不同的隐藏因素上引入单独的约束,并学习物理上有效的模型。我们的解纠缠去雾网络为现实场景中的图像去雾提供了一个新的视角,我们称之为感知去雾。与以前的方法不同,这些方法将雾霾去除视为图像恢复过程,并试图完全恢复原始场景的亮度,我们的目标是生成视觉上令人愉悦的感知无雾图像。事实上,在大多数实际场景中,恢复真实的场景亮度不仅具有挑战性,而且没有必要。首先,室外场景的图像可能包含异质的气氛、复杂的场景和不规则的照明(参见图4中的例子),这使得对真实介质传输的估计不可靠。其次,彻底去除雾霾会导致图像不自然,因为雾霾的存在是人类感知深度的线索(He, Sun, and Tang 2011)。因此,我们的目标是生成符合人类感知的无雾图像分布的感知愉悦的除雾结果。

我们在本文中做出了以下贡献:

•我们提出了一种新的基于解纠缠去雾网络的图像去雾方法,该方法通过对抗过程训练并执行基于物理模型的去纠缠。

•我们收集了一个具有挑战性的图像去雾研究数据集,其中有800多张自然朦胧图像和1000多张室外场景无雾图像。

•我们通过在合成和真实图像数据集上进行广泛的实验来评估感知图像去雾。

在我们的方法中,从模糊图像生成过程的物理模型中导出解纠缠,并通过神经网络从模糊图像中生成隐藏因素。与(Shu et al . 2017)不同的是,我们的方法不依赖于任何外部算法或配对数据来进行额外的监督,并且解纠缠的组件仅受对抗损失先验的约束

图1:(a)自然朦胧图像和无朦胧图像的未配对数据集。(b)我们的解缠脱雾网络的总体架构。GJ、Gt、GA分别表示场景辐射、介质透射和全局大气光的产生器。

模型构建:

解缠除雾网络

我们将感知图像去雾问题视为一个未配对的图像到图像的转换问题,其中源域(模糊)的图像在没有任何配对信息的情况下被映射到目标域(无雾)。这个问题是具有挑战性的,因为没有配对监督,模型可以学习到目标域的任意映射,并且不能保证将单个输入映射到其期望的输出。以前的工作通过引入一个额外的反向生成器来生成原始输入来解决这个问题(Zhu et al . 2017;Yi et al . 2017;Kim et al . 2017)。虽然这些方法可以应用于我们的任务,但我们发现它们不能解决雾霾带来的模糊性,即它们不能区分光衰减和原始场景亮度的影响。为了更好地模拟模糊图像的形成,我们提出通过引入基于物理模型的解纠缠和重建来解决图像间的不配对问题

图1 (b)显示了我们方法的总体框架。

给定两组未配对的图像(朦胧和无雾)作为(弱)监督,我们的目标是学习一个模型,该模型可以在物理模型的约束下将朦胧输入分解为隐藏因素。隐藏的因素进一步受到对抗性训练程序和基于先验的正则化的约束。我们的方法可以促进非配对训练,原因如下:1)它可以对不同的解纠缠因素进行单独的约束/先验。2)不同的发生器可以联合优化,达到最佳解纠缠。3)重构过程在物理上是有效的,对生成过程提供了更严格的约束

受大气散射模型的启发,我们将输入的模糊图像分解为三个隐藏因素:场景亮度透射图全局大气光。然后使用Eq.(1)将这三个分量组合起来重建原始模糊图像。形式上,我们将I = {Ii}N I =1和J = {Jj}M J =1分别表示为模糊图像和无模糊图像对应的两组训练样本。我们的模型首先使用三个生成器执行解纠缠:j = GJ (I), t = Gt(I)和a = GA(I)。然后将这三个分量组合以重建原始输入:I = J - t- +A - (1 - t-),其中表示元素的乘法。

我们的目标函数包含三个项:重建损失对抗损失正则化损失。我们使用传统的L1损失作为重建损失,以鼓励像素级一致性和更少的模糊(与L2损失相比):

为了生成感知愉悦和无模糊的图像,我们为中间输出引入了一个多尺度对抗训练过程。具体来说,当训练多尺度鉴别器D来检测图像是“真”还是“假”时,训练生成器GJ来“欺骗”鉴别器。与生成对抗网络(GANs)的设置相同(Goodfellow et al . 2014),这里的“真实”数据是指从目标域(无雾图像)采样的图像, 假”数据是指从源域(朦胧图像)的样本生成的图像。经典GAN损耗可以描述为:

受(Isola et al . 2017)和(Zhu et al . 2017)的启发,我们使用补丁级鉴别器来区分真实和虚假图像。不同于他们选择折衷的接受野大小(RFS)来平衡结果的清晰度和伪像之间的权衡的方法,我们提出使用结合了局部鉴别器(小RFS)和全局鉴别器(大RFS)的多尺度鉴别器。局部鉴别器侧重于对高频结构的建模,有利于纹理/风格的识别,而全局鉴别器可以吸收更多的全局信息,减轻平铺伪影

我们的多尺度鉴别器结合了这两种方法的优点,如图2所示。因此,我们的多尺度对抗损失为:

利用之前的对抗损失对无纠缠图像的生成进行正则化。对于解纠缠传输图,我们引入先验正则化。在各种已知的先验中,我们研究了简单而有效的选择:介质传输图的平滑度(Tan 2008;Berman, Avidan等人2016)。

在数学上,我们使用传统的总变分t^作为正则化损失:

 

我们最终的目标函数是:

 我们通过以下来优化目标

恢复无雾图像 

利用训练好的模型,我们可以将一幅模糊图像分解成三个对应的分量,得到两个恢复的场景辐射度。

第一个直接从生成器GJ的输出中得到,记为 j;第二个,记为Jt,由方程(1)重新表述后,利用估计的透射图 t和大气光 A得到:

在(Cai et al . 2016)之后,我们在恢复过程中对估计的传输图t^应用引导图像滤波(He, Sun, and Tang 2013),以引入进一步的平滑形状器边缘。

我们的非纠缠发生器可以提供不同的除雾过程的观点。具体来说,生成器GJ倾向于生成具有更多纹理细节和感知上更清晰的图像,因为它被训练来学习到无雾图像的映射。然而,由于上采样和不稳定的对抗训练,GJ的输出可能包含不希望的伪影,并且容易受到模糊区域噪声的影响。另一方面,由于使用了引导图像滤波,从发生器Gt的输出导出的- Jt更加平滑和视觉上令人愉悦。

但这可能会导致对图像的雾霾程度的低估。

利用这两幅从不同角度恢复的场景辐射,我们通过混合这两幅恢复的图像来生成我们的输出无雾图像

合在雾霾较少的区域保留了更多的细节,在雾霾较重的区域保证了平滑。分析了消融研究中不同的恢复方式。除非另有说明,我们在所有实验中报告回收的Jcom的结果。

 网络架构和实现细节

我们从(Zhu et al . 2017)中调整了我们的生成器和鉴别器架构。有关网络架构和培训程序的更多细节见附录。

发生器GI和Gt采用相同的网络架构,只是使用了不同数量的滤波器通道。

在上采样层之前,生成器GA与Gt共享同一个网络。具体来说,GA中最后一个ResNet块的输出连接到一个全局最大池化层,然后是一个完全连接层。

多尺度鉴别器以完全卷积的方式实现,与原始的补丁级鉴别器相比,引入了较小的计算开销。如图2所示,我们首先设计了一个k层鉴别器,它在最后一层具有全局接受场大小。然后我们从低层(比如第k层)提取激活,并将其映射到输出。在我们的实验中,局部鉴别器和全局鉴别器的感受野大小分别为70 × 70和256 × 256。

 结论:

在本文中,我们提出了一种新的图像去雾网络,它通过对抗性训练来学习执行基于物理模型的去纠缠。该模型可以只使用非配对监督进行训练,并且能够产生感知上吸引人的除雾结果。在合成和真实图像数据集上的大量实验验证了我们方法的有效性和泛化能力。

虽然本文的重点是图像去雾,但所提出的方法可以推广到许多其他应用中,其中分层图像模型(Wang and Adelson 1994;Yan et al . 2016)可以应用,例如图像去噪和图像抠图。我们打算在未来研究解缠网络的更一般的应用

注释:

感受野(Receptive Field)是指在深度神经网络(如卷积神经网络 CNN)中,某个特定层中的神经元(或特征图上的像素)对输入图像中的像素有影响的区域大小。

在卷积神经网络中,每一层的神经元只与上一层的部分神经元连接,而不是与整个输入图像连接。这种局部连接的特性导致了感受野的概念。每个神经元的感受野表示了它在输入图像上感知信息的范围。

感受野的大小取决于网络的结构和层数,以及使用的卷积核的大小和步幅(stride)。一般来说,网络中靠近输入层的神经元的感受野较小,随着网络层数的增加,感受野会逐渐增大。

感受野的概念非常重要,因为它决定了神经元能够捕捉输入图像中的局部或全局信息。较小的感受野有助于捕捉局部细节,而较大的感受野则有助于理解更大范围的上下文信息。

对于某个特定的神经元,可以通过逆向传播(反向计算梯度)来计算它的感受野大小,这样可以帮助理解网络的信息传递和感知范围。在训练和设计神经网络时,了解感受野的大小和分布对于优化网络结构和参数设置非常有帮助。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值