RefineDNet: A Weakly Supervised RefinementFramework for Single Image Dehazing用于单幅图像去雾的弱监督细化框架2021

摘要:无雾图像是许多视觉系统和算法的先决条件,因此单幅图像去雾在计算机视觉中具有至关重要的意义。在这一领域,基于先验的方法已经取得了初步成功。但是它们的先验很难适应所有情况。相比之下,基于学习的方法可以产生更自然的结果。然而,由于缺乏与训练样本相同场景的成对的有雾且清晰的户外图像,其去雾能力有限。在这项工作中,我们试图通过将去雾任务分为两个子任务,即可见性恢复真实感改善,来融合基于先验和基于学习的方法的优点。具体来说,我们提出了一个两阶段弱监督脱雾框架,RefineDNet。在第一阶段,RefineDNet在恢复可见性之前采用暗通道。然后,在第二阶段,对第一阶段的初步去雾结果进行细化,通过对未配对的雾霾和清晰图像进行对抗性学习,提高真实感。为了获得更合格的结果,我们还提出了一种有效的感知融合策略来混合不同的除雾输出。大量的实验证实,采用感知融合的RefineDNet具有出色的去雾能力,也能产生视觉上令人愉悦的效果。即使用基本的骨干网络,RefineDNet也可以在室内和室外数据集上优于监督除雾方法以及其他最先进的方法。

图像去雾主要分为基于学习的方法和基于先验的方法。由于这两个类别的特点,基于先验的方法相对更好地恢复可见性,而基于学习的方法更适合于提高结果的真实性。图1给出了(a)基于学习的AODNet[5]和(b)基于先验的DCP[8]的去雾结果来说明这一现象。我们可以看到,DCP的结果有更少的雾霾,但更多的伪影,而AODNet的结果是高真实感,但有更多的雾霾。在附录A中,我们对基于先验和基于学习的方法的偏好提供了一些理论解释。

图1。基于学习和基于先验的方法的缺点。(a)由基于学习的方法AODNet生成[5]。(b)由基于先验的方法DCP生成[8]。AODNet的结果在视觉上更好,但包含更多的雾霾,而DCP以引入伪影为代价去除更多的雾霾。红框和蓝框突出了它们的不同之处。 

为了进一步提高除雾效果,利用这两种方法的优点是很自然的想法,但令人惊讶的是,这种简单的想法在文献中很少被探索。在这项工作中,基于上述发现,我们提出了一个两阶段弱监督脱雾框架,RefineDNet(细化去雾网络),以合并这两个类别的优点。

具体来说,在第一阶段,RefineDNet通过DCP生成初步结果来恢复输入模糊图像的可见性。我们将DCP去雾嵌入到我们的框架中,以实现端到端的培训和评估。在第二阶段,RefineDNet通过使用两个细化网络对初步去雾图像进行细化,提高了图像的真实感和传输图的质量。在训练过程中,我们通过对未配对图像的判别器进行对抗性学习来更新细化网络。这种对未配对数据的弱监督有利于去雾,因为可以从现实世界中收集大量未配对的图像来训练我们的模型。通过这种方式,RefineDNet比在模拟图像上训练的监督方法更适合处理真实世界的雾图像,并且可能会过度拟合这些数据。

在细化后的去雾图像的基础上,RefineDNet利用模糊输入和细化传输重建另一幅去雾图像。由于细化图像和去雾重建图像的生成方式不同,它们在所有区域的表现不太可能相同。它们中的任何一个在某些地区的表现都很有可能超过另一个。因此,在它们中的任何一个融合更好的区域都可以提高性能。

为此,我们提出了一种感知融合策略,将细化后的图像与重构后的图像进行融合。在这种策略中,更大的权重被分配到更接近自然图像的区域。为了获得这样的权重,我们利用了图像质量评估(IQA)领域的强大特征。

RefineDNet采用两阶段去雾策略,将去雾任务分为两个较难处理的子任务,即恢复可见性提高真实性,并分别利用先验和学习来处理这两个子任务。由于先验和学习是在RefineDNet的不同阶段使用的,因此它们不太可能相互影响。因此,RefineDNet具有基于先验和基于学习的两种方法的优点。此外,RefineDNet只需要在细化阶段去除工件,因此,它的学习较少遇到去雾的模糊性。因此,它具有稳定的弱监督,规避了监督方法缺乏数据的问题。为了支持我们的观点,我们表明,即使使用基本的骨干网络,RefineDNet在室内和室外数据集上的表现也优于最先进的监督方法。此外,由于RefineDNet没有现成的户外训练集,我们使用来自驻留的图像构建了一个未配对的户外训练数据集,RESIDE-unpaired[11]。

本文的主要贡献有:

•我们提出了一个两阶段弱监督框架RefineDNet,它首先采用基于先验的DCP恢复可见性,然后使用gan来提高真实感。结果表明,RefineDNet综合了基于先验和基于学习的去雾方法的优点,并产生了视觉上令人愉悦的高可见性结果。此外,由于采用了两阶段去雾策略,RefineDNet对未对的雾和清晰图像进行了有效的弱监督,避免了监督方法缺少对数据的问题。

•我们提出了一种新的感知融合策略来混合不同的除雾效果。实验结果表明,该策略在各种数据集上都能有效地提高性能。

•我们还构建了一个包含6,480张户外图像的必要的非配对数据集,以促进弱监督除雾方法的相关研究

背景:

基于先验的去雾方法
在文献中,已经探讨了各种先验或假设。Fattal[1]将Koschmieder定律[9]中的J(x)分解为表面反射率系数和遮光因子,他通过假设遮光因子和透射独立来求解所有未知变量。Tan[12]基于他们的观察,构建了具有能量函数的马尔可夫随机场(MRF),即清晰的图像具有更高的对比度,并且Koschmieder定律的大气散射项(第二项)在小区域内平稳变化。根据Tan的观察[12],Tarel和Hautiere[13]定义了大气幕,并提供了其封闭形式的解决方案。后来,He等人[8]提出了上述暗信道先验(DCP)来估计传输图。Salazar Colores等人[14]将DCP与数学形态学运算(如侵蚀和膨胀)相结合,以有效地计算透射图。Meng等人[3]将DCP推广到边界约束,并将该约束与加权上下文正则化一起采用,以获得优化的传输图。最近,Liu等人[15]提出了非局部全变差正则化(NLTV)来细化通过边界约束获得的初步传输图。

此外,还研究了Koschmieder定律不同部分的分布。Nishino等人[16]分析了场景反照率和图像深度的分布,然后应用因子MRF[17]对它们进行联合估计。Fattal[18]发现,自然图像小块中的像素通常在RGB颜色空间中表现出称为颜色线的一维分布。具体地说,模糊图像的颜色线具有唯一的偏移。Berman和Avidan[19]指出,无雾图像可以用几百种不同的颜色很好地近似,像素可以根据颜色分组为簇。在雾度条件下,每个聚类的像素在RGB空间中变成雾度线。因此,去雾等于识别那些雾线。最近,基于图像块的像素聚集在椭球区域而不是颜色线的观察,Bui和Kim[20]提出了在最大化去雾像素的对比度之前的颜色椭球。

基于学习的去雾方法
随着细胞神经网络的普及,该领域出现了基于学习的方法。Cai等人[4]提出了一种称为DehazeNet的端到端CNN,用于从模糊图像中估计传输图。Ren等人[21]利用多尺度信息,通过使用粗尺度网络和细尺度网络来预测传输。不同的是,Li等人[5]通过重新制定Koschmieder定律,将透射和环境光这两个未知变量合并为一个变量。然后,他们构建了AODNet来估计这个变量。在[22]中,Zhang等人采用了AODNet的公式,并提出了一种称为FAMED Net的快速准确的多尺度去雾网络来估计同一变量。后来,Ren等人[23]提出了门融合网络(GFN),将白平衡、对比度增强和伽马校正产生的三个中间结果合并为去雾结果。Santra等人[24]用细胞神经网络构建了一个贴片质量比较器(PQC),以获得最佳的去雾贴片。最近,基于大气照明对YCrCb颜色空间的照明通道的影响比色度通道更大的发现,Want等人提出了AIPNet[25],它采用多尺度细胞神经网络来恢复模糊图像的Y通道。Liu等人[26]以迭代的方式解决了去雾问题。对于每次迭代,通过变分模型对输入进行优化,然后将其放入CNN中,以生成输出作为下一次迭代的输入。Liu等人[27]构建了一个具有几个剩余密集块[28]的网格网络和一个通道式注意力机制来消除雾霾。所有这些方法都依赖于对图像的监督,而我们的方法对未配对的数据进行弱监督。

GANs去雾
GAN起源于[29],在训练过程中,生成器和鉴别器以对抗性的方式进行最大化游戏。许多研究[30]-[32]已经证明,GANs在图像生成和恢复领域具有优越性。对于去雾,GAN在[33]中首次引入,其中去雾图像由网络根据Koschmieder定律生成,并由鉴别器进行判断。后来,Zhang等人[6]提出了更复杂的结构来生成Koschmieder定律的未知变量,并采用了一个鉴别器来联合判断传输图和去雾输出。Li等人[34]在没有任何物理模型的情况下,采用条件GAN直接生成除雾结果。继Li等人的工作[34]之后,Qu等人[7]提出了增强块、多尺度生成器和多尺度鉴别器,以进一步增强结果。尽管涉及GANs,但所有这些去雾方法仍然需要成对的训练数据。作为利用不成对数据的先驱,DisentGAN[35]使用三个生成器从模糊输入中生成去雾图像、透射图和环境光,然后使用多尺度鉴别器进行对抗性训练。我们的方法也专注于使用未配对的图像进行训练,但它通过分别恢复可见性和提高真实性来解决去雾问题。
 

该方法:

我们将去雾任务分为可视化恢复真实感改善两个子任务,提出弱监督框架RefineDNet。我们的动机是双重的。首先,我们发现基于先验的方法更有可能以引入伪影为代价去除雾霾,而基于学习的方法擅长产生视觉上令人愉悦的结果,但有更多的雾霾。因此,结合这两种方法的优点应该是有希望的。其次,基于监督学习的方法需要对现实条件下难以获得的清晰图像和模糊图像进行配对,而非成对数据的弱监督可以很好地解决这一问题。

 图2所示。RefineDNet概述RT和RJ代表两个精炼网络。D表示鉴别器。Ireal和Jreal是未配对的输入图像。Tref和Jref分别是TDCP和JDCP的细化结果。A为环境光,括号内数字分别为A的R、G、B通道值。Jrec为通过Eq.(3)重建的去雾图像,Irec为通过Eq.(1)重建的模糊图像。感知融合的轮廓如图3所示。

1)两阶段框架:如图2所示,RefineDNet包括两个阶段。第一阶段,采用DCP生成环境光A、初步去雾图像JDC P、传输图TDC P。第二阶段,TDC P由细化网络RT细化为Tref, JDC P由另一个细化网络RJ细化为Jref。请注意,DCP阶段嵌入在我们的框架中,因此,Ireal是推理中RefineDNet的唯一输入。此外,从图2可以看出,天空区域的Tref值比真实值大。但是,天空区域放大后的Tref值不影响去雾效果,详见附录B。

2)弱监督学习:在训练过程中,为了确保Tref得到适当的细化,我们根据Koschmieder定律(即Eq.(1)),使用Tref、Jref和A将模糊输入重构为Irec。然后,通过最小化Ireal和Irec之间的距离来更新细化器RT。我们之所以可以这样更新RT,请参考附录C。此外,还有一个额外的判别器,用D表示,它接收Jref或清晰样本Jreal,以实现对抗性学习。由于没有要求Jreal必须来自模糊输入Ireal的同一场景,因此整个框架是弱监督的。在RefineDNet中,D在弱监督中起着至关重要的作用。没有D,我们无法进行对抗性学习,因此RJ也不会得到适当的更新。

3)去雾结果融合:在RefineDNet中,虽然Jref是一个去雾的图像,但它不适合任何物理模型。为了获得更合格的结果,我们通过将Koschmieder定律重新表述为:

然后,我们利用IQA的强大功能来计算权重以融合Jref和Jrec作为最终的去雾输出J fused使用。 基于这些特征的IQA指标可以产生接近人类感知的有效判断,因此我们将我们的融合策略称为感知融合。第三- c节详细阐述了这一战略。

4)网络结构:为了证明RefineDNet motif而非骨干网的有效性,我们采用CycleGAN[31]提供的基本骨干网来实现RT、RJ和D,而不采用现代最先进的除雾管道中流行的任何多尺度或其他定制结构[6]、[7]、[23]、[35]。具体来说,RT是一个U-Net[36],包括8个下采样和8个上采样卷积层。RJ是一个具有9个残块的ResNet[37]。D是一个有5个卷积层的CNN


DCP初步结果

在RefineDNet中嵌入DCP[8],实现端到端训练和推理。在本节中,我们简要介绍如何使用嵌入式DCP获得RefineDNet的初步去雾结果,即TDC P, JDC P和A。

1)暗通道提取:对于输入的RGB图像I,我们计算通道最小值图像,记为I min。然后,我们将核大小为5×5的最大池化应用于I min的加性逆,然后得到池化结果的加性逆作为暗通道图像I dark。

暗通道的提取可以表示为:

其中c表示I的R G B通道之一。

2)传输估计:我们得到Koschmieder定律两侧的暗通道为

其中I dark(x)和J dark(x)分别是图像I和J在像素x处的暗通道。根据DCP的假设,在自然图像的大部分非天空斑块中,像素的强度值至少在一个颜色通道中接近于零,J dark(x)→0。然后 

如果已知A,则可以得到TDC P。此外,我们采用了一个导向滤波器,使TDC P平滑。引导过滤器也嵌入在我们的框架中,并使用一个平均池来实现,内核大小为19×19,步长为1。

3)环境光估计与去雾图像:对于A,由于图像中的大像素值(如天空区域的像素值)与环境光非常接近,因此选取Idark (x)中最亮的前0.1%的像素,将其在I(x)的颜色通道中的值取平均值为A。有了获取的A和TDC P,就可以像式(3)一样逆Koschmieder’s law得到JDC P。

 感知融合

由于Jref和Jrec以自己的方式生产,因此在某些地区,它们中的任何一个都很可能比另一个更好。从这个意义上说,如果Jrec和Jref中任何一个更好的区域被赋予更大的权重,我们可以通过Jrec和Jref的融合得到更好的结果。

由于Jref和Jrec都是具有良好可见性的去模糊图像,因此它们与任意归一化权值的融合不会影响图像的可见性。因此,我们基于图像的真实感进行融合。由于Ireal是具有高真实感的自然图像,因此Ireal和Jref(或Ireal和Jrec)的相似度图是Jref(或Jrec)真实感的信息性指标。从这个意义上说,我们应该为Jrec(x)和Jref (x)中的任何一个分配更大的权重,因为Jrec(x)在相似度映射中对应的值更大。为了得到合适的相似性图,我们采用了两个特征,即梯度模量(GM)和LMN颜色空间的色度信息(ChromMN),这两个特征在IQA领域被广泛采用。

1)特征提取:根据IQA研究[38]- [41],GM是在YIQ色彩空间的Y通道(亮度通道)中计算的,ChromMN是指LMN色彩空间的M和N通道[42],[43]。因此,为了得到GM,我们首先计算YIQ的Y通道,其定义为:

2)相似度计算:计算与GM和ChromMN的相似度,评价除雾效果的真实性。给定记为G1(x)和G2(x)的两幅图像的GM值,定义像素x处的相似度SG(x)为:

 

对于ChromMN,假设从第一张图像计算出M1(x)和N1(x),从第二张图像导出M2(x)和N2(x),则像素x处的相似度SC (x)计算为:

 

 

 

3)融合权重:在这一步中,我们将相似度转换为融合权重。假设SGC ref (x)是Ireal(x)和Jref (x)在像素x处的相似值,SGC rec(x)是Ireal(x)和Jrec(x)在像素x处的相似值,那么Jref (x)和Jrec(x)在像素x处的权重定义为SGC ref (x)和SGC rec(x)的softmax,我们将权重分别记为Wref (x)和Wrec(x)。因此,

 

4)适应多结果融合:感知融合可以很容易地适应融合两个以上的除雾结果。假设J1, J2,…,和Jn为待熔除雾结果。对于Ji (i∈1,2,…, n),我们根据Eq.(11)计算Ji与雾天输入i的相似图SGC i。则对于像素x, Ji(x)的融合权值为定义为的softmax的Wi(x)

 

图3所示。知觉融合的轮廓。这是一幅朦胧的影像。Jrec和Jref分别是重构和细化后的除雾结果。SGC rec和SGC ref是它们的相似图,Wrec和Wref是它们在融合中的权值。使用的J是最终的融合结果。

 

损失函数

RefineDNet的损失函数包括3项,即GAN损失LG、重构损失Lrec和恒等损失Lidt。它们的定义如下,我们在第四- c节中证明了它们的有效性。

GAN损失最初用于以对抗的方式更新生成器和鉴别器[29]。在我们的例子中,LG用来监督RJ和d,定义为:

 

其中Jreal是所有可能的Jreal的集合,JDC P是所有可能的JDC P的集合。

采用重建损失对重建的模糊图像进行正则化。如第III-A节所述,我们将Lrec定义为Ireal与Irec之间的距离,即:

其中Ireal为朦胧输入,Irec由式(1)得到,·为距离度量。

使用身份损失来抑制可能由细化器RJ引入的工件。通常,当输入是真实世界的清晰图像时,这个术语鼓励RJ输出与其输入相似的东西。这样,RJ就不太可能作弊通过添加额外的纹理来鉴别器。我们定义Lidt为,

 

其中·是与Eq.(17)中相同的距离度量。·可以是l1范数或l2范数。

在我们的实验中,我们用L1和L2训练RefineDNet,发现所获得的模型表现出几乎相同的性能。这表明无需刻意选择度量形式L1或L2来训练RefineDNet。详情请参阅第IV-C节。默认情况下,我们报告用L1训练的RefineDNet的结果。

总体损失函数。综合所有损失项,整个目标可表述为

 

其中λ是表示LG权值的超参数。λ的默认值设置为0.02。 

结论在这项工作中,我们提出了一个简单而有效的两阶段弱监督去雾框架RefineDNet,用于两个目的,即融合基于先验和基于学习的方法的优点,并解决缺乏配对训练图像的问题。为了获得更合格的结果,我们还提出了一种感知融合策略来融合RefineDNet的不同输出。根据实验结果,RefineDNet可以在室内和室外数据集上使用基本骨干网络实现最先进的性能。对其组件进行了深入研究,并证明其有效。此外,我们构建了一个包含6480张户外图像的不成对数据集,这有利于弱监督除雾的进一步研究。未来,我们将探索定制的结构和先验,以改进RefineDNet。
 

注释:

YIQ和LMN都是一些用于描述色彩的色彩空间。它们通常用于视频信号的编码和传输中。

YIQ色彩空间是一种将RGB色彩空间转换为亮度(Y)和色度(I、Q)分量的方法。Y表示亮度信息,而I和Q则表示颜色信息。Y分量与人眼对亮度的感知相关,而I和Q分量则描述了颜色的变化。

LMN色彩空间是一种三维色彩模型,类似于RGB色彩空间。它使用L、M和N三个分量来描述颜色。L表示亮度信息,而M和N则用于描述红、绿和蓝之间的颜色差异。

这些色彩空间的选择取决于具体的应用场景和需求,它们在不同的领域中有着各自的用途和优势。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值