Depth Information Assisted Collaborative Mutual Promotion Network for SingleImage Dehazing

原文链接:https://www.semanticscholar.org/paper/Depth-Information-Assisted-Collaborative-Mutual-for-Zhang-Zhou/55e322bb5a18bd14d83d62617880dbfd52055fa8icon-default.png?t=N7T8https://www.semanticscholar.org/paper/Depth-Information-Assisted-Collaborative-Mutual-for-Zhang-Zhou/55e322bb5a18bd14d83d62617880dbfd52055fa8

深度信息辅助的协同互促网络单图像去雾

摘要

        从单幅模糊图像中恢复清晰图像是一个开放的逆问题.虽然已有的研究取得了显著的进展,但大多数方法忽略了下游任务对上游去雾的促进作用.从模糊生成机理的角度来看,场景的深度信息与模糊图像之间存在着潜在的联系.基于此,该框架通过双任务交互机制将深度估计和去雾任务有机地结合起来,实现了二者性能的相互增强,提出了一种具有差异感知的可替换实现机制,提出了去雾结果深度图与理想图像深度图之间的差异感知,以促使去雾网络关注图像的非模糊性另一方面,通过改善模糊图像中难以恢复区域的深度估计性能,去雾网络可以显式地利用模糊图像的深度信息来辅助恢复清晰图像,为提高深度估计性能,提出了利用去雾图像与真实地面的差异来引导深度估计网络聚焦于去雾的非理想区域,使去雾和深度估计以相互增强的方式发挥各自的优势.实验结果表明,该方法能够有效地去除图像中的雾,并能有效地提高深度估计的精度.所提出的方法可以获得比现有技术更好的性能。源代码发布在https://github.com/zhoushen1/DIACMPN。

1.介绍

        单图像去雾是指从给定的模糊图像恢复清晰的图像,该技术由于在下游计算机视觉中的关键作用而引起广泛关注,在数学上,雾化过程通常通过采用大气散射模型来模拟[24,26,27]:

其中,x表示像素位置,I(x)表示模糊图像,J(x)表示清晰图像,T(x)表示透射图,A(x)表示大气光。

其中β是散射系数,d(x)是场景深度。

        从公式(1)中,我们可以看到,基于大气散射模型的图像去雾方法需要估计T(x)和A(x)。然而,大多数研究声称T(x)主要有助于在图像内产生雾。因此,大多数现有的基于公式(1)的方法集中于估计透射图T(x)。对于A(x),最大像素值被视为其值[38]。实际上,图像中的最大像素值可能源自最亮的物体,而不是表示大气光。为了解决这个问题,[2,16,36]中的方法考虑了T(x)和A(X),实现去雾性能的改善。然而,这种基于大气散射模型的去雾方法对T(x)和A(x)的依赖性很强,现实中雾度分布的不均匀性给图像局部区域T(x)的准确估计带来了挑战,限制了去雾性能的提高。

        端到端图像去雾方法直接从模糊图像恢复清晰图像,而无需大气散射模型的帮助[6,8,21,29,43],从而摆脱了对T(x)和A(x)的依赖。然而,缺乏大气散射模型的指导也对恢复清晰图像提出了挑战。为了解决这个问题,提出了基于先验信息的图像去雾[1,4,23,44]。具体来说,PSD [4]建立了一个由暗通道先验[10]组成的损失委员会,明亮通道先验[49]和直方图均衡化来指导清晰图像的恢复。NHFormer [23]使用暗通道先验和亮通道先验来指导去雾模型从合成域到真实世界应用的推广。RIDCP [44]通过预处理获得高质量的码本先验,训练的VQGAN,并利用它们进行可控的高质量先验匹配,从而实现模糊图像的高质量特征恢复。此外,通过两级网络结构设计,MITNet [33]同时实现了时域和频域特征的联合恢复,实现了幅度和相位谱的恢复,确保去雾图像的质量。

        上述方法虽然有效,但都忽略了模糊图像的深度信息与其本身的相关性,根据公式(2),场景的深度信息d(x)与T(x)直接相关,而T(x)是导致图像出现模糊的关键因素之一,假设d(x)可以从其模糊图像中准确估计,基于这一思想,本文提出了一种基于端到端深度学习框架下的双任务协同互促网络的单幅图像去雾方法,该方法通过对图像去雾模型的训练,将去雾模型的训练结果与去雾模型的训练结果相结合,实现了对单幅图像的去雾。将深度估计和图像去雾嵌入到一个统一的框架中,为了有效地利用模糊图像的深度信息,设计了一种基于差异感知的双任务交互机制作为两个任务之间的桥梁,将深度估计和图像去雾无缝集成,形成双任务驱动的去雾方法。

        所提出的方法的主要思想如图1所示。所提出的方法通过感知去雾网络的输出结果与预期结果之间的差异来改进对有雾图像的深度估计,使得去雾网络可以在去雾过程中接收高质量的深度估计信息作为指导。此外,双任务协同互促框架的设计将有利于去雾网络学习最优网络参数,在深度估计提高去雾性能方面,通过感知去雾结果与理想图像之间的深度信息差异,使去雾网络关注去雾效果可能不理想的区域。在去雾网络促进深度估计方面,通过使深度估计网络关注非-通过对三个典型的去雾实验,验证了该方法的有效性,达到了最先进的兼容结果。

        图1.双任务协作和相互促进的想法。HI表示模糊图像,DM-HI、DM-GT和DM-DI分别表示模糊图像、地面实况和去模糊图像的深度图。

2.相关工作

2.1.基于模型的图像去雾

        基于大气散射模型的单幅图像去雾是目前比较流行的方法,在这类方法中,透射图的精度和大气光估计是影响去雾效果的关键因素,为此,出现了大量基于透射图估计的去雾方法[3,28,31,41].这些方法忽略了大气光对除雾效果的影响。针对这一问题,提出了一种透射图和大气光联合估计模型。特别地,Zhang等人[48]提出了一种基于GAN的联合神经网络,以评估去雾图像和估计透射图的准确性。此外,他们采用U-Net来预测大气光。Li等人[17]提出了一种多阶段渐进式学习方法来估计透射图。此外,他们使用全局平均池化层来归一化来自不同层的特征并将它们合并在一起,Guo等人[9]使用一个共享的DensetNet编码器和两个非共享的DensetNet解码器来联合估计透射图和大气光。Lee等人[14]提出了一种具有透射图联合约束的特征提取网络,利用该网络对透射图和大气光信息进行了更全面的预测,提高了预测结果的质量。

        由于缺乏先验信息,上述方法的去雾效果仍需改进。为此,一些研究人员将先验知识引入到透射图和大气光的估计中[7,20,22,50,52]。常用的先验知识包括暗通道先验[10],亮通道先验[49]和颜色衰减先验[53]。虽然上述方法已被证明是有效的,但其性能取决于与物理模型驱动的方法相比,基于深度学习的端到端去雾方法由于消除了透射图和大气光的约束,受到了研究者的关注。

2.2.端到端图像去雾

        端到端的图像去雾方法通常直接从模糊图像中恢复出清晰图像,为了提高去雾结果的视觉质量,Ren等人[32]采用白色平衡、图像对比度增强和伽马变换对原始图像进行预处理,然后利用门控机制确定三种处理后图像的权重。Wu等人[43]提出了一种基于对比度学习的正则化方法,其通过推开去雾结果和原始图像之间的距离并同时缩小该距离来实现干净图像的恢复,基于注意力的图像去雾技术在图像去雾中得到了广泛的应用[21,29],而Guo等人[8]提出了一种结合CNN和Transformer的图像去雾网络,该算法充分利用了CNN和Transformer在特征提取上的互补性,由于softmax-attention in Transformer,Qiu et al [30]提出用泰勒展开对其进行近似,有效降低了图像去雾中传统注意机制的复杂度,上述方法只考虑了从时域恢复信息,忽略了模糊信息对频域的影响,因此,Shen等人[33]提出了在时域和频域中恢复无模糊图像信息。

        虽然端到端的去雾方法不依赖于雾度图像的物理模型,但它们对训练数据集表现出很高的依赖性,如果我们找到一种更有效的方法来利用训练样本中的信息,将有助于提高模型性能。雾度的分布与场景深度有关系,Yang等[46]提出了一种深度感知方法,用于估计模糊图像的深度图,并在统一的框架中为去雾提供深度特征,考虑到真实的场景中模糊图像缺乏地面真实值所带来的挑战,Yang等[47]提出了一种配对样本构造方法,用于从清晰的无雾图像合成真实的有雾图像,从而实现去雾模型的监督训练。Wang等[42]根据有雾图像与GT之间的深度特征差异,提出了一种自改进的深度一致性去雾网络。然而,该方法未能实现深度估计和图像去雾之间的协同相互促进,限制了模型的性能。本文充分考虑模糊图像中深度信息对去雾的有益影响,提出将深度估计和图像去雾作为两个独立的任务,通过双任务交互机制将两个任务无缝集成到统一的学习框架中,实现协同互促。

        图2.用于图像去雾和深度估计的双任务协作优化公式。

3.建议的方法

3.1.构想

        本文提出了一种基于深度信息的单幅图像去雾方法。与现有的图像去雾方法依赖于精心设计的算法来获得令人满意的结果不同,我们的方法通过利用对去雾结果质量敏感的辅助任务来提高去雾性能。假设模糊图像是u_n,去雾图像是u_n,地面真实值(GT)是u,基于去雾图像的深度估计的思想可以用公式表示如下:

        其中,Ψ是具有参数ωe的深度估计网络,depth是特定的深度估计损失。如等式(3)所示,u * 和u之间的差异用于优化参数ωe。这使得Ψ能够通过关注u * 和u之间的差异来提高其在u * 上的性能。由于u * 和u之间差异的贡献者之一源于残留雾度信息的存在以及去雾效果不理想的区域。如果深度估计网络能够提高这些区域的性能,那么u ~* 相应区域的去雾效果也可以得到改善。

        为了优化Φ的参数ωd,本文采用以下优化目标:

        式中,λ dehaze是比除雾损失,Φ是具有参数ωd的除雾网络,Mu λ、Mu和Mu λ是分别是u、u和u的深度图。在等式(4)中,Mu −Mu是u和u的深度图之间的差。假设将该差反馈到去雾网络Φ的训练过程中,并用于提示Φ关注深度估计不理想的区域。在这种情况下,Φ的性能将通过等式(4)得到改善。

        在这一思想的驱动下,深度估计网络Φ将对去雾网络Φ的性能起到积极的促进作用。此外,随着深度估计网络Φ的性能提高,预测的深度信息变得更加准确,从而导致深度图中结构细节的更全面表示。因此,在Φ中注入μ π ι,对模糊图像中结构信息的恢复会产生有益的效果,这也反映了μ π ι对Φ的促进作用。如图2所示,这种双任务协作的设计思想还可以有效地防止去雾网络参数的ωd陷入不希望的局部最优[19]。

3.2.深度信息辅助的图像去雾

3.2.1去雾网络编码器

        如图3所示,深度信息辅助的图像去雾网络由编码器和解码器组成。该编码器主要由U-Net、嵌入局部特征的全局特征提取模块(LEGM)、扩张残差密集块(DRDB)和多尺度聚集模块(MGA)组成。为了保证U-Net输出的质量,U-Net的参数通过l1-loss进行优化:

        其中,Funet u和Funet u分别表示U-Net输出的u和u的特征。如图4(a)所示,自注意块是LEGM的主要组成部分,其输入包括U-Net后1 × 1卷积输出的特征,通过3×3卷积输出的特征和深度估计后DRDB输出的特征。由于卷积网络提取的特征包含大量的局部信息,我们将自注意块与卷积层结合命名为LEGM。在深度信息辅助去雾中,只有第一个LEGM接收模糊图像的深度信息。去雾网络的编码器包含三个LEGM,这些LEGM的输出通过图4(B)所示的MSAAM进行整合,以防止浅层特征的丢失。

        设三个LEGM的输出分别为F1 legm、F2 legm和F3 legm,然后对这三个输出进行GAP、Concat、MLP和分裂操作,得到权矩阵A1 legm、A2 legm和A3 legm,并将其用于调制,调制后的特征可以表示为:

        在通过等式(6)调制之后,与图1中的清晰图像相关的特征(i = 1,2,3)将被突出显示,这有利于保护详细信息。由于F 1 legm,F 2 legm和F 3 legm具有不同的维度,为了挖掘它们之间的潜在关系,分别对F 2 leg m和F 3 leg m进行卷积运算,以便于它们与F 1 leg m的维度对齐。随后,F 1 leg m、F 2 leg m和F 3 leg m通过具有非共享参数的两个卷积层进行级联和处理,从而产生特征F 1 legm和F 2 legm。

        图3.该方法的架构,由去雾网络、深度估计(DE)网络和差异感知(DP)组成。DE和DP是基于差异感知的双任务交互机制的主要组成部分。该机制使去雾和深度估计无缝集成到一个统一的框架中,并通过协同相互促进来提高两个任务模型的性能。

3.2.2去雾网络解码器

        从图3中可以看出,去雾图像的解码器主要由两个带有特征调制注入(FMI)的LEGM组成,每个LEGM由两个卷积层、一个调制融合模块(MFM)和一个LEGM组成,其中MFM的结构如图4(c)所示,。第一MFM的输入是F 1legm,并且在F 3legm经历3 × 3卷积之后导出的特征F 1rc。通过GAP、MLP和Softmax处理F 1legm和F 1rc之后获得的结果,表示为A1 r,c。A1 r,c中的值表示F 1 legm和F 1 rc中的特征在去雾图像重建中的重要性。通过使用A1 r,c进行调整,可以突出它们对图像去雾的贡献。具体过程可以表示为:

        将F 1 rc和F 1 legm级联以增强它们之间的共享信息。随后,通过卷积层处理级联结果以产生具有FMI的第一LEGM的输出。在具有FMI的第二LEGM中,具有FMI的LEGM的第一输出和F 2 legm被用作其输入,并且最终输出被发送到卷积层以重构最终去雾图像u。

        图4. LEGM、MSAAM、MFM的架构。

3.3.差分感知驱动的深度估计

        提出的去雾方法不仅解决了图像去雾的问题,还结合了基于去雾图像的深度估计,从而提出了一个双任务协同提升网络框架。在网络结构上,差异感知深度估计网络主要采用了基于DRDB的编码器和解码器设计。为了提高深度估计网络在模糊图像上的性能,我们介绍了去雾图像和它们的GT之间的差异感知。

        该过程在图3的基于差异感知的双任务交互中示出。除雾结果u和u之间的差值为:

        其中,Ru/u反映了去雾结果与标签之间的差异,也间接表示了去雾效果不理想的区域在去雾结果中的位置。假设深度估计网络能够聚焦于这些区域,并在这些区域中产生准确的深度估计结果。在这种情况下,它将在双重任务的相互促进中为图像去雾提供更准确的深度信息,辅助去雾网络获得理想的去雾效果。在这个过程中,通过由卷积层、MLP和Softmax组成的差分感知器来处理差分Ru_n/u,以预测反映u_n与u之间的差的系数矩阵Ad,r。通过如下最小化定制的损失函数来优化深度估计网络:

        值得注意的是,优化由等式(9)指导的深度估计网络体现了双重任务的集成优化策略,一方面,深度估计网络确保去雾图像的估计深度图与其对应的GT之间的一致性,这促使深度估计网络将更多的注意力分配给其中去雾图像与GT不同,主要是去雾图像中残留的雾度,因此,公式(9)中的优化可以提高去雾网络对雾度图像中雾度信息的感知能力。

        另一方面,在公式(9)中的损失函数中引入了模糊图像深度估计的约束,相当于通过双任务策略优化深度估计网络,如图2所示,该策略可以有效缓解单任务深度估计网络可能收敛到非理想局部最优解的限制,增强整体性能鲁棒性。

3.4.双任务协作互促学习

        深度估计网络和图像去雾网络是以相互促进的方式训练的,在优化深度估计网络时,主要损失函数是Mu_depth,由于Mu_depth = Mu_depth(u_depth,ω e),Mu_depth = Mu_depth(u_depth,ω e),u_depth = Φ(u_depth,ω d),我们有Mu_depth = Φ(u_depth,ω d),那么参数ωe的更新公式可以表示为:

        其中ηe表示学习率。(Φ(u,ωd),ωe),(u,ωe)和Md,u表示损失函数depth的输入,可以看出输出结果u = Φ在更新参数ωe时使用(u ω e,ωd)。在Φ和ω e的迭代优化中,在损失函数φ Ad的约束下,(Mu − Mu)1,深度估计网络可以通过关注去雾结果与GT之间的差异来提高其准确性,这表明去雾网络对深度估计网络的性能起到了积极的促进作用。

        在去雾网络的优化过程中,Mu − Mu被馈送到差分感知器以产生系数矩阵Ae,r。对于Ae,r,我们使用以下损失函数来更新去雾网络的参数:

        其中V GGi表示VGG19 [34]的第i层的输出特征,λi是权重系数[43]。因此,去雾网络的更新过程可以描述为:

        其中ηd是学习速率。可以看出,当更新ωd时,去雾图像的深度估计结果(Φ(u,ωd),ωe)。在这个过程中,(Φ(u_d,ωd),ωe),Mu通过损失函数直接传递到ωd的优化上,促进了去雾网络通过更新ωd来提高其性能,因此,从上述分析可以看出,深度估计网络对去雾网络的性能起到了积极的促进作用。另一方面,如图3所示,深度估计网络将模糊聚类的结果输入LEGM,参与雾天图像的特征提取,便于去雾网络从模糊聚类中获取有用的辅助信息,提高去雾效果。

4.实验

4.1.实验设置

        数据集为了确保与当前的去雾方法进行无偏比较,我们使用来自RESIDE数据集[15]的室内训练集(ITS)和室外训练集(OTS)作为训练数据。为了进行评估,我们使用合成目标测试集(SOTS),其中包含500个室内和500个室外烟雾图像用于测试。收集真实图像以验证模型泛化。

        所有实验均在配备24GB GPU的NVIDIA GeForce RTX 3090上进行,模型在Pytorch 1.12.0框架中实现。在训练阶段,使用Adam优化器[12]来优化网络。我们将初始学习率设置为0.001,并使用余弦退火策略来调整学习率。此外,我们将图像随机裁剪为256 × 256块用于训练。在每个小批中,通过水平或垂直翻转来扩大训练样本,整个训练过程在室内数据集上总共持续了600个epoch,户外数据集上的epoch。

        评估方法将所提出的方法与最先进的基于深度学习的去雾方法进行比较。它们在保真度和感知质量方面的性能通过五个指标进行评估:PSNR,SSIM,NIQE [25],PIQE [40]和FADE [5]。

4.2.与最先进技术的比较

        表1分别给出了不同去雾方法在SOTS室内和室外数据集上的定量结果。评估结果表明,所提出的方法在SSIM、NIQE、PIQE和FADE上都达到了最佳值,同时在PSNR上也获得了相当的分数。图5描述了不同方法在SOTS室内和室外数据集上获得的去雾结果。

        表1.在合成数据集(SOTS-室内和SOTS-室外)上,将所提出的方法的性能与最先进的方法进行了比较。粗体表示最佳值。

        从局部残差图可以看出,该方法在合成数据上具有比其他方法更好的去雾效果。此外,为了评估该方法的泛化能力,我们在真实世界的雾图像上进行了实验。实验结果如图6所示。与其他方法相比,该方法在真实世界的数据上具有更好的去雾效果。

        图5. SOTS室内和SOTS室外的视觉对比。由于篇幅所限,我们仅在表1中展示了各年表现优异的方法所获得图像的视觉效果。为了便于视觉对比,我们从去雾结果中显示封闭区域的视觉效果,其中封闭区域与其GT之间存在差异。差异图中较少的残留信息表明更好的除雾效果。

4.3.消融研究

        该方法主要由LEGM、MFM、MSAAM、DE和DP组成。为了验证它们对完整模型的贡献,我们在SOTS-Indoor数据集上进行了消融实验。我们从图3所示的模型中排除了MSAAM、DE和DP,并将LEGM和MFM替换为求和运算,然后构造基线,在等式(11)中用损失约束训练基线,消融实验的定量评估结果列于表2中.

        表2. SOTS室内数据集上每个模块的消融研究。

        如表2所示,与基线相比,基线+LEGM的PSNR增加4.72dB,此外,在其他指标方面,也可以观察到显着的增强。这些改进可以归因于LEGM的固有能力,它集成了全球和本地功能。

        图6.我们在雾天用移动的手机随意拍摄的真实图像的视觉对比.

        图7.不使用DP和使用DP的建议方法的深度估计和去雾结果。

        MFM的有效性为了增强网络的特征表示能力,MFM通过动态调整融合权重来促进不同通道之间的特征交互。如表2所示,将MFM添加到Baseline+LEGM中可以提高模型性能。

        MSAAM的有效性如表2所示,在Baseline+LEGM+MFM中加入MSAAM后,模型的性能得到了进一步的提高。通过MSAAM聚合的不同尺度的特征与解码层特征融合,可以缓解编解码过程中的特征稀释问题。

        DE的有效性DE被纳入Baseline+LEGM+MFM+MSAAM中以验证其有效性。如表2所示,DE有效地提高了模型的性能。这可以归因于深度信息提供了关键的洞察力,包括对象深度和空间一致性。它有助于保持图像结构稳定性,这也证明了双任务相互促进的有效性。

        DP的有效性将DP添加到Baseline+LEGM+MFM+MSAAM+DE中以验证其有效性。与表2相比,DP有助于增强模型性能。从图7可以看出,具有DP模块的网络在深度估计和去雾效果方面都获得了显著改善。

5.结论

        提出了一种新的方法,将深度估计和图像去雾作为两个独立的任务,通过双任务交互机制将它们集成到一个联合学习框架中进行联合优化,提出的去雾结果与理想图像之间的深度图差异感知允许去雾网络专注于次优去雾区域,以提高网络性能。实验结果表明,该方法在真实图像和合成图像上均表现出了良好的去雾效果,并具有上级性能.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值