SCANet: Self-Paced Semi-Curricular Attention Network forNon-Homogeneous Image Dehazing

SCANet:用于非均匀图像去雾的自定步半课程注意力网络

摘要

        非均匀霾的存在会导致景物模糊、色彩失真、对比度降低,现有的均匀去雾方法难以鲁棒地处理雾度的非均匀分布。非均匀去雾的关键挑战是有效地提取雾度的非均匀分布特征并高质量地重建雾度区域的细节。本文提出了一种新的去雾方法,我们提出了一种新的自定进度的半课程注意力网络,称为SCANet,针对非均匀图像去雾,重点是增强雾遮挡区域。我们的方法包括一个注意力发生器网络和场景重建网络。我们使用图像的亮度差异来限制注意力地图,并引入一个自定步调的半模糊模型。课程学习策略,以减少培训早期阶段的学习模糊性。大量的定量和定性实验表明,我们的SCANet优于许多最先进的方法。代码地址:https://github.com/gy65896/SCANet

1.引言

        大气中混浊介质的存在会导致光的吸收和散射,从而导致退化的模糊场景,这对视觉驱动的场景理解和目标检测方法的性能产生不利影响[36,42]。为了解决这个问题,已经提出了许多基于物理先验的图像去雾模型[5,13,17,20,32,44,这些模型通常表示使用大气散射模型的成像过程,其可以表示如下

        其中x是像素索引,I、J、t和A分别表示模糊图像、清晰图像、透射图和全局大气光。然而,估计t和A对于基于物理先验的去雾方法的成功至关重要。当模糊场景复杂时,t和A的估计可能不准确,导致去雾性能不令人满意。为了实现上级去雾性能,通过利用深度神经网络强大的非线性特征表示能力,已经提出了许多基于学习的单图像去雾方法[6,7,10,12,14,19,22 - 25,27,28,39]。然而,雾在现实场景中可能是空间可变的和不均匀的,使得许多基于物理先验和学习的设计用于均匀雾度的方法不适用。

        近年来,已经提出了许多方法来解决非均匀图像去雾的挑战[21,31,37,41]。然而,对非均匀烟雾和底层场景之间的复杂相互作用进行建模仍然是一项具有挑战性的任务。关键挑战是准确感知烟雾的分布并重建高质量的烟雾密集区域的纹理细节。为了解决这个问题,提出了一种用于非均匀图像去雾的自定步调的半课程注意力网络(SCANet),它由注意力生成网络和场景重建网络组成。为了更好地恢复亮度变化明显的区域,我们设计了一个自主节奏的半课程学习策略来控制注意力地图的生成。图1显示了NTIRE2023测试集上的三个去雾案例。拟议的SCANet可以自适应地提取非均匀雾特征并有效地抑制其干扰。此外,图2将我们的方法的峰值信噪比(PSNR)和参数与最先进的方法进行了比较,证明了我们的SCANet的竞争性能。总体而言,本文的主要贡献如下:

·针对非均匀图像去雾这一具有挑战性的问题,提出了一种学习非均匀雾与底层场景之间复杂交互特征的注意力网络,该方法采用了一种专门针对非均匀图像去雾设计的新颖的“注意力生成-场景重构”范式。

·为了增强亮度差异较大区域的去雾能力,我们引入了一种自定进度的半课程学习驱动的注意力地图生成策略。这种方法提高了模型的收敛性,减少了训练早期多目标预测导致的学习模糊。

·我们通过定性和定量实验对SCANet进行了广泛的评估,证明了其与最先进的方法相比具有上级性能。我们进行了消融分析以确认我们方法的有效性,突出了每个组件对SCANet整体性能的贡献。

图1.提出的SCANet在NTIRE2023测试集上的去雾结果。我们的方法可以重建高质量的无雾图像。

图2.几种最先进的去雾方法在NTIRE2020、NTIRE2021和NTIRE2023数据集的15个非均匀图像上的PSNR和参数比较。

2.相关工作

        基于物理先验的去雾。基于物理先验的方法依赖于物理散射模型。一些方法将经验观察视为先验知识来恢复模糊图像,例如暗通道先验(DCP)[17],颜色衰减先验[43]和非局部先验[5]。He等人[17]提出了一种基于像素强度的室外干净图像的暗通道先验(DCP),并取得了良好的去雾性能。Zhu等人[43]发现模糊图像中像素的亮度和饱和度不同,并提出了颜色衰减先验。Berman等人[5]提出了一种有效的非局部路径先验,该先验基于像素通常是非局部的观察。在给定的RGB空间中局部。虽然这些先验在某些情况下可以产生令人印象深刻的结果,但它们可能并不总是实际适用。在真实的世界中,雾度通常受到各种复杂因素的影响,使得这些先验不合适并导致次优的去雾结果。例如,DCP [17]由于不适用的先验假设而无法正确地对天空区域进行去雾。

        基于深度学习的去雾。随着深度学习的快速发展,提出了众多基于学习的去雾方法。Cai等人[6]介绍了一种端到端网络,(DehazeNet),该方法生成模糊图像的透射图,并通过大气散射模型恢复清晰图像。Li等人[22]提出了一种一体化去雾网络(AODNet)联合估计大气光和透射率以恢复模糊图像。Ren等人[30]在他们的无雾图像生成框架中使用多尺度结构应用了基于融合的策略。Zhang等人[38]提出了密集连接的金字塔去雾网络(DCPDN),其使用具有多级金字塔池化模块的边缘保持密集连接的编解码器结构来估计传输图。Qu等人[29]提出了增强的pix2pix去雾网络(EPDN)使用生成对抗网络和增强器来完成去雾任务。Chen等人[7]介绍了一种门控上下文聚合网络(GCANet),该网络使用平滑膨胀技术来有效地生成无雾图像。Liu等人[26]提出了一种基于注意力的多尺度网络(GridDehazeNet),其直接学习特征图而不是估计传输图。最近,一些研究[7,9,28,Hong等人[18]提出了一种不确定性驱动的去雾网络(UDN)该方法利用了不确定性和置信度之间的关系来改善去雾效果,虽然这些方法在近年来,已经提出了几种方法来解决这一挑战[21,31,37,41]。然而,研究人员仍然在努力克服学习雾霾分布特征的困难以及严重雾霾区域细节恢复质量差的问题。

3.提出的方法

        在本节中,我们首先介绍我们的SCANet的网络架构。然后,我们描述了提出的自定进度半课程学习驱动的注意力地图生成方法。最后,提到了模型训练中使用的损失函数。

3.1.网络架构

        如图3所示,我们的方法包括两个子网络:注意力生成网络(AGN)和场景重建网络(SRN)。AGN由多个双注意力基本单元(DAU)组成,用于生成注意力特征图,而SRN是一个编码器解码器网络,用于重建无雾图像。

图3. SCANet的网络结构。所提出的方法包括注意力生成网络和场景重建网络。红色斜线表示我们只在训练阶段使用MGT。

图4.双注意单元(DAU)的流水线。DAU包含通道注意和多尺度像素注意。

        注意力生成器网络。我们的第一个子网络(AGN)被设计用于生成注意力特征图。

从本质上讲,AGN是由多个双重注意单元(DAU)堆叠而成的,如图4所示。将依次通过通道注意力(CA)和多尺度像素注意力(MSPA)进行处理,以获得输出特征图。CA包括两个3 × 3卷积层、一个全局平均池化层、两个1 × 1卷积层和一个sigmoid函数。CA获得的每个通道的权重将乘以输入特征图。MSPA包括两个3 × 3卷积层,三个具有不同扩张率∈ {3,5,7}的扩张卷积层,两个1 × 1卷积层和一个sigmoid函数。为了提高对haze空间分布的感知,专门使用三个扩张卷积来获得多个感受野的特征信息。最后,使用7×7卷积层和sigmoid函数来获得注意力地图Mg。

        场景重建网络。为了提高无雾图像重建质量,采用了编码器-解码器网络。如图3所示,SRN首先采用两个步长为2的3 × 3卷积层来提取4×下采样特征。然后,使用多个残差块和两个可变形卷积层来学习低分辨率下的模糊特征表示。特别地,可变形卷积[8]可以通过使用偏移来调整内核形状以关注感兴趣的特征。最后,无雾结果由尾块产生,尾块包含反射填充,7 × 7卷积层和tanh函数。

3.2.自定进度的半课程注意力

        为什么要监督注意力地图。在非均匀图像去雾中,注意力机制可以使网络灵活地关注雾特征,以重建高质量的无雾图像。然而,注意力地图通常是无监督的,这可能导致低重要性区域被分配更高的权重并生成低质量的重建结果。显示AGN直接生成的注意力图和SRN生成的无雾输出。显然,注意力图在天空区域的权重过高,导致重建结果中出现明显的块伪影。根据我们的观察,非均匀的雾度可以显著增加被遮挡区域的亮度(天空区域除外)。理论上,更加关注具有显著亮度变化的区域的恢复可以避免过度增强问题以提高整体图像重建性能。因此,我们将模糊和清晰的图像变换到YCbCr颜色空间中,并计算基于Y通道的亮度偏差作为注意力图MGT的基础事实

              自定进度的半课程学习。请注意,多目标预测任务(即同时获得无雾图像和注意力地图)往往会增加学习的模糊性。为了使模型更好地收敛,受[11]的启发,我们采用自定进度的半课程学习策略来训练网络。在训练过程中,由AGN生成的注意力图Mg和地面实况MGT融合以生成最终的注意力图M。设λ为折衷参数,M可以数学地表示为

特别地,可以通过注意力图的平滑L1损失L_{sl1}^{a}来动态地调整权衡参数,即,

        公式(3)用于调整Mg和MGT的比重,在初始阶段,M主要由MGT组成,以减轻由于L_{sl1}^{a}的值较大而导致的学习模糊。

        随着L_{sl1}^{a}的减小,网络生成的注意力图Mg的比例将继续增加,当L_{sl1}^{a}小于0.05时,M将只由Mg组成,同时,我们只采用半课程学习策略以避免模型对MGT的过度依赖。

        在获得注意力图M之后,我们通过可学习参数α自适应地对特征图进行加权。设Fin为输入特征图,由注意力图加权的特征图Fout可以由下式给出:

        其中k是逐像素乘法的运算符。

        图5.不同策略生成的图像的视觉比较。从左上到右下:(a)模糊图像,(B)由AGN直接生成的注意力图,(c)由自定进度的半课程学习驱动的AGN生成的注意力图,(d)注意力图的地面实况,(e)基于(B)生成的去雾结果,(f)基于(c)生成的去雾结果,注意,去雾结果(e)表现为过度增强并且表现出明显的伪像,这可以归因于由注意力图(B)对天空区域放置的显著权重。

3.3.损失函数

        在本节中,我们介绍了所提出的SCANet的联合损失函数。具体地,该联合损失函数Ljoint主要由平滑L1损失(包括L_{sl1}L_{sl1}^{a})、多尺度结构相似性(MS-SSIM)损失LMS-SSIM、感知损失Lp和对抗损失La组成,可以表示为

        其中,γ1、γ2、γ3、γ4和γ5是超参数。当我们分别为它们分配值1、0.3、0.01、0.5和0.0005时,性能最佳。

        平滑L1损失。在图像恢复任务中,Zhao等人[40]已经证明了L1损失函数与L2损失相比具有更好的效果。因此,我们使用平滑L1损失[15]来监督最终输出J,预测注意力图Mg,其可以表示如下

        其中,L1(·)表示平滑L1损失函数,L_{sl1}是网络的输出J\hat{}和地面实况J之间的损失,L_{sl1}是预测注意力图Mg和注意力图的地面实况MGT之间的损失。

        设Q表示输入,则L1运算可表示如下

其中i是索引像素,N表示像素的总和。

最后,光滑L1算子Dl1可以由下式给出:

感知损失。为了提高特征空间中输出和地面真实值之间的相似性,我们添加感知损失Lp,可以写为

其中,Rvk(·)表示VGG 16在klayer中的特征映射,(Ck,Hk,Wk)表示对应层中特征映射的形状,本文中r ∈ {relu 1 2,relu 2 2,relu 3 3}.

MS-SSIM损失。为了提高图像中高频区域的对比度,我们采用MS-SSIM损失LMS-SSIM,其定义如下

其中LMS-SSIM(·)表示多尺度结构相似性函数。

        其中x表示像素索引,c和c是两个常数,用于避免分母变为零。均值μJ、μJ、标准差σJ、σJ和协方差σ J由高斯滤波器计算。最后,MSSSIM的运算可定义如下

其中P表示尺度的默认参数。对抗性损失。为了提高所提出的网络的泛化能力,我们添加了额外的对抗性损失,即,

其中D(·)表示训练数据的数量,S表示训练数据的数量。

表1.我们的实验中使用的数据集的细节。(w/o GT)表示该集合缺乏公共基础事实。

4.实验设置

        在本节中,我们首先描述了数据集,实现细节,评估指标和竞争对手。然后,我们将提出的SCANet与其他最先进的去雾方法进行比较。最后,我们进行了消融研究,以证明提出的SCANet中每个模块的合理性。

4.1.实验设置

        数据集。我们选择NTIRE 2020 [1,2],NTIRE 2021 [3]和NTIRE 2023 [4]数据集来训练和评估所提出的SCANet。所有三个数据集中的雾模式都是非均匀分布的。具体来说,NTIRE 2020数据集NH-Haze包含45个训练图像对、5个验证图像对和5个测试图像对。NTIRE 2021数据集NTIRE 2023数据集(称为NH-Haze 2)包含25个训练图像对、5个验证模糊图像和5个测试模糊图像。和5个测试模糊图像。请注意,只有NTIRE 2020数据集的验证集和测试集包含相应的地面实况。有关这些数据集的更多详细信息,请参见表1。

        实现细节。建议的SCANet由PyTorch 1.9.1实现,并在配备Intel(R)Core(TM)i9- 13900 K CPU@5.80GHz和Nvidia GeForce RTX 3080 GPU的PC上进行训练。我们使用指数衰减率为β1 = 0.9和β2 = 0.999的Adam进行优化。初始学习率和批量大小设置为0.0001和2,在训练阶段,我们将图像调整为0.5,0.7和1的尺度,并将它们随机裁剪为512 × 512的图像块,步长为400。同时,这些图像块随机翻转0,90,180和270度。此外,我们训练了两个模型用于NTIRE 2023验证,测试集和NTIRE 2020/2021/2023数据集对于NTIRE 2023验证集和测试集,我们只使用NTIRE 2023中的35个训练对进行训练。epoch设置为85,每20 epoch学习率衰减0.5。由于测试图像尺寸较大,我们采用Nvidia A100 GPU进行测试。对于NTIRE 2020、NTIRE 2021和NTIRE 2023数据集,我们在NTIRE 2020中选择了45个训练对和5个验证对,在NTIRE 2021中选择了前20个训练对,测试集由NTIRE 2020中的5个测试对、NTIRE 2021中的最后5个训练对在实验中,将NTIRE 2023的图像压缩到1/4(即1000 × 1500),以确保与其他数据集的大小相似。此外,epoch设置为500,并且学习率每150个时期衰减0.5。

评估工具和竞争对手。为了对去雾性能进行详尽的分析,我们采用峰值信噪比(PSNR)[33]和结构相似性指数(SSIM)[34]来定量评估恢复的图像。同时,我们将提出的SCANet与最先进的方法进行比较,包括基于先验的方法(即DCP [17]),基于物理模型的CNN方法(即AODNet [22]),三种模糊到清晰的CNN方法(即GridDehazeNet [26],FFANet [28]和TNN [37])以及CNN-Transoformer组合方法(即DeHamer [16])。

4.2.与NTIRE 2020/2021/2023上的最新结果进行比较。

        表2列出了NTIRE 2020、NTIRE 2021和NTIRE 2023数据集上各种去雾方法的PSNR和SSIM结果。DCP的先验知识在非均匀去雾任务中失败,导致PSNR和SSIM值相对较低。

        基于学习的方法在生成无雾图像方面表现出更好的适应性,并在指标上有显着提高。在这些方法中,提出的SCANet取得了令人满意的性能,在大多数情况下排名第一。我们还在图6中显示了视觉比较。DCP生成的结果存在严重的颜色失真问题。AODNet、GridDehazeNet和FFANet都不能完全去除雾霾。TNN在NTIRE 2023基准测试中的表现没有达到预期的福尔斯。具体来说,有五幅图像的色彩饱和度不足,而第一幅图像的背景过于暗化。DeHamer在雾霾抑制方面是有效的。但是,颜色恢复和细节保持能力仍然需要改进。与其他方法相比,所提出的SCANet显示出优越的上级视觉性能。

        在NTIRE 2023验证集和测试集上的结果。根据我们在NTIRE 2023网站上的提交,我们的SCANet在验证集上可以达到PSNR 21.13dB和SSIM 0.6907,在测试集上可以达到PSNR 21.75dB和SSIM 0.6955。同时,我们的方法和最新技术在5个验证图像和5个测试图像上的视觉比较如图7所示。可以观察到DCP,AODNet,和GridDehazeNet在非均匀图像去雾方面表现不佳; FFANet、TNN和DeHamer虽然能部分去除雾层,但在雾层密集区域仍有残留物存在;与现有方法相比,SCANet具有更自然的去雾效果。通过比较,我们的SCANet具有更低的FLOP和更少的网络参数。为了直观地展示我们方法的优越性,我们在图2中比较了不同方法的PSNR和参数量。值得一提的是,我们的时间复杂度也相对适中,在NVIDIA GeForce RTX上处理一张1200 × 1600的图像平均需要0.1962秒3080 GPU。

4.3.消融分析

        我们进行了一系列实验作为消融研究,以证明不同组件的有效性,包括注意生成网络(AGN),场景重建网络(SRN),自定进度的半课程学习策略(SCL)以及每个损失函数。如表4所示,我们设计了七个不同配置的模型,并使用NTIRE 2020,NTIRE 2021,和NTIRE 2023数据集作为训练集和测试集。

        定量结果如表4所示。通过比较模型(1)和(2),我们的方法在场景重建网络(SRN)之前添加注意力生成器网络(AGN)后实现了性能改善。该结果表明,与均匀图像去雾不同,恢复非均匀图像需要网络对雾区更敏感。

        此外,我们使用L a sl 1来监督注意力特征图,通过观察模型(2)和(3),PSNR和SSIM都得到了令人满意的改善。注意力图的监督避免了为低重要性区域分配更高的权重,这可以提供更好的重建结果。此外,在训练过程中应用自定进度的半课程学习(SCL),进一步改善了指标,这表明SCL可以降低网络的收敛难度,提高网络的性能。通过对比图5所示的例子,我们可以更直观地发现模型(2)到模型(4)的变化。显然,我们的SCL注意图约束策略可以使SRN更充分地聚焦于亮度变化显著的区域,避免天空区域的失真问题。此外,MS-SSIM损失、感知损失和生成对抗损失的使用可以通过比较表4中的模型(5)、(6)和(7)来进一步增强我们的SCANet的去雾性能。 然而,我们的方法仍然不能完全恢复高雾霾浓度区域的颜色和细节。复杂度分析。表3显示了所提出的方法和其他方法在1200 × 1600图像上的网络参数和浮点运算(FLOP)的数量。

5.结论

        本文提出了一种基于SCANet的非均匀图像去雾方法,有效地提取了非均匀图像的雾度分布特征,并重建了高质量的细节信息;我们的注意力生成器网络和场景重建网络以一种新的“注意力生成-场景重建”模式协同工作;此外,我们还提出了一种自适应的半自适应算法课程学习驱动的注意力地图生成策略,以提高模型的收敛性,减少训练初期的学习模糊性。我们提出的方法在定量和定性实验中均优于许多最先进的方法,证明了我们方法的有效性。此外,烧蚀分析证实了每个组件在我们的SCANet的整体性能的贡献。我们相信,所提出的方法可以提供一个有前途的解决方案,真实世界非均匀图像去雾的应用。未来的工作可以扩展我们的方法来处理更复杂的场景。例如,处理多种类型的烟雾,并将我们的方法与其他计算机视觉任务相结合。

表2. NHIRE 2020、NHIRE 2021和NHIRE 2023数据集上非均匀去雾的定量比较。最好的结果以粗体显示,第二好的结果以下划线显示。

表3.所有方法的FLOP和参数比较。

图6. NTIRE2020、NTIRE2021和NTIRE2023数据集上各种方法的视觉比较。

(三个点:网络设计、学习策略、实验结果对比)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值