DEA-Net:基于细节增强卷积和内容引导注意力的单幅图像去雾

摘要:

单幅图像去雾是一个具有挑战性的不适定问题,它需要从观测到的模糊图像中估计出潜在的无雾图像。现有的一些基于深度学习的方法致力于通过增加卷积的深度或宽度来提高模型的性能。卷积神经网络(CNN)结构的学习能力尚未得到充分的研究。本文提出了一种由细节增强卷积(DEConv)和内容引导注意(CGA)组成的细节增强注意块(DEAB)来增强特征学习,从而提高去雾性能。具体来说,DEConv将先验信息整合到正卷积层中,增强了表示和泛化能力。


  然后,通过使用重新参数化技术,将DEConv等效地转换为没有额外参数和计算成本的普通卷积。通过为每个信道分配唯一的空间重要性映射(SIM), CGA可以获得更多编码在特征中的有用信息。此外,提出了一种基于cgaba的混合融合方案,可以有效地融合特征并辅助梯度流。通过结合上述组件,我们提出了用于恢复高质量无雾图像的细节增强注意力网络(DEA-Net)。


  大量的实验结果证明了我们的DEA-Net的有效性,通过仅使用3.653 M参数将PSNR指数提高到41 dB以上,优于最先进的(SOTA)方法。我们的DEA-Net的源代码将在https://github.com/cecret3350/DEA-Net上提供。


索引术语:图像去雾,细节增强卷积,内容引导注意力,融合方案。

1 引言

  在朦胧场景下捕获的图像通常会在对比度或颜色失真方面出现明显的视觉质量下降[1],导致在输入一些高级视觉任务(如物体检测、语义分割)时性能明显下降。在这些任务中,对无雾图像的要求很高。因此,以从相应的雾霾图像中恢复干净场景为目标的单幅图像去雾,在过去的十年中受到了学术界和工业界的广泛关注。图像去雾作为底层图像恢复的基础任务,可以作为后续高级视觉任务的预处理步骤。在本文中,我们试图开发一种有效的算法来去除雾霾,并从雾霾输入中恢复细节。
  近年来,随着深度学习的快速发展,基于卷积神经网络(CNN)的除雾方法取得了优异的性能[2]-[6]。先前基于cnn的方法[2]、[7]、[8]首先分别估计透射图和大气光,然后利用大气散射模型(ASM)[9]得到无雾图像。通常,传输图由地面真实值监督,用于合成训练数据集。然而,对透射图或大气光的估计不准确会严重影响图像恢复结果。最近,一些方法[6],[10],[11]更倾向于端到端预测潜在无雾图像,因为它往往会取得令人满意的结果。

  然而,目前仍存在两个主要问题:(1)普通卷积的有效性较低。先前的研究[12]-[14]证明了设计良好的先验,如暗通道先验[12]、[15]、非局部雾线先验[13]、颜色衰减先验[14]等,有助于恢复缺失信息。现有的除雾方法[5]、[6]、[16]大多采用经典卷积层进行特征提取,没有利用这些先验。然而,普通卷积在没有任何约束的情况下搜索巨大的解空间

在某种程度上可能会限制表达能力(或建模能力)。此外,一些基于变压器的方法[17]将接受域扩展到整个图像,以挖掘长距离依赖关系。它们可以以复杂的训练策略和繁琐的超参数调优为代价来增强表达能力(或建模能力)。此外,令人望而却步的计算成本和巨大的GPU内存占用也不容忽视。在这方面,理想的解决方案是将精心设计的先验嵌入到CNN中,以提高特征学习能力。


(2)雾霾不均匀性。在除雾问题中存在两种不均匀性:图像层次上的雾霾分布不均匀和特征层次上的通道方向的雾霾差异。为了应对第一个问题,Qin等[5]采用像素注意(即空间注意)生成空间重要性图(spatial importance map, SIM),该地图可以自适应地指示不同像素位置的重要性水平。通过这种判别策略,FFA-Net模型对薄雾霾区域和厚雾霾区域的处理是不平等的。同样,Ye等[11]试图通过密度估计模块对雾霾分布的密度进行建模,其本质上也是一种空间关注。然而,研究人员很少关注特征层面的非均匀性,这方面的研究还有待开发。[5]中使用的通道注意可以产生一个通道注意向量1来表示每个通道的重要程度,但它没有考虑空间维度上的上下文信息。应用卷积层后,将雾霾信息编码到特征映射中。根据所应用的滤波器的作用,特征空间中的不同通道具有不同的含义。在这方面,我们认为空间重要性地图应该是通道特定的,并同时考虑两种非均匀性(图像级和特征级)。

   为了解决上述问题,我们设计了一个细节增强注意块(DEAB),它由细节增强卷积(DEConv)和内容引导注意(CGA)机制组成。DEConv包含五个卷积层(四个差分卷积[18]和一个普通卷积),它们被并行部署用于特征提取。具体来说,采用中心差分卷积(CDC)、角差分卷积(ADC)、水平差分卷积(HDC)和垂直差分卷积(VDC)将传统的局部描述符整合到卷积层中,增强了表征和泛化能力。在差分卷积中,首先计算图像中的像素差,然后与卷积核进行卷积,生成输出的特征映射。可以设计像素对差分计算策略,将先验信息显式编码到CNN中。例如,HDC和VDC通过学习有益的梯度信息显式地将梯度先验编码到卷积层中。

  此外,复杂注意机制(即CGA)是一个两步注意生成器,它首先产生粗糙的空间注意图,然后对其进行细化到好的版本。具体来说,给定特定的输入特征图,我们利用[19]中提出的空间注意机制和[20]中提出的通道注意来生成初始模拟(即粗糙版本)。然后,根据输入特征映射的每个通道对初始模拟进行细化,生成最终模拟。通过使用输入特征的内容来指导模拟人的生成,CGA可以专注于每个通道中特征的独特部分。值得一提的是,CGA作为一种通用的基本块,可以插入到神经网络中,以提高在各种图像恢复任务中的性能。
   除了上述改进之外,我们还对学习到的并行卷积的核权重进行了重新参数化,以减少参数的数量,加快训练测试过程。利用卷积层的线性特性,对核权值施加一定的约束,将5个并行卷积简化为一个普通卷积层。因此,所提出的DEConv可以提取丰富的特征以提高除雾性能,同时保持参数数量和计算成本与普通卷积相同。图1显示了我们的方法的效率和有效性。

  继[6],[10],[21],[22]之后,我们还采用了类似u -net的框架,在低分辨率空间进行主要耗时的卷积计算。其中,浅层与深层特征的融合应用最为广泛。特征融合可以增强信息从浅层向深层的流动,对特征保持和梯度反向传播是有效的。浅层特征所编码的信息与深层特征所编码的信息有很大的不同,这是由于接收野的不同。深层特征中的单个像素来源于浅层特征中的一个像素区域。简单的加法或串联操作无法解决接收野不匹配的问题。我们进一步提出了一种基于cga的混合方案,通过学习到的空间权重调制特征,自适应地融合编码器部分的低级特征和相应的高级特征。

  我们提出的方法示意图如图2所示。通过引入具有细节增强卷积和内容引导注意力的细节增强注意力块(DEAB),我们将提出的单幅图像去雾模型命名为DEA-Net。

总之,我们有以下主要贡献:

我们设计了一个细节增强卷积(DEConv),它包含并行香草和差分卷积。据我们所知,这是首次引入差分卷积来解决图像去雾问题。通过将先验信息编码在法向卷积层中,增强了DEConv的表示和泛化能力,提高了去雾效果。此外,我们通过使用重参数化技术将DEConv等效地转换为没有额外参数和计算成本的正常卷积。
我们提出了一种新的注意力机制,称为内容引导注意力(CGA),以一种从粗到精的方式生成特定频道的SIMs。通过输入特征为了指导SIMs的生成,CGA为每个信道分配唯一的SIM,使模型参加每个信道的重要区域。因此,可以强调特征中编码的更多有用信息,从而有效地提高性能。此外,提出了一种基于cgaba的混合融合方案,将编码器部分的低级特征与相应的高级特征有效融合。
结合decv和CGA,采用基于CGA的混合融合方案,提出了用于高质量无雾图像重建的细节增强关注网络(DEA-Net)。DEA-Net在多个基准数据集上表现出优于最先进的除雾方法的性能,以更快的推理速度获得更准确的结果。

  本文的其余部分组织如下。在第二节中,我们首先回顾了一些基于深度学习的除雾方法。第三节详细描述了提出的EDA-Net模型,第四节给出了实验结果。最后,第五部分对本文进行总结。

图1所示。PSNR与参数数的关系图。我们将我们的DEANet与一些最先进的方法(2020年后)进行比较。结果在sots室内数据集上进行了验证。注意,AECR-Net采用共享策略来减少参数的数量。

2相关工作

A.单幅图像去雾

    对于单幅图像的去雾,现有的方法主要分为两大类。一种是将模糊图像和无模糊图像之间的统计差异作为经验先验进行人工归纳。另一种是直接或间接地学习基于大规模数据集的映射函数。我们通常将前者称为基于先验的方法,将后者称为数据驱动的方法。
    基于先验的图像去雾方法是图像去雾的先驱。它们通常依赖于大气散射模型(ASM)[9]和手工先验。目前已知的先验包括暗通道先验(DCP)[12]、[15]、非局部先验(NLP)[13]、颜色衰减先验(CAP)[14]等。他等人[12]、[15]基于一个关键观测提出了DCP,即无雾室外图像中的大多数局部斑块包含一些至少在一个颜色通道中强度非常低的像素,这有助于估计透射图。CAP[14]从HSV色彩模型出发,建立了深度与亮度、饱和度差之间的线性关系。  Berman等[13]发现,当雾霾出现时,无雾霾图像的像素簇会变成雾线。这些基于先验的方法取得了很好的除雾效果。然而,它们往往只在恰好满足其假设的特定场景中发挥作用。

   最近,随着深度学习的兴起,研究人员专注于数据驱动的方法,因为它们可以实现更好的性能。早期的数据驱动方法通常基于物理模型进行除雾。例如,DehazeNet[2]和MSCNN[7]利用cnn来估计传输图。然后,AOD-Net[3]重写ASM,并结合透射图估算大气光。随后,DCPDN[8]估算了两个不同网络的传输图和大气光。然而,由于传输图和大气光估计不准确而引入的累积误差可能导致性能下降。

    为了避免这种情况,最近的作品倾向于在没有物理模型的帮助下,直接从模糊图像中恢复无雾图像。GFN[23]对原始朦胧输入的三幅增强图像进行门和融合,生成无雾图像。GridDehazeNet[24]利用基于注意力的三阶段网格网络来恢复无雾图像。MSBDN[10]利用增强策略和反向投影技术增强特征融合。FFA-Net[5]将feature attention mechanism (FAM)引入到去雾网络中,以处理不同类型的信息。AECR-Net[6]重用了feature attention block (FAB)[5],提出了一种新的对比正则化方法,该方法可以同时受益于正样本和负样本。UDN[22]分析了图像去雾中的两种不确定性,并利用它们来提高去雾性能。PMDNet[11]和Dehamer[17]采用变压器建立远程依赖关系,在雾霾密度的引导下进行除雾。然而,随着数据驱动方法的发展和除雾性能的提高,除雾网络的复杂性也在增加。与以往的工作不同,我们重新思考了香草卷积在图像去雾中的不足,并将精心设计的先验组合到CNN中,设计了一种新的卷积算子,以提高特征学习能力。我们还在特征层面深入挖掘了雾霾未被利用的非均匀性。

B.差分卷积

    差分卷积的起源可以追溯到局部二进制模式(local binary pattern, LBP)[25],它将局部patch中的像素差异编码为十进制数,用于纹理分类。由于cnn在计算机视觉任务中的成功,Xu等人[26]提出了局部二值卷积(local binary convolution, LBC),利用非线性激活函数和线性卷积层对像素差异进行编码。最近,Yu等[27]提出了中心差分卷积(CDC),直接编码具有完全可学习权的像素差异。后来,人们提出了多种形式的差分卷积,如交叉中心差分卷积[28]和像素差分卷积[29]。考虑到差分卷积用于捕获梯度级信息的性质,我们首先将差分卷积引入到单幅图像去雾中以提高性能。

3 方法

   如图2所示,我们的DEA-Net由三部分组成:编码器部分、特征变换部分和解码器部分。特征变换部分作为DEA-Net的核心,采用了堆叠细节增强注意块(DEABs)来学习无雾特征。在分层结构中有三个层次,我们在不同的层次中使用不同的块来提取相应的特征(第1&2层:DEB,第3层:DEAB)。给定模糊输入图像I∈R3×H×W, DEA-Net的目标是恢复相应的无模糊图像J∈R3×H×W。

图2所示。我们提出的细节增强注意力网络(DEA-Net)的整体架构是一个三层编码器-解码器结构。
DEA-Net包含三个部分:编码器部分、特征变换部分和解码器部分。我们在特征转换部分部署细节增强注意块(deab),在其余部分部署细节增强块(deb)。

A.细节增强卷积

   在单幅图像去雾域,以前的方法[5],[6],[16]通常使用香草卷积(VC)层特征提取和学习。正常卷积层搜索巨大的解空间没有任何约束(甚至从随机初始化开始),限制了表达能力或建模能力。然后我们注意到高频信息(如边缘和轮廓)对于恢复在朦胧场景下捕获的图像具有重要意义。基于此,一些研究者[8]、[21]、[30]在去雾模型中采用边缘先验来帮助恢复更清晰的轮廓。受他们的作品[8],[30]的启发,我们设计了一个细节增强卷积(DEConv)层(见图3),它可以将精心设计的先验集成到普通卷积层中。

图3所示。细节增强卷积(DEConv)。它包含五个并行部署的卷积层,包括:香草卷积(VC)、中心差分卷积(CDC)、角差分卷积(ADC)、水平差分卷积(HDC)和垂直差分卷积(VDC)。

   在详细阐述所提出的DEConv之前,我们首先概述差分卷积(DC)。以往的著作[27]-[29]、[31]通常将差分卷积描述为像素差的卷积(先计算像素差,然后与核权卷积生成特征图),这样可以增强vanilla卷积的表示和泛化能力。中心差分卷积(CDC)和角差分卷积(ADC)是两种典型的dc,它们通过重新排列学习到的核权来实现,以节省计算成本和内存消耗[29]。它被证明是有效的边缘检测[29]和面对反欺骗任务[27],[28],[31]。据我们所知,这是我们第一次引入DC来解决单幅图像的去雾问题。

    在我们的实现中,我们使用了五个卷积层(四个dc[18]和一个vanilla卷积),它们被并行部署用于特征提取。在DCs中,可以设计像素对差分计算策略,将先验信息显式编码到CNN中。对于我们的DEConv,除了中心差分卷积(CDC)和角差分卷积(ADC)外,我们还推导了水平差分卷积(HDC)和垂直差分卷积(VDC),将传统的局部描述符(如Sobel[32]、Prewitt[33]或Scharr[34])整合到卷积层中。如图4所示,以HDC为例,首先通过计算所选像素对的差值来计算水平梯度。训练结束后,我们对学习到的核权值进行等价的重新排列,并直接对未改变的输入特征进行卷积。请注意,等效内核具有与传统局部描述符类似的格式(水平权重之和等于零)。Sobel[32]、Prewitt[33]、Scharr[34]的水平核可为作为等效核的特殊情况。VDC也有类似的推导,将水平梯度改为相应的垂直梯度。HDC和VDC都明确地将梯度先验编码到卷积层中,通过学习有益的梯度信息来增强表示和泛化能力。

图4所示。水平差分卷积(HDC)的推导。
   在我们的设计中,香草卷积用于获得强度级信息,而差分卷积用于增强梯度级信息。我们简单地将学习到的特征加在一起就得到了DEConv的输出。我们相信更复杂的像素差计算方法的设计可以进一步有利于图像恢复任务,这不是本文的主要方向。

     然而,部署五个并行卷积层进行特征提取会导致参数和推理时间的增加。我们试图利用卷积层的可加性,将并行部署的卷积简化为单个标准卷积。我们注意到卷积的一个有用的性质:如果几个具有相同大小的二维核在相同的输入上以相同的步幅和填充操作产生输出,并且它们的输出被求和以获得最终输出,我们可以将这些核在相应的位置上相加以获得等效的核将产生相同的最终输出。令人惊讶的是,我们的德科v完全符合这种情况。在给定输入特征Fin的情况下,DEConv利用重参数化技术,以相同的计算成本和推理时间将Fout输出到普通卷积层。公式如下(为简化,省略偏差):

  其中,DEConv(·)表示我们提出的DEConv的运算,Ki=1:5分别表示VC、CDC、ADC、HDC和VDC的核,∗表示卷积运算,Kcvt表示将并行卷积组合在一起的转换核。

   图5直观地展示了重新参数化技术的过程。在反向传播阶段,利用梯度传播链式法则分别更新5个并行卷积的核权值。在正向传播中在此阶段,平行卷积的核权是固定的,转换后的核权是在相应的位置上加起来计算的。注意,重参数化技术可以同时加速训练和测试过程,因为它们都包含前向传播阶段。与普通卷积层相比,本文提出的DEConv在保持参数大小的前提下可以提取更丰富的特征,并且在推理阶段没有引入额外的计算成本和内存负担。有关DEConv的更多讨论请参见第IV-C1节.

B.内容导向注意力

    特征注意模块(Feature attention module, FAM)由一个通道注意和一个空间注意组成,它们依次被放置来计算在通道和空间维度上的注意权重。通道注意力计算一个通道向量,即Wc∈RC×1×1,以重新校准特征。空间注意力计算一个空间重要性图(spatial importance map, SIM),即Ws∈RH×W,自适应地表示不同区域的重要程度。FAM对不同的通道和像素进行不平等处理,提高了除雾性能。
     但是FAM内部的空间注意力只能解决图像级雾霾分布的不均匀,而忽略了特征级雾霾分布的不均匀。FAM内部的渠道关注在不考虑上下文信息的情况下对渠道差异进行建模。随着特征通道的扩展,将图像级雾霾分布信息编码到特征映射中。根据所应用的滤波器的作用,特征空间中的不同通道具有不同的含义。这意味着对于每个特征通道,雾霾信息在空间维度上的分布是不均匀的。在这种情况下需要特定于信道的sim。此外,FAM的另一个问题是这两个注意权值之间没有信息交换,Wc和Ws依次计算,分别增强特征。

    为了充分解决上述问题,我们提出了一种内容引导注意力(content-guided attention, CGA)方法,以粗到精的方式获得每条输入特征通道的独占SIM,同时充分混合通道注意权和空间注意权,保证信息交互。

    CGA的详细过程如图6所示,设X∈RC×H×W表示后续的输入特征,CGA的目标是生成与X具有相同尺寸的通道特定的SIMs(即W∈RC×H×W)。我们首先按照[19],[20]计算相应的Wc和Ws。

    其中max(0, x)为ReLU激活函数,Ck×k(·)为k×k核大小的卷积层,[·]为通道级连接操作。XcGAP、XsGAP和XsGM P分别表示跨空间维度的全局平均池化操作、跨通道维度的全局平均池化操作和跨通道维度的全局最大池化操作处理的特征。为了减少参数数量和限制模型复杂度,第一次1 × 1卷积将通道维数从C降至C r (r为降维比),第二次1 × 1卷积将通道维数扩展回C。在我们的实现中,我们选择通过将r设置为c16来将通道维度减少到一个固定值(即16)。然后,我们根据广播规则,通过简单的加法运算将Wc和Ws融合在一起,得到粗SIMs Wcoa∈RC×H×W。我们通过实验发现,乘积运算可以达到类似的结果。

       为了得到最终精细化的SIMs W, Wcoa的每个通道都根据相应的输入特征进行调整。我们利用输入特征的内容作为指导来生成最终的通道特定的SIMs W。特别是,Wcoa和X的每个通道通过通道洗牌操作以交替的方式重新排列[35]。

    其中σ表示sigmoid操作,CS(·)表示通道洗牌操作,GCk×k(·)表示k×k核大小的群卷积层,在我们的实现中,将群号设置为C。
    CGA为每个信道分配唯一的SIM,引导模型关注每个信道的重要区域。因此,可以强调特征中编码的更多有用信息,从而有效地提高除雾性能。
   如图2所示,将所提出的DEConv与CGA相结合,我们提出了DEA-Net的主要块,即细节增强注意块(DEAB)。通过去除CGA部分,得到细节增强块(DEB)。

图6所示。内容引导注意(CGA)图。CGA是一个从粗到精的过程:首先生成SIMs的粗版本(即Wcoa∈RC×H×W),然后在输入特征的引导下对每个通道进行细化。

C.基于cga的混合融合方案

    继[6],[10],[21],[22]之后,我们在DEA-Net中采用了类似编码器-解码器(或类似u - net)的架构。我们观察到,将编码器部分的特征与解码器部分的特征融合是除雾和其他低级视觉任务的有效技巧[6],[10],[36],[37]。低层特征(如边缘和轮廓)对恢复无雾图像具有不可忽视的作用,但在经过许多中间层后逐渐失去影响。特征融合可以增强信息从浅层向深层的流动,有利于特征保持和梯度反向传播。最简单的融合方法是元素相加,这是许多方法所采用的方法[10],[11],[21]。后来Wu等[6]采用自适应混合操作,通过自学习权值来调整融合比例,比加法更灵活。

     然而,在上述融合方案中都存在接收野失配问题。浅层特征中编码的信息与深层特征中编码的信息有很大的不同,因为它们具有完全不同的接受域。深层特征中的单个像素来源于浅层特征中的一个像素区域。简单的添加或串联操作或混合操作无法在融合前解决不匹配问题。

     为了缓解这一问题,我们进一步提出了一种基于cga的混合方案,通过学习到的空间权重调制特征,自适应地融合编码器部分的低级特征和相应的高级特征。

      图2 (d)显示了提出的基于cga的混合融合方案的细节。核心部分是我们选择使用CGA来计算特征调制的空间权重。将编码器部分的低级特征和相应的高级特征输入到CGA中计算权重,然后采用加权求和的方法进行组合。我们还通过跳跃连接增加输入特征,以缓解梯度消失问题,简化学习过程。最后,对融合后的特征进行1 × 1卷积层的投影,得到最终的特征(即Ff使用)。

    关于基于cga的混合融合方案的更多讨论可以在第IV -C3节中找到。

D.总体架构

      将(1)DEConv、(2)CGA和(3)基于CGA的混合融合方案结合在一起,提出了以DEAB和DEB为基本模块的DEA-Net。如图2所示,我们的DEA-Net是一个三级编码器-解码器(或类似unet)架构,它由三部分组成:编码器部分、特征变换部分和解码器部分。在我们的DEA-Net中有两个下采样操作和两个上采样操作。下采样操作将空间维度减半,并使通道数量加倍。通过将stride的值设置为2,并将输出通道数设置为输入通道数的2倍,通过法向卷积层实现。上采样操作可以看作是下采样操作的逆形式,下采样操作是通过反褶积层实现的。层次1、层次2、层次3的维度尺寸分别为C × H × W、2C × H 2 × W 2、4C × H 4 × W 4。在我们的实现中,我们将C的值设置为32。以往的方法[6]、[22]只对低分辨率空间的特征进行变换,导致信息丢失,这对于去雾等对细节敏感的任务来说是非常重要的。不同的是,我们将特征提取块从第1级部署到第3级。具体来说,我们选择在不同的级别使用不同的块(1级和2级:DEB, 3级:DEAB)。对于特征融合,我们将下采样操作后的特征和上采样操作前的相应特征融合在一起(图2中用绿色箭头线突出显示)。最后,我们简单地在最后使用3×3卷积层,得到去雾结果J。

     DEA-Net通过最小化预测的无雾图像J和相应的地面真值GT之间的逐像素差异来训练。在我们的实现中,我们选择L1损失函数(即平均绝对误差)来驱动训练。

四、实验

A.数据集和指标

   数据集。在我们的实现中,我们在合成和真实捕获的数据集上训练和测试了我们提出的DEA-Net。现实单幅图像去雾(REalistic Single Image desmog,简称live)[38]是一个被广泛使用的数据集,它包含五个子集:室内训练集(ITS)、室外训练集(OTS)、合成客观测试集(SOTS)、真实世界任务驱动测试集(RTTS)和混合主观测试集(HSTS)。我们在训练阶段选择ITS和OTS,在测试阶段选择SOTS。注意,SOTS被分为两个子集(即SOTS-indoor和SOTS-outdoor),用于评估分别在ITS和OTS上训练的模型。ITS包含1399幅室内洁净图像,每幅洁净图像基于物理散射模型生成10幅模拟朦胧图像。至于OTS,我们挑选296K左右的图像用于训练过程2。SOTS-indoor和SOTS-outdoor分别包含500个室内和500个室外测试图像。此外,Haze4K数据集[39],其中包含3000个合成训练图像和1000张合成测试图像,也被用来评估我们的DEA-Net。此外,利用一些实际捕获的朦胧图像进一步验证了该算法在真实场景中的有效性。

     评价指标。峰值信噪比(Peak signal-to-noise ratio, PSNR)和结构相似度指数(structural similarity index, SSIM)[40]是计算机视觉界常用的测量图像质量的指标,用于除雾性能评价。为了公平的比较,我们在不裁剪像素的情况下基于RGB彩色图像计算度量。

B.实施细节

     我们使用单个NVIDIA RTX3080Ti GPU在PyTorch深度学习平台上实现了所提出的DEA-Net模型。我们分别在级别1、级别2和级别3中部署DEB、DEB和DEAB。将不同阶段[N1, N2, N3, N4, N5]部署的区块数设置为[4,4,8,4,4]。
    DEA-Net使用Adam[41]优化器进行优化,β1、β2、ε设置为默认值,即0.9、0.999、1e−8。初始学习率设为1e−4,批大小设为16。采用余弦退火策略[42]将学习率从初始值调整到1e−6。为了训练模型,我们从原始图像中随机裁剪大小为256×256的斑块,然后采用90°或180°或270°旋转和垂直或水平翻转两种数据增强技术。在整个训练阶段,模型被训练了1500K次迭代,大约需要5天的时间来训练我们的DEA-Net在ITS上。

C.消融研究

    为了证明我们提出的DEANet的有效性,我们研究了(1)细节增强卷积(DEConv),(2)内容引导注意(CGA)和(3)基于CGA的混合融合方案的设计和效果。通过烧蚀实验分析了各组分的贡献。
1) DEConv:我们首先通过在level 3部署经典残差块(classic residual block, RB)[43]来构建基线模型,该模型记为Base RB。作为除雾领域常用的基本块,我们在level 3中也采用了[5]中的feature attention block (FAB)。超参数设置为原始论文中描述的默认值。我们把这个模型称为第二个基线,Base F AB。
     为了提取更有效的特征,我们通过在RB和FAB中引入DEConv来修正块。如图7所示,在RB和FAB中,第一个普通卷积层被提议的DEConv取代。部署在第3层的块分别表示为RBw/ DEConv和FABw/ DEConv。对应的模型分别记为RB D模型和F AB D模型。

    为了公平比较,所有四个块(即RB、FAB、RBw/ DEConv和FABw/ DEConv)在level 3级联6次,并使用相同的融合方案(即Mixup[5])。为了方便起见,我们省略了level 1和level 2中的块,并且只训练了500K次迭代的模型,初始学习率设置为2e - 4(这些设置与消融研究一起)。实验结果在同一测试数据集上进行了测试(即SOTS-Indoor[38]数据集)。虽然指标低于表中报告的完全训练模型。V,趋势和价值是一致和有意义的。

    上述所有模型的性能总结如表所示。1 .用并行卷积层(即DEConv)代替vanilla卷积层,在RB和FAB上的PSNR分别提高0.27和0.6 dB。通过比较模型F AB D和基础F AB,结果表明,decv可以明显提高指标(即PSNR和SSIM)的值,代价是大约两倍的参数数(4505 K vs。这是非常不友好的,并且可能在某些内存有限的情况下导致故障,禁止在移动或嵌入式设备上使用DEConv。

图7所示。RB、RBw/ DEConv、FAB、FABw/ DEConv原理图。将RB/FAB中的第一个普通卷积层替换为建议的DEConv以生成RBw/ DEConv/FABw/ DEConv。

      为了处理这个问题,我们通过将学习到的核权重在相同位置相加(即重新参数化),等效地将DEConv转换为标准的3 × 3卷积。表格。II给出了F AB D模型在重新参数化操作前后参数个数(# Param.)、浮点运算次数(# FLOPs)和推理时间的对比结果。我们可以清楚地看到,重新参数化操作简化了并行结构,而不会导致性能下降。特别是,经过简化后,与Base F AB相比,Model F AB D的性能仍然提高了0.6 dB,并且没有引入额外的开销。

表1 deconv和cga的消融研究。所有实验均在sots-indoor[38]数据集上进行。

表二  重新参数化运算前后模型F和D的参数个数(# PARAMETERS)、浮点运算次数(# FLOPS)和推理时间的比较结果。RE-PA。是重新参数化操作的缩写。 

   此外,我们还探讨了并行卷积层的设计,从只有一个香草卷积层(即FAB)到两个并行香草卷积层,然后到完成DEConv(即FABw/ DEConv)。如表所示。第三,在FAB中添加一个并行的香草卷积层会导致0.15 dB的性能下降。这背后的潜在原因可能是由于相同层提取的冗余特征导致训练困难。相反,在FAB上增加一个并行的CDC层可以提高性能。实验结果证明,通过嵌入传统的先验信息,差分卷积(DC)层可以有效地提取更多具有代表性的特征。我们还观察到,通过添加更多并行直流流进行特征提取,PSNR的性能从33.07 dB逐渐提高到33.67 dB。在SSIM方面也可以观察到类似的趋势。基于以上讨论,我们选择模型FAB D与基本块FABw/ DEConv进行下面的研究。

表3  平行卷积层设计的实验结果。“”意味着相同的卷积层在两个并行流中被使用两次。在sots-indoor[38]数据集上对指标进行了测试。

2) CGA:进一步,我们研究了所提出的两步粗到精注意机制(即CGA)的有效性。如第1节所述,CGA生成通道特定的空间重要性图(SIMs)来指示重要地区的个别渠道。我们将CGA与其他注意机制进行了比较,如许多除雾方法中使用的特征注意模块(FAM)[5]、[6]、[16]和常见的卷积块注意模块(CBAM)[19]。FAM和CBAM都包含顺序通道注意和空间注意,其实现略有不同。

    模型FAB D级联第3层的FABw/ DEConv模块,在FABw/ DEConv模块内部,采用FAM。然后,我们将CGA和CBAM合并到FABw/ DEConv块中,分别生成FABw/ DEConv & CGA(即DEAB)和FABw/ DEConv & CBAM,对应的模型记为Model DEAB和Model FAB D CBAM   

    FAM或CBAM中使用的空间注意学习只有一个通道的SIM,以指示通道数量相对较多的输入特征的重要区域。这种方法忽略了特征各通道的特殊性,在某种程度上限制了cnn强大的表示能力。如表右三列所示。1、在PSNR方面,Model DEAB比Model F AB D和Model F AB D CBAM分别高出1.5 dB和1.01 dB。结果表明,CGA可以通过学习特定通道的SIMs来更好地重新校准特征,以关注不同通道的雾霾分布差异。

图8所示。FAM和我们提出的CGA的视觉比较。我们展示了学习到的SIMs和相应的结果。

    图8直观地展示了CGA和FAM学习到的SIMs和相应的处理结果。从图8e中可以看出,FAM获得的单通道SIM可以(在一定程度上)反映雾霾分布的不均匀。然而,由于混合了一些轮廓图案,它不够准确(例如,红椅子区域)。通过使用输入特征的内容来指导SIMs的生成,CGA可以学习到更准确的空间权重。图8f显示了随机选择的8个模拟市民通道,以及所有模拟市民的平均地图(右下)。通道特定的SIMs以不同的空间权重处理不同通道的特征,可以更好地引导模型关注关键区域。图8c和图8d为相应的结果。我们观察到,F AB D模型恢复的拱形门区域(红色矩形突出显示)存在明显的雾霾残留。

  3)基于cga的混合融合方案:我们进一步进行消融研究以验证所提出的基于cgaba的混合融合方案的有效性。我们利用AECR-Net[6]中的混合融合方案的DEAB模型作为基准,然后评估另外两种方案:元素明智添加[10],[11],[21]和提出的基于cga的混合。它们的型号被称为DEAB A型和DEAB C型。对比结果见表。IV.从这些结果中,我们看到添加与混合达到非常相似的性能(PSNR提高0.06 dB, SSIM降低0.002)。加法是恒权混合的一种特殊情况,实验发现初始值对混合的性能有很大的影响。值得注意的是,我们提出的基于cga的混合融合方案在PSNR和SSIM方面具有最佳性能。

    此外,我们在第1层和第2层部署了特征提取块,以进一步提高性能。通过在级别1和级别2中部署剩余块(RB)(我们将此模型称为模型MS),性能得到了很大的提高(以PSNR计为2.52 dB)。这意味着在高分辨率空间甚至全分辨率空间变换特征都可以修复丢失的信息,这对图像回归至关重要。通过在第1级和第2级部署DEB,我们最终的DEA-Net-S在PSNR方面达到了39.16 dB,在SSIM方面达到了0.9921。后缀“-S”表示模型是用消融研究中的设置进行训练的,这是一个简化版本。对于Model MS和DEA-Net-S, [N1, N2, N3, N4, N5]设为[3,3,6,3,3]。值得一提的是,考虑到模型复杂性和避免复杂的超参数调优(例如,缩减比),我们省略了第1层和第2层的CGA(将DEAB简化为DEB)。

D.与SOTA方法的比较

    在本节中,我们将我们提出的DEA-Net与4种早期的除雾方法(包括DCP[12]、DehazeNet[2]、AOD-Net[3]、GFN[23])和8种最新的(SOTA)单图像除雾方法(包括FFA-Net[5]、MSBDN[10]、DMT-Net[39]、AECR-Net[6]、SGIDPFF[21]、UDN[22]、PMDNet[11]、Dehamer[17])在SOTSIndoor、SOTS-Ourdoor、Haze4K数据集上进行比较。我们报告了三个DEA-Net变体,包括DEA-Net- s与消融研究中的设置(即表中的最终模型)。IV),正常设置的DEA-Net,正常设置的DEA-Net-CR和来自AECR-Net的对比正则化(CR)[6]。DEA-Net-CR与AECR-Net的CR设置相同[6]。请注意,CR不会增加额外的参数和推理时间,因为它可以在测试阶段直接删除。对于其他情况,我们采用官方发布的代码或这些方法的评估结果进行公平比较它们是公开可用的,否则我们会使用相同的训练数据集重新训练它们。

表4  基于cga混合融合方案的消融研究。我们将其与元素加法和混合相比较[6]。所有实验均在sots-indoor[38]数据集上进行。

表5   各种除雾方法对室内、室外、雾霾的定量比较。我们报告psnr、ssim、参数数量(# param .)、浮点操作数量(# flops .)和运行时间,以执行全面的比较。符号“-”表示该数字不可用。加粗和下划线分别表示最好和次好的结果。

图9所示。各种方法在SOTS-indoor合成数据集上的视觉比较[38]。为了看得更清楚,请把屏幕放大。

图10所示。各种方法在SOTS-outdoor合成数据集上的视觉比较[38]。为了看得更清楚,请把屏幕放大。

图11所示。各种方法对真实朦胧图像的去雾效果。为了看得更清楚,请把屏幕放大。

    定量分析。表格。V为我们的DEA-Nets和其他最先进的方法在SOTS[38]和Haze4K[39]上的定量评价结果(PSNR和SSIM指标)。正如我们所看到的,即使我们的DEA-Net-S在SOTSindoor上实现了39.16 dB PSNR和0.9921 SSIM的最佳性能,而不是替代方案。此外,我们的DEA-Net和DEANet-CR大大提高了SOTS-indoor和SOTS-outdoor的性能。在Haze4K数据集上,我们的DEA-Net和DEA-Net- cr达到了最好的SSIM(0.9869和0.9885)。为了与[39]保持一致,我们将结果四舍五入为两位小数。我们的DEA-Net-CR在SOTS和Haze4K的所有比较中排名第一。

     此外,我们采用参数数(# Param.)、浮点运算数(# FLOPs)和运行时间作为计算效率的主要指标。早期的除雾方法包含非常小的参数尺寸,代价是性能下降很大。与最近的SOTA方法相比,我们的DEA-Nets在可接受的# Param下运行速度最快。和# FLOPs。我们的任何一个DEA-Net变体都可以在# Param方面排名第二。和# FLOPs。这意味着我们的DEA-Nets可以在性能和模型复杂性之间取得很好的平衡。请注意,# FLOPs和运行时间是在256 × 256分辨率的彩色图像上测量的。

  定性分析。图9显示了我们的DEA-Net和以前的SOTA方法在合成sots -室内数据集上的视觉比较。我们提出的DEA-Net可以恢复更清晰的轮廓或边缘,并且DEA-Net得到的结果含有更少的雾霾残留。图10为合成SOTSourdoor数据集的视觉对比。我们观察到,在室外场景中,我们的DEA-Net的结果比其他替代方案更接近地面真相。我们还在真实的模糊图像上测试了我们的DEA-Net,并将结果与各种SOTA方法进行了比较。如图所示,其他方法要么保持阴霾加工后的结果或产生颜色偏差和伪影。相反,我们的DEA-Net可以输出更视觉上令人愉悦的除雾效果。

五、结论

    在本文中,我们提出了一个DEA-Net来处理具有挑战性的单幅图像去雾问题。具体来说,我们通过引入差分卷积来设计细节增强卷积(DEConv),将局部描述符整合到正常卷积层中。与普通卷积相比,DEConv具有更强的表示能力和泛化能力。此外,decv可以等效地转换为普通卷积,而不会触发额外的参数和计算成本。然后,我们设计了一个复杂的注意机制,称为内容引导注意(CGA),它为每个通道分配唯一的空间重要性图(SIM)。使用CGA,可以将更多有用的信息编码在特征中。在此基础上,进一步提出了一种融合方案,将编码器部分的底层特征与相应的高层特征有效融合。大量的实验表明,我们的DEA-Net在数量和质量上都达到了最先进的结果。

  • 16
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
dea-net是一种基于细节增强卷积和对比度的单幅图像去雾算法。它的主要目标是提高图像的可视质量,减少雾霾对图像造成的影响。 dea-net算法使用了细节增强卷积和对比度两种技术来去除雾霾,以提高图像的细节信息和对比度。细节增强卷积是通过对图像进行一系列卷积操作,突出图像中的细节信息,从而提高图像的清晰度和细节表现力。而对比度提升则是通过调整图像的亮度和对比度,增强图像的视觉效果。 dea-net算法在去除雾霾的过程中,首先通过细节增强卷积提取图像的细节信息,然后利用对比度提升技术增强图像的对比度。接下来,通过对像素值进行归一化处理来消除雾霾的像素值的弱化效应。最后,再利用细节增强卷积增强图像的细节信息,提高图像的清晰度。 实验结果表明,dea-net算法在单幅图像去雾方面取得了较好的效果。与其他算法相比,在恢复图像的细节和对比度方面具有明显的优势。该算法能够有效地去除雾霾并恢复图像的清晰度和细节,提高图像的可视质量。 总结而言,dea-net是一种基于细节增强卷积和对比度的单幅图像去雾算法,通过提取细节信息和增强对比度的方式,有效地去除雾霾,提高图像的清晰度和细节表现力。该算法在图像去雾方面具有较好的效果,对于提升图像的可视质量具有重要的应用价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值