DEA-Net: Single image dehazing based ondetail-enhanced convolution and content-guidedattention

摘要——单图像去雾是一个具有挑战性的不适定问题,它从观察到的模糊图像中估计潜在的无雾图像。一些现有的基于深度学习的方法致力于通过增加卷积的深度或宽度来提高模型性能。卷积神经网络(CNN)结构的学习能力仍然没有得到充分的探索。本文提出了一种由细节增强卷积(DEConv)和内容引导注意力(CGA)组成的细节增强注意力块(DEAB),以促进特征学习,提高去雾性能。具体而言,DEConv将先验信息集成到普通卷积层中,以增强表示和泛化能力。然后,通过使用重新参数化技术,将DEConv等效地转换为vanilla卷积,不需要额外的参数和计算成本。通过为每个通道分配唯一的空间重要性图(SIM),CGA可以处理编码在特征中的更有用的信息。此外,提出了一种基于CGAbased的混合融合方案,以有效地融合特征并帮助梯度流。通过结合上述组件,我们提出了用于恢复高质量无雾图像的细节增强注意力网络(DEA Net)。大量的实验结果证明了我们的DEA Net的有效性,它仅用3.653M的参数就将PSNR指数提高到41dB以上,优于最先进的(SOTA)方法。我们的DEA网络的源代码将在https://github.com/cecret3350/DEA-Net.

在模糊场景下拍摄的图像通常会出现明显的对比度或颜色失真的视觉质量下降[1],导致在输入一些高级视觉任务(例如,对象检测、语义分割)时性能显著下降。在这些任务中,对无雾图像的要求很高。因此,单图像去雾,旨在从相应的朦胧图像中恢复干净的场景,在过去的十年里引起了学术界和工业界的极大关注。图像去雾作为一项基本的低级图像恢复任务,可以作为后续高级视觉任务的预处理步骤,在这篇文章中我们开发一种有效的算法来去除模糊并从模糊输入中恢复细节。最近,随着深度学习的快速发展,基于卷积神经网络(CNN)的去雾方法取得了优异的性能[2]-[6]。早期基于CNN的方法[2]、[7]、[8]首先分别估计透射图和大气光,然后利用大气散射模型(ASM)[9]来导出hazefree图像。通常,传输图由用于合成训练数据集的地面实况进行监督。然而,对透射图或大气光的不准确估计将显著影响图像恢复结果。最近,一些方法[6]、[10]、[11]倾向于以端到端的方式预测潜在的无雾图像,因为它往往会获得有希望的结果。

然而,仍然存在两个主要问题:

Less effectiveness ofvanilla convolution.先前的工作[12]-[14]证明,设计良好的先验,如暗通道先验[12]、[15]、非局部雾线先验[13]和颜色衰减先验[14],有助于恢复丢失的信息。大多数现有的去雾方法[5]、[6]、[16]采用经典的卷积层进行特征提取,而不使用这些先验。然而vanilla卷积在没有任何约束的情况下搜索广阔的解空间,在某种程度上可能会限制表达能力(或建模能力),此外,一些基于变换器的方法[17]将感受野扩展到整个图像,以挖掘长距离相关性。它们可以以复杂的训练策略和繁琐的超参数调整为代价来增强表达能力(或建模能力)。此外,高昂的计算成本和巨大的GPU内存占用也不容忽视。在这方面,理想的解决方案是将精心设计的先验嵌入到CNN中,以提高特征学习能力。

Haze non-uniformity. 除雾问题存在两种不均匀性:图像级的雾度分布不均匀和特征级的通道雾度差异。为了应对第一种情况,Qin等人[5]采用像素注意力(即空间注意力)来生成空间重要性图(SIM),该图可以自适应地指示不同像素位置的重要性水平。通过这种判别策略,FFA-Net模型对薄雾区和厚雾区进行了不均衡处理。类似地,Ye等人[11]试图通过密度估计模块对雾度分布的密度进行建模,这本质上也是一种空间关注。然而,研究者很少注意到特征层次的不一致性,这一点还有待于开发。[5]中使用的通道注意力可以产生一个通道注意力向量来指示每个通道的重要性水平,而没有考虑空间维度上的上下文信息。在应用卷积层之后,雾度信息被编码到特征图中。根据应用的过滤器的作用,特征空间中的不同通道具有不同的含义。在这方面,我们认为空间重要性图应该是特定于通道的,并同时考虑两种非均匀性(图像级别和特征级别)。为了解决上述问题,我们设计了一个细节增强注意力块(DEAB),它由细节增强卷积(DEConv)和内容引导注意力(CGA)机制组成。DEConv包含五个卷积层(四个差分卷积[18]和一个香草卷积),它们被并行部署用于特征提取。具体而言,采用中心差卷积(CDC)、角差卷积(ADC)、水平差卷积(HDC)和垂直差卷积(VDC)将传统的局部描述符集成到卷积层中,从而提高了表示和泛化能力。在差分卷积中,首先计算图像中的像素差,然后与卷积核进行卷积以生成输出特征图。像素对差分计算策略可以设计为将先验信息显式地编码到CNN中。例如,HDC和VDC通过学习有益的梯度信息将梯度先验明确地编码到卷积层中。

此外,复杂的注意力机制(即CGA)是一个两步注意力生成器,它可以首先生成粗略的空间注意力图,然后对其进行细化到精细版本。具体而言,在给定某些输入特征图的情况下,我们利用[19]中提出的空间注意力机制和[20]中提出的通道注意力来生成初始SIM(即粗略版本)。然后,根据输入特征图的每个通道对初始SIM进行细化,以产生最终SIM。通过使用输入特征的内容来指导SIM的生成,CGA可以关注每个通道中特征的唯一部分。值得一提的是,CGA作为一种通用的基本块,可以插入神经网络,以提高在各种图像恢复任务中的性能。

除了上述改进之外,我们还对并行卷积的学习核权重进行了重新参数化,以减少参数数量并加快测试过程的训练。通过对核权重施加一些约束并利用卷积层的线性特性,将五个并行卷积简化为一个普通卷积层。因此,所提出的DEConv可以提取丰富的特征,以提高去雾性能,同时保持参数数量和计算成本与香草卷积相等。图1显示了我们的方法的效率和有效性。

继[6]、[10]、[21]、[22]之后,我们还采用了一个类似U-网的框架来在低分辨率空间中进行主要耗时的卷积计算。其中,浅层特征和深层特征的融合被广泛使用。特征融合可以增强从浅层到深层的信息流,这对于特征保持和梯度反向传播是有效的。浅层特征中编码的信息与深层特征中的信息有很大不同,因为感受野不同。深层特征中的单个像素源自浅层特征中的像素区域。简单的相加或串联操作无法解决感受野失配问题。我们进一步提出了一种基于CGA的混合方案,通过通过学习的空间权重调制特征,自适应地将编码器部分中的低级特征与相应的高级特征融合。

我们提出的方法如图2所示。通过引入具有细节增强卷积和内容引导注意力的细节增强注意力块(DEAB),我们将所提出的单图像去雾模型称为DEA Net。

最后,我们有以下主要贡献:

我们设计了一个细节增强卷积(DEConv),它包含并行香草卷积和差分卷积。据我们所知,这是第一次引入差分卷积来解决图像去雾问题。通过将先验信息编码到普通卷积层,增强了DEConv的表示和泛化能力,提高了去雾性能。此外,我们通过使用重新参数化技术,将DEConv等效地转换为没有额外参数和计算成本的正常卷积。

我们提出了一种新的注意力机制,称为内容引导注意力(CGA),以从粗到细的方式生成特定于信道的SIM。通过使用输入特征为了指导SIM的生成,CGA为每个通道分配唯一的SIM,使模型关注每个通道的重要区域。因此,可以强调在特征中编码的更有用的信息,以有效地提高性能。此外,提出了一种基于CGAbased的混合融合方案,以有效地将编码器部分的低级特征与相应的高级特征融合。

通过将DEConv和CGA相结合,并使用基于CGA的混合融合方案,我们提出了用于重建高质量无雾图像的细节增强注意力网络(DEA Net)。DEA Net在多个基准数据集上显示出优于最先进的去雾方法的性能,以更快的推理速度获得更准确的结果。

II. RELATED WORK

A. Single Image Dehazing

对于单图像去雾,现有的方法主要可以分为两类。一种是手动将模糊图像和无模糊图像之间的统计差异概括为经验先验。另一种是基于大规模数据集直接或间接学习映射函数。我们通常将前者称为基于先验的方法,将后者称为数据驱动的方法。基于先验的方法是图像去雾的先驱。它们通常依赖于大气散射模型(ASM)[9]和手工先验。广泛已知的先验包括暗通道先验(DCP)[12]、[15]、非局部先验(NLP)[13]、颜色衰减先验(CAP)[14]等。He等人[12],[15]基于一个关键观察提出了DCP——无雾室外图像中的大多数局部斑块包含一些像素,这些像素在至少一个颜色通道中具有非常低的强度,这有助于估计传输图。CAP[14]从HSV颜色模型开始,建立了深度与亮度和饱和度差之间的线性关系。Berman等人[13]发现,当雾出现时,无雾图像的像素簇将变成雾线。这些基于现有技术的方法已经获得了有希望的除雾结果。然而,它们往往只在恰好满足其假设的特定场景中才能很好地工作。最近,随着深度学习的兴起,研究人员将注意力集中在数据驱动的方法上,因为它们可以获得更好的性能。早期的数据驱动方法通常基于物理模型执行去雾。例如,DehazeNet[2]和MSCNN[7]利用CNN来估计传输图。然后,AOD-Net[3]重写ASM并估计大气光和透射图。稍后,DCPDN[8]通过两个不同的网络估计传输图和大气光。然而,由于对透射图和大气光的不准确估计而引入的累积误差可能会导致性能下降。

为了避免这种情况,最近的工作倾向于在没有物理模型帮助的情况下直接从模糊图像中恢复模糊图像。GFN[23]对来自原始模糊输入的三个增强图像进行门控和融合,以生成无模糊图像。GridDehazeNet[24]利用基于三阶段注意力的网格网络来恢复无雾图像。MSBDN[10]利用增强策略和反投影技术来增强特征融合。FFA-Net[5]将特征注意机制(FAM)引入到去雾网络中,以处理不同类型的信息。AECR-Net[6]重用了特征注意力块(FAB)[5],并提出了一种新的对比正则化方法,该方法既有利于正样本,也有利于负样本。UDN[22]分析了图像去雾中的两种不确定性,并利用它们来提高去雾性能。PMDNet[11]和Dehamer[17]采用transformer建立长程依赖关系,并在雾度密度的指导下进行除雾。然而,随着数据驱动方法的发展和去雾性能的提高,去雾网络的复杂性也在增加。与以往的工作不同,我们重新思考了vanilla卷积在图像去雾中的不足,并通过将精心设计的先验与CNN相结合来设计一种新的卷积算子,以提高特征学习能力。我们还深入挖掘了特征层面上未开发的雾度不均匀性。

B. Difference Convolution

差异卷积的起源可以追溯到局部二进制模式(LBP)[25],该模式将局部补丁中的像素差异编码为十进制数,用于纹理分类。自从细胞神经网络在计算机视觉任务中取得成功以来,Xu等人[26]提出了局部二进制卷积(LBC),该方法通过使用非线性激活函数和线性卷积层对像素差异进行编码。最近,Yu等人[27]提出了中心差分卷积(CDC),以完全可学习的权重直接对像素差分进行编码。后来,人们提出了各种形式的差卷积,如跨中心差卷积[28]和像素差卷积[29]。考虑到差分卷积用于捕获梯度级信息的性质,我们首先将其引入到单图像去雾中,以提高性能。

III. METHODOLOGY

如图2所示,我们的DEA-Net由三部分组成:编码部分、特征变换部分和解码部分。特征变换部分作为DEA-Net的核心,采用堆叠细节增强注意力块(DEAB)学习无雾霾特征。在层次结构中有三个层次,我们在不同的层次上使用不同的块来提取相应的特征(级别1和2:DEB,级别3:DEAB)。在给定模糊输入图像I∈R3×H×W的情况下,分析网络的目标是恢复对应的无雾霾图像J∈R3×H×W

A. Detail-enhanced Convolution 

在单图像去雾域中,以前的方法[5]、[6]、[16]通常使用vanilla卷积(VC)层进行特征提取和学习。普通卷积层在没有任何约束的情况下(甚至从随机初始化开始)搜索广阔的解空间,限制了表达能力或建模能力。然后我们注意到,高频信息(例如,边缘和轮廓)对于恢复在模糊场景下捕获的图像具有重要意义。基于此,一些研究人员[8]、[21]、[30]在去雾模型中采用了边缘先验来帮助恢复更清晰的轮廓。受他们工作[8]、[30]的启发,我们设计了一个细节增强卷积(DEConv)层(见图3),它可以将精心设计的先验集成到普通卷积层中。在详细阐述所提出的DEConv之前,我们首先回顾一下差分卷积(DC)。先前的工作[27]–[29],[31]通常将差分卷积描述为像素差的卷积(首先计算像素差,然后与核权重进行卷积以生成特征图),这可以增强vanilla卷积的表示和泛化能力。中心差卷积(CDC)和角差卷积(ADC)是两种典型的DC,通过重新排列学习的核权重来实现,以节省计算成本和内存消耗[29]。它被证明对边缘检测[29]和人脸反欺骗任务[27],[28],[31]是有效的。据我们所知,这是我们第一次引入DC来解决单图像去雾问题。中心差卷积(CDC)和角差卷积(ADC)是两种典型的DC,通过重新排列学习的核权重来实现,以节省计算成本和内存消耗[29]。它被证明对边缘检测[29]和人脸反欺骗任务[27],[28],[31]是有效的。据我们所知,这是我们第一次引入DC来解决单图像去雾问题。Sobel[32]、Prewitt[33]和Scharr[34]的水平核可以是视为等价核的特例。VDC通过将水平梯度改变为相应的垂直梯度而具有类似的推导。HDC和VDC都将梯度先验显式编码到卷积层中,以通过学习有益的梯度信息来增强表示和泛化能力。

在我们的设计中,vanilla卷积用于获得强度水平信息,而差分卷积用于增强梯度水平信息。我们只需将学习到的特征添加在一起即可获得DEConv的输出。我们相信,更复杂的像素差计算方法设计可以进一步有利于图像恢复任务,这不是本文的主要方向。

然而,部署五个并行卷积层用于特征提取将不希望地导致参数和推理时间的增加。我们试图利用卷积层的可加性,将并行部署的卷积简化为单个标准卷积。我们注意到卷积的一个有用性质:如果具有相同大小的几个2D核以相同的步长和填充对相同的输入进行操作以产生输出,并且将它们的输出相加以获得最终输出,则我们可以将这些核在相应位置上相加以获得等效核,该等效核将产生相同的最终输出。令人惊讶的是,我们的DEConv正好符合这种情况。给定输入特征Fin,DEConv可以利用重新参数化技术以相同的计算成本和推理时间将Fout输出到普通卷积层。公式如下(为了简化,省略了偏差)。

直观地展示了重新参数化技术的过程。在反向传播阶段,使用梯度传播的链式规则分别更新五个并行卷积的核权重。在正向传播中,并行卷积的核权重是固定的,并且通过将它们在相应位置上相加来计算转换后的核权重。请注意,重新参数化技术可以同时加速训练和测试过程,因为它们都包含前向传播阶段。与普通卷积层相比,所提出的DEConv可以在保持参数大小的同时提取更丰富的特征,并且在推理阶段不引入额外的计算成本和内存负担。关于DEConv的更多讨论可以在第IV-C1节中找到。

 B. Content-guided Attention

特征注意力模块(FAM)由通道注意力和空间注意力组成,它们依次放置以计算通道和空间维度上的注意力权重。通道注意力计算一个通道向量,即Wc∈RC×1×1,以重新校准特征。空间注意力计算空间重要性图(SIM),即Ws∈RH×W,以自适应地指示不同区域的重要性水平。FAM对不同通道和像素一视同仁,提高了去雾性能。

然而,FAM内部的空间注意力只能解决图像水平上雾度分布的不均匀性,而忽略了特征水平上的不均匀分布。FAM内部的渠道注意力在不考虑上下文信息的情况下对渠道差异进行建模。随着特征通道的扩展,图像级雾度分布信息被编码到特征图中。根据应用的过滤器的作用,特征空间中的不同通道具有不同的含义。这意味着,对于每一个特征通道,雾度信息在空间维度上的分布都不均匀。在这种情况下,需要特定于信道的SIM。此外,FAM的另一个问题是,这两个注意力权重之间没有信息交换。依次计算Wc和Ws,并分别增强特征。

为了充分解决上述问题,我们提出了一种内容引导注意力(CGA),以粗到细的方式获得每一个输入特征通道的唯一SIM,同时充分混合通道注意力权重和空间注意力权重,以保证信息交互。CGA的详细程序如图6所示。

CGA为每个通道分配唯一的SIM,引导模型关注每个通道的重要区域。因此,可以强调在特征中编码的更有用的信息,以有效地提高去雾性能。如图的右侧部分所示。2,将所提出的DEConv与CGA相结合,我们提出了我们的DEA网的主要块,即细节增强注意力块(DEAB)。通过去除CGA部分,我们获得了细节增强块(DEB)。

C. CGA-based Mixup Fusion Scheme

在[6]、[10]、[21]、[22]之后,我们将类似编码器(或U-Net)的架构用于我们的DEA Net。我们观察到,将编码器部分的特征与解码器部分的特征融合在去雾和其他低级视觉任务[6],[10],[36],[37]中是一种有效的技巧。低级别特征(例如,边缘和轮廓)在恢复无雾图像方面具有不可忽视的作用,在穿过许多中间层后逐渐失去其影响。特征融合可以增强信息从浅层到深层的流动,有利于特征的保存和梯度反向传播。融合的最简单方法是元素相加,这在许多以前的方法[10]、[11]、[21]中都采用了。后来,Wu等人[6]应用自适应混合运算,通过自学习权重来调整融合比例,这比加法更灵活。

然而,在上述融合方案中存在感受野失配问题。浅层特征中编码的信息与深层特征中的信息有着巨大的不同,因为它们具有完全不同的感受野。深层特征中的单个像素源自浅层特征中的像素区域。简单的相加或串联操作或混合操作无法解决融合前的不匹配问题。

为了缓解这个问题,我们进一步提出了一种基于CGA的混合方案,通过经由学习的空间权重调制特征,自适应地将编码器部分中的低级特征与相应的高级特征融合。图图2(d)显示了所提出的基于CGA的混合融合方案的细节。核心部分是我们选择使用CGA来计算特征调制的空间权重。编码器部分中的低级特征和相应的高级特征被馈送到CGA中以计算权重,然后通过加权求和方法进行组合。我们还通过跳跃连接添加输入特征,以缓解梯度消失问题,简化学习过程。最后,通过1×1卷积层对融合的特征进行投影,以获得最终特征(即Ffuse)。关于基于CGA的混合融合方案的更多讨论可以在第IV-C3节中找到。

D. Overall Architecture

通过将(1)DEConv、(2)CGA和(3)基于CGA的混合融合方案结合在一起,我们提出了以DEAB和DEB为基本块的DEA Net。如图2所示,我们的DEA Net是一个三级编码器-解码器类(或UNet类)架构,由三部分组成:编码器部分、特征变换部分和解码器部分。在我们的DEA网络中有两个下采样操作和两个上采样操作。下采样操作将空间维度减半,通道数量加倍。通过将步幅的值设置为2,并将输出通道的数量设置为输入通道的2倍,通过普通卷积层来实现。上采样操作可以被视为下采样操作的相反形式,下采样操作是通过反褶积层实现的。级别1、级别2和级别3的尺寸分别为C×H×W、2C×H 2×W 2和4C×H 4×W 4。在我们的实现中,我们将C的值设置为32。先前的方法[6]、[22]仅在低分辨率空间中变换特征,导致信息丢失,这对于去雾等细节敏感任务来说是不平凡的。不同的是,我们部署了从级别1到级别3的特征提取块。具体来说,我们选择在不同级别使用不同的块(级别1和2:DEB,级别3:DEAB)。对于特征融合,我们融合了下采样操作后的特征和上采样操作前的相应特征(图中用绿色箭头线突出显示)。2)。最后,我们简单地在末端使用3×3卷积层来获得去雾结果J。通过最小化预测的无雾图像J和相应的地面实况GT之间的逐像素差异来训练DEA网络。在我们的实现中,我们选择L1损失函数(即平均绝对误差)来驱动训练。

IV. EXPERIMENT

A. Datasets and Metrics

在我们的实现中,我们在合成和真实捕获的数据集上训练和测试我们提出的DEA Net。真实感单图像去雾(RESIDE)[38]是一个广泛使用的数据集,包含五个子集:室内训练集(ITS)、室外训练集(OTS)、合成目标测试集(SOTS)、真实世界任务驱动测试集(RTTS)和混合主观测试集(HSTS)。我们在训练阶段选择ITS和OTS,在测试阶段选择SOTS。注意,SOTS分为两个子集(即室内SOTS和室外SOTS),用于评估分别在ITS和OTS上训练的模型。ITS包含1399幅室内清洁图像,每幅清洁图像基于物理散射模型生成10幅模拟朦胧图像。至于OTS,我们为训练过程2挑选了大约296K张图像。SOTS室内和SOTS室外分别包含500个室内和500个室外测试图像。此外,Haze4K数据集[39],其中包含3000个合成训练图像和1000个合成测试图像,也用于评估我们的DEA网络。此外,还利用一些真实拍摄的朦胧图像进一步验证了其在真实场景中的有效性。

Evaluation Metrics

峰值信噪比(PSNR)和结构相似性指数(SSIM)[40]通常用于测量计算机视觉社区中的图像质量,用于去雾性能评估。为了进行公平的比较,我们基于RGB彩色图像计算度量,而不裁剪像素

B. Implementation Details

我们在PyTorch深度学习平台上用单个NVIDIA RTX3080Ti GPU实现了所提出的DEA Net模型。我们分别在级别1、级别2和级别3中部署DEB、DEB和DEAB。部署在不同阶段[N1、N2、N3、N4、N5]上的块的数量设置为[4、4、8、4、4]。DEA Net使用Adam[41]优化器进行优化,β1、β2、ε设置为默认值,即0.9、0.999、1e−8。此外,初始学习率和批量大小分别设置为1e−4和16。采用余弦退火策略[42]将学习率从初始值调整为1e−6。为了训练模型,我们从大小为256×256的原始图像中随机裁剪块,然后采用两种数据增强技术,包括:90◦ 或180◦ 或270◦ 旋转和垂直或水平翻转。在整个训练阶段,模型被训练了1500K次迭代,在ITS上训练我们的DEA网大约需要5天时间。

C. Ablation Study

为了证明我们提出的DEANet的有效性,我们研究了(1)细节增强卷积(DEConv)、(2)内容引导注意力(CGA)和(3)基于CGA的混合融合方案的设计和效果。通过消融实验分析每个部件的贡献。

......

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值