DEA-Net（2024 SCI 1区）

刘若里

于 2025-02-05 18:09:46 发布

阅读量889

点赞数 25

分类专栏：论文阅读文章标签：网络学习笔记计算机视觉人工智能

本文链接：https://blog.csdn.net/Liuruoli4878/article/details/145459067

版权

DEA-Net：基于细节增强卷积和内容引导注意力的单图像去雾技术

摘要

单图像去雾是一个具有挑战性的不适定问题，它从观测到的雾图像中估计潜在的无雾图像。一些现有的基于深度学习的方法致力于通过增加卷积的深度或宽度来提高模型性能。卷积神经网络（CNN）结构的学习能力仍然未被充分探索。在本文中，我们提出了一个由细节增强卷积（DEConv，detail-enhanced convolution）和内容引导注意力（CGA，content-guided attention）组成的细节增强注意力块（DEAB），以增强特征学习，提高去雾性能。具体来说，DEConv（工作原理）将先验信息整合到普通卷积层中，以增强表示和泛化能力。然后，通过使用重新参数化技术，DEConv可以等价地转换为一个没有额外参数和计算成本的普通卷积。通过为每个通道分配独特的空间重要性图（SIM），CGA（工作原理）可以关注特征中编码的更有用的信息。此外，我们提出了一种基于CGA的mixup融合方案，有效地融合特征并辅助梯度流动。通过结合上述组件，我们提出了我们的细节增强注意力网络（DEA-Net），用于恢复高质量的无雾图像。广泛的实验结果证明了我们DEA-Net的有效性，通过将峰值信噪比（PSNR）指数提高到41 dB以上，仅用3.653 M参数就超越了最先进的（SOTA）方法。

Introduction

在雾天场景下拍摄的图像通常会遭受明显的视觉效果降低，如对比度或颜色失真[1]，这会导致在输入到一些高级视觉任务（例如，目标检测、语义分割）时性能显著下降。在这些任务中，对无雾图像的需求或要求非常高。因此，单图像去雾，旨在从相应的雾图像中恢复清晰场景，在过去十年中已经引起了学术界和工业界的广泛关注。作为一项基础的低级图像恢复任务，图像去雾可以是后续高级视觉任务的预处理步骤。在本文中，我们尝试开发一种有效的算法来去除雾气并从雾蒙蒙的输入图像中恢复细节。

最近，随着深度学习的快速发展，基于卷积神经网络（CNN）的去雾方法取得了优异的性能[2]-[6]。早期基于CNN的方法[2]、[7]、[8]首先分别估计透射图和大气光，然后利用大气散射模型（ASM）[9]来推导无雾图像。通常，透射图由真实值监督，用于合成训练数据集。然而，透射图或大气光的不准确估计将显著影响图像恢复结果。最近，一些方法[6]、[10]、[11]更倾向于以端到端的方式预测潜在的无雾图像，因为这倾向于取得有希望的结果。然而，仍然存在两个主要问题：

(1) 普通卷积的效率较低。先前的工作[12]-[14]证明，像暗通道先验[12]、[15]、非局部雾线先验[13]和颜色衰减先验[14]这样精心设计的先验对于恢复缺失信息是有帮助的。大多数现有的去雾方法[5]、[6]、[16]采用经典的卷积层进行特征提取，而没有利用这些先验。然而，普通卷积在没有任何约束的情况下搜索庞大的解决方案空间，这在某种程度上可能会限制其表达能力（或建模能力）。此外，一些基于Transformer的方法[17]将接受域扩展到整个图像，以挖掘长距离依赖性。它们可以以复杂的训练策略和繁琐的超参数调整为代价，增强表达能力（或建模能力）。同时，不可忽视的计算成本高和大量的GPU内存占用。在这方面，理想的解决方案是将精心设计的先验嵌入CNN中，以提高特征学习能力。

(2) 雾的非均匀性。在去雾问题中存在两种非均匀性：图像级别的不均匀雾分布和特征级别的通道间雾差异。为了应对第一种情况，秦等人[5]采用了像素注意力（即空间注意力）来生成空间重要性图（SIM），它可以自适应地指示不同像素位置的重要性水平。通过这种区分性策略，FFA-Net模型对薄雾和厚雾区域进行了不平等的处理。同样，叶等人[11]尝试通过密度估计模块来模拟雾分布的密度，这本质上也是一种空间注意力。然而，很少有研究者关注到特征级别上的非均匀性，这仍然是一个未被开发的问题。在[5]中使用的通道注意力可以产生一个通道级别的注意力向量来指示每个通道的重要性水平，但这没有考虑到空间维度中的上下文信息。雾信息在应用卷积层后被编码到特征图中。特征空间中不同通道具有不同的含义，这取决于应用的滤波器的作用。在这方面，我们认为空间重要性图应该是通道特定的，并同时考虑两种非均匀性（图像级别和特征级别）。

为了解决上述问题，我们设计了一个细节增强注意力块（DEAB），它由细节增强卷积（DEConv）和内容引导注意力（CGA）机制组成。DEConv包含五个卷积层（四个差分卷积[18]和一个普通卷积），它们并行部署用于特征提取。具体来说，采用了中心差分卷积（CDC）、角度差分卷积（ADC）、水平差分卷积（HDC）和垂直差分卷积（VDC），将传统的局部描述符整合到卷积层中，从而增强了表示和泛化能力。在差分卷积中，首先计算图像中的像素差异，然后与卷积核卷积以生成输出特征图。像素对差异计算的策略可以设计为明确地将先验信息编码到CNN中。例如，HDC和VDC通过学习有益的梯度信息，明确地将梯度先验编码到卷积层中。

此外，精细的注意力机制（即CGA）是一个两步注意力生成器，它首先可以产生粗略的空间注意力图，然后将其细化为精细版本。具体来说，给定某些输入特征图，我们利用[19]中提出的空间注意力机制和[20]中提出的通道注意力来生成初始SIMs（即粗略版本）。然后，根据输入特征图的每个通道对初始SIMs进行细化，以产生最终的SIMs。通过使用输入特征的内容来指导SIMs的生成，CGA可以专注于每个通道中特征的独特部分。值得一提的是，CGA作为一个通用的基本块，可以插入到神经网络中，以提高各种图像恢复任务的性能。

除了上述改进之外，我们对并行卷积学习到的核权重进行重新参数化，以减少参数数量并加速训练和测试过程。通过对核权重施加一些约束并利用卷积层的线性属性，五个并行卷积被简化为一个普通卷积层。因此，所提出的DEConv可以在保持参数数量和计算成本与普通卷积相等的同时，提取丰富的特征以提高去雾性能。图1展示了我们方法的效率和有效性。

遵循[6]、[10]、[21]、[22]的研究，我们也采用了类似U-net的框架，以在低分辨率空间进行主要的耗时卷积计算。其中，浅层和深层特征的融合被广泛使用。特征融合可以增强从浅层到深层的信息流动，这对于特征保留和梯度反向传播是有效的。浅层特征中编码的信息与深层特征中编码的信息截然不同，因为它们具有不同的接受域。深层特征中的一个单一像素来源于浅层特征中的一个像素区域。简单的加法或连接操作无法解决接受域不匹配的问题。我们进一步提出了一种基于CGA的mixup方案，通过学习到的空间权重调节特征，自适应地将编码器部分的低级特征与相应的高级特征融合。

我们提出的方法是图2所示。我们将引入细节增强注意力块（DEAB）的单图像去雾模型命名为DEA-Net，该模型结合了细节增强卷积和内容引导注意力。

最后，我们有以下主要贡献：

我们设计了一个细节增强卷积（DEConv），它包含并行的普通卷积和差分卷积。据我们所知，这是第一次引入差分卷积来解决图像去雾问题。通过将先验信息编码到普通卷积层中，DEConv的表示和泛化能力得到了增强，以提高去雾性能。此外，我们通过使用重新参数化技术，将DEConv等价地转换为一个普通卷积，而不需要额外的参数和计算成本。
我们提出了一种新颖的注意力机制，称为内容引导注意力（CGA），以粗到细的方式生成特定于通道的空间重要性图（SIMs）。通过使用输入特征来指导SIMs的生成，CGA为每个通道分配独特的SIM，使模型能够关注每个通道的重要区域。因此，可以强调特征中编码的更多有用信息，以有效提高性能。此外，还提出了一种基于CGA的mixup融合方案，有效地将编码器部分的低级特征与相应的高级特征融合。
通过结合DEConv和CGA，并使用基于CGA的mixup融合方案，我们提出了我们的细节增强注意力网络（DEA-Net），用于重建高质量的无雾图像。DEA-Net在多个基准数据集上展示了超越现有去雾方法的卓越性能，实现了更准确的结果和更快的推理速度。

本文的其余部分组织如下。我们首先在第二节回顾了一些基于深度学习的去雾方法。第三节详细描述了所提出的EDA-Net模型，第四节展示了实验结果。最后，第五节对本文进行了总结。

Single Image Dehazing

对于单图像去雾，现有方法主要可以分为两类。一种是手动概括雾图像和无雾图像之间的统计差异作为经验先验。另一种旨在直接或间接地基于大规模数据集学习映射函数。我们通常将前者称为基于先验的方法，后者称为数据驱动的方法。

基于先验的方法是图像去雾的先驱。它们通常依赖于大气散射模型（ASM）[9]和手工制作的先验。广为人知的先验包括暗通道先验（DCP）[12]、[15]、非局部先验（NLP）[13]、颜色衰减先验（CAP）[14]等。何等人[12]、[15]基于一个关键观察提出了DCP——大多数无雾室外图像中的局部区域包含至少在一个颜色通道中具有非常低强度的像素，这有助于估计透射图。CAP[14]从HSV颜色模型出发，建立了深度与亮度和饱和度差异之间的线性关系。伯曼等人[13]发现，无雾图像中的像素簇在雾出现时会变成雾线。这些基于先验的方法已经取得了有希望的去雾结果。然而，它们往往只在特定的场景中表现良好，这些场景恰好满足它们的假设。

最近，随着深度学习的兴起，研究人员专注于数据驱动的方法，因为它们可以实现更好的性能。早期的数据驱动方法通常基于物理模型进行去雾。例如，DehazeNet [2] 和 MSCNN [7] 利用CNN来估计透射图。然后，AOD-Net [3] 重写ASM并同时估计大气光和透射图。后来，DCPDN [8] 通过两个不同的网络估计透射图和大气光。然而，由于透射图和大气光估计不准确而引入的累积误差可能会导致性能下降。

为了避免这种情况，更近期的工作倾向于直接从雾图像恢复无雾图像，而不借助物理模型的帮助。GFN [23] 通过门控和融合三个从原始雾输入增强的图像来生成无雾图像。GridDehazeNet [24] 利用一个基于三阶段注意力的网格网络来恢复无雾图像。MSBDN [10] 利用提升策略和反向投影技术来增强特征融合。FFA-Net [5] 引入了特征注意力机制（FAM）到去雾网络中，以处理不同类型的信息。AECR-Net [6] 重用了特征注意力块（FAB）[5]，并提出了一种新的对比正则化，它可以从正样本和负样本中受益。UDN [22] 分析了图像去雾中的两种不确定性，并利用它们来提高去雾性能。PMDNet [11] 和 Dehamer [17] 采用变换器来构建长距离依赖，并在雾密度的指导下进行去雾。然而，随着数据驱动方法的发展和去雾性能的提高，去雾网络的复杂性也在增加。与以往的工作不同，我们重新思考了普通卷积在图像去雾中的不足，并设计了一种新的卷积运算符，通过将精心设计的先验结合到CNN中来提高特征学习能力。我们还更深入地挖掘了特征级别上未被利用的雾的非均匀性。

Difference Convolution

差分卷积的起源可以追溯到局部二值模式（LBP）[25]，它将局部区域内的像素差异编码为一个十进制数，用于纹理分类。自从CNN在计算机视觉任务中取得成功以来，徐等人[26]提出了局部二值卷积（LBC），它通过使用非线性激活函数和线性卷积层来编码像素差异。最近，余等人[27]提出了中心差分卷积（CDC），直接使用完全可学习的权重来编码像素差异。后来，提出了各种形式的差分卷积，如交叉中心差分卷积[28]和像素差异卷积[29]。考虑到差分卷积在捕获梯度级信息方面的特性，我们首次将其引入到单图像去雾中，以提高性能。

Methodology

如图2所示，我们的DEA-Net由三部分组成：编码器部分、特征转换部分和解码器部分。作为我们DEA-Net的核心，特征转换部分采用了堆叠的细节增强注意力块（DEABs）来学习无雾特征。在层次结构中有三级，我们在不同级别采用不同的块来提取相应的特征（第1和2级：DEB，第3级：DEAB）。给定一个雾输入图像 $(I\in\mathbb{R}^{3\times H\times W})$ ，DEA-Net的目标是恢复相应的无雾图像 $(J\in\mathbb{R}^{3\times H\times W})$ 。

Detail-enhanced Convolution

细节增强卷积

在单图像去雾领域，先前的方法[5]、[6]、[16]通常使用普通卷积（VC）层进行特征提取和学习。普通的卷积层在没有任何约束的情况下（甚至从随机初始化开始）搜索庞大的解决方案空间，这限制了其表达能力或建模能力。然后我们注意到，在恢复雾天场景下捕获的图像时，高频信息（例如，边缘和轮廓）具有重要意义。基于此，一些研究人员[8]、[21]、[30]在去雾模型中采用了边缘先验来帮助恢复更清晰的轮廓。受到他们的作品[8]、[30]的启发，我们设计了一个细节增强卷积（DEConv）层（见图3），它可以将精心设计的先验整合到普通卷积层中（Why?）。

在详细阐述所提出的DEConv之前，我们首先回顾差分卷积（DC）。先前的工作[27]-[29]、[31]通常将差分卷积描述为像素差异的卷积（首先计算像素差异，然后与核权重卷积以生成特征图），这可以增强普通卷积的表示和泛化能力（Function）。中心差分卷积（CDC）和角度差分卷积（ADC）是两种典型的DC，通过重新排列学习到的核权重来节省计算成本和内存消耗[29]。它被证明对边缘检测[29]和面部反欺骗任务[27]、[28]、[31]有效。据我们所知，这是我们第一次引入DC来解决单图像去雾问题。

在我们的实现中，我们采用了五个卷积层（四个差分卷积[18]和一个普通卷积），它们并行部署用于特征提取（What?）。在差分卷积中，像素对差异计算的策略目的是明确地将先验信息编码到CNN中。对于我们的DEConv，除了中心差分卷积（CDC）和角度差分卷积（ADC），我们推导出水平差分卷积（HDC）和垂直差分卷积（VDC），将传统的局部描述符（如Sobel[32]、Prewitt[33]或Scharr[34]）整合到卷积层中。如图4所示，以HDC为例，首先通过计算选定像素对的差异来计算水平梯度。训练后，我们重新排列学习到的核权重，直接对未修改的输入特征应用卷积。注意，等效核具有与传统局部描述符相似的格式（水平权重之和等于零）。Sobel[32]、Prewitt[33]和Scharr[34]的水平核可以被视为等效核的特殊情况。VDC通过将水平梯度更改为相应的垂直对应物来得出类似的推导。HDC和VDC都明确地将梯度先验编码到卷积层中，通过学习有益的梯度信息来增强表示和泛化能力（Function）。

在我们的设计中，普通卷积用于获取强度级信息，而差分卷积用于增强梯度级信息（Function）。我们简单地将学习到的特征相加，以获得DEConv的输出。我们相信，更复杂的像素差异计算方式的设计将进一步有益于图像恢复任务，这并不是本文的主要方向。

然而，部署五个并行卷积层进行特征提取将不可避免地导致参数和推理时间的增加。我们寻求利用卷积层的加性来简化并行部署的卷积为一个标准的卷积。我们注意到卷积的一个有用属性：如果几个相同大小的2D核在相同的输入上以相同的步幅和填充操作产生输出，并且它们的输出被加起来以获得最终输出，我们可以在相应位置上将这些核加起来，以获得一个等效的核，它将产生相同的最终输出。令人惊讶的是，我们的DEConv正好符合这种情况。给定输入特征 $F_{in}$ ，通过利用重新参数化技术，DEConv可以以与普通卷积层相同的计算成本和推理时间输出 $F_{out}$ 。公式如下（为简化起见，省略了偏置项）：

其中，DEConv(·)表示我们提出的DEConv操作， $K_{i=1:5})$ 分别代表VC、CDC、ADC、HDC和VDC的核，*表示卷积操作， $K_{cvt})$ 表示转换后的核，它将并行卷积组合在一起。

图5直观地展示了重新参数化技术（代码如何实现？）的过程。在反向传播阶段，五个并行卷积的核权重分别使用梯度传播的链式法则进行更新。在正向传播阶段，固定并行卷积的核权重，并通过在相应位置上相加来计算转换后的核权重。需要注意的是，重新参数化技术可以同时加速训练和测试过程，因为这两个过程都包含正向传播阶段。

与普通卷积层相比，所提出的DEConv可以提取更丰富的特征，同时保持参数大小，并在推理阶段不引入额外的计算成本和内存负担。关于DEConv的更多讨论可以在第四节的C1小节中找到。