MixDehazeNet : Mix Structure Block For Image Dehazing Network

摘要

图像去雾是低层视觉领域的一个典型任务。以往的研究验证了大卷积核和注意力机制在去雾中的有效性。然而,存在两个缺点:当引入大的卷积核时容易忽略图像的多尺度特性,注意力模块的标准串联没有充分考虑不均匀的雾度分布。本文中,本文提出了一种新的混合结构图像去雾网络(MixDehazeNet)框架,解决了上述两个问题,具体来说,它主要由两部分组成:多尺度并行大卷积核模块和增强并行注意力模块。
与单个大核相比,多尺度并行大核更能在去雾阶段考虑局部纹理。此外,本文提出了一种增强的并行注意力模块,其中注意力的并行连接在去雾不均匀分布方面表现得更好。在三个基准测试上的大量实验证明了我们提出的方法的有效性。与以前的最先进的方法相比,MixDehazeNet在SOTS室内数据集上实现了显著的改善(42.62dB PSNR)。代码发布于https://github.com/AmeryXiong/MixDehazeNet.

图1. MixDehazeNet与其他去雾方法在SOTS室内数据集上的对比结果。圆圈的大小表示#Param,MAC用对数轴表示。

1.引言

图像去模糊是计算机视觉中一项重要的底层任务。雾霾普遍存在于图像、视频和其他视觉场景中,会降低人类的识别能力。大多数计算机视觉任务,如目标检测[31,14,11]、重新识别[29,5]和语义分割[24,4,43]隐含地受到模糊图像和视频的影响,这降低了深层模型的性能。因此,旨在从匹配的模糊图像中恢复出清晰场景的单幅图像去噪技术受到了学术界和工业界的广泛关注。它可以作为后续高级视觉任务的预处理阶段的第一步,作为基本的低级图像恢复任务。

图像去雾的目标是将模糊图像恢复为无雾图像。大气散射模型[26,27,28]通常用于解释图像去雾的过程。形式上,给定图像x,J(x)表示其模糊图像可以写为:

I(x) = J(x)t(x) + A(1 − t(x)), (1)

其中A是全局大气光,t(x)是介质透射图。此外,t(x)可以用公式表示为t(x)= e −βd(x),其中β是大气的散射系数,d(x)是场景深度。早期的图像去雾方法[1,10,15,44]基于先验知识,利用先验知识估计A和t(x),虽然这些方法在先验假设下表现良好,但如果不满足先验假设,恢复的图像可能会失真。

深度学习的发展使图像去雾取得了重大进展。现有的去雾方法可以根据网络架构大致分为两类:1)基于CNN的方法[3,30,25],其主要集中在增加网络的深度和宽度或使用大卷积核。大卷积核[13,6]可以通过扩展其感受野来捕获学习的潜在域空间中的更多结构化信息。2)基于变换器的方法[12,39,18],具有全局建模能力和大感受野,但需要大量参数和巨大成本的训练过程。

尽管当前方法的性能显著,但存在两个限制:1)虽然基于CNN和基于Transformer的方法都可以利用大的有效感受野来提高性能,但在去雾过程中往往忽略了图像的多尺度特性。并且不同大小的卷积核可以有效地捕获不同尺度的霾分布区域。2)在先前的去雾网络中使用的注意力机制[30,40,3]并不完全适用于图像去雾。我们注意到通道注意可能能够更好地编码全局共享变量A,而像素注意可能能够更好地编码位置相关局部变量t(x)。但现有方法[30,40,3]仅将像素注意模块和通道注意模块分开设计。

针对该问题,该文提出了一种新型的混合结构块去雾网络MixDehazeNet,用于图像去雾。该算法以U-net[34]为骨干,包含多尺度并行大卷积核模块和增强并行注意模块相结合的混合结构模块,该模块是一个transformer-style模块,它用一个多尺度并行卷积核模块代替了变换器中的多头自注意,并在此基础上提出了一种基于多尺度并行大卷积核模块的多尺度并行大卷积核算法.提出了一种多尺度并行大卷积核模块MSPLCK,该模块利用多尺度并行大卷积核模块的多尺度特性和大感受野的特点,将大卷积核集中于全局特征,并捕捉到雾度较大的区域,同时,我们设计了一个增强的并行注意模块EPA,该模块能够并行地联合使用通道注意和像素注意来提取原始特征的共享全局信息和位置相关的局部信息,使其能够有效地处理不均匀的雾度分布。该模块包括三种注意机制该模型在AECR-Net [40]的启发下,引入了对比度损失的概念,与AECR-Net不同的是,MixDehazeNet使用ResNet-152 [16]作为对比学习的主干,因为我们发现它比VGG 19 [36]在改善我们的模型性能方面更有效。我们的贡献可以总结如下:

设计了具有大接收野和多尺度特性的多尺度并行大卷积核模块,在捕获大面积模糊区域的同时恢复纹理细节,并行扩张卷积还具有大接收野和远距离建模能力。
·设计了一个增强的并行注意模块,该模块能够有效地处理不均匀的雾状分布,更适合于图像去雾,能够并行提取原始特征的全局共享信息和位置相关的局部信息。
·总体而言,所提出的MixDehazeNet在多个图像去雾数据集上取得了最先进的结果。图1显示了MixDehazeNet与其他SOTA模型在SOTS室内数据集上的比较。

据我们所知,MixDehazeNet-L是第一个在SOTS室内数据集上超过42 dB PSNR的模型.

2.相关工作

图像去雾就是将有雾的图像转化为去雾后的图像,主要有基于先验的图像去雾方法和基于学习的图像去雾方法。近年来,大型卷积核因其高效性和实用性而受到广泛关注,它具有普通卷积核所不具备的大感受野和远距离建模能力。

基于先验的图像去雾:早期的图像去雾方法主要基于先验知识,通过对有雾和无雾图像对的统计分析来发现去雾规则,DCP [15]提出局部有雾区域图像通道的最小值方法逼近0,并估计t(x)和A.颜色衰减先验样本超过500幅图像,作者得到了估计d(x)的线性公式。Rank-one Prior [21]提出t(x)接近秩1矩阵和强度投影策略来估计t(x)。基于先验的方法的时间复杂度通常很低,当满足先验条件时,图像复原效果最好,而当不满足先验条件时,图像复原结果会失真。

基于学习的图像去雾:由于深度学习的发展和大型图像去雾数据集的出现,基于深度学习的图像去雾方法已经取得了很大的进展。DehazeNet [2]和MSCNN [32]是早期的图像去雾网络,它们使用神经网络来估计t(x)和基于先验的方法来估计A。DCPDN [42]分别使用神经网络来估计A和t(x)。GridDehazeNet [22]使用网格状神经网络获取图像的多尺度特征,直接估计无雾图像。首次指出直接估计无雾图像优于大气散射参数估计。FFA-Net [30]通过使用大量的通道注意力和像素注意力来改善图像去雾效果。AECR-Net[40]通过引入对比度学习改进了图像去雾的效果。PMNet[41]使用一种新的可分离混合注意力(SHA)模块和密度图来有效地捕获特征级别的不均匀分布退化。UDN[17]使用不确定性估计块(UEB)来预测不确定性和不确定性感知特征调制(UFM)块来增强学习的特征。凭借transformers在图像高级任务中的出色性能,最近,许多论文在图像去雾任务中使用了变换器。DeHamer [12]混合变换器和CNN首次将雾密度作为绝对位置嵌入引入到变换器中。Dehazeformer [37]参考Swin Transformer,对Swin Transformer的关键结构进行了修改,使其更适合图像去雾。基于transformer的模型参数多、延迟高、训练难度大,因此我们重点研究了基于CNN的方法,利用大扩张卷积来获得transformer所具备的大感受野和远距离建模能力。

大卷积核:RepLKNet [6]提出,使用几个大的卷积核而不是一堆小的核可能是更强大的范例。
它是一个核尺寸为31 × 31的纯CNN结构,指出大核CNN具有更大的有效感受野和更高的形状偏差而不是纹理偏差,RepLKNet [6]的结果与ImageNet上的Swin Transformer和一些典型的下游任务相当或上级,视觉注意力网络[13]提出,大的内核卷积可以被分成三个部分:空间局部卷积(深度方向卷积),一种空间长程卷积(深度方向膨胀卷积),和信道卷积(1×1卷积),克服了大量的计算开销和参数,超过了类似尺寸的视觉变换器(ViTs)和卷积神经网络(CNNs)在各种视觉任务中的应用。

3. MixDehazeNet

本节主要介绍我们提出的去雾网络MixDehazeNet,如图2所示,MixDehazeNet是一个嵌入Mix结构块的5级U网,结合了多尺度并行大卷积核和增强的并行注意力,此外,MixDehazeNet使用SK Fusion [37]融合跳跃分支和主分支。我们使用软重建[37]而不是在网络末端的全局残差,因为软重构提供了比全局残差更强的模糊去除约束。

3.1.多尺度并行大卷积核

多尺度并行大卷积核模块(MSPLCK)同时具有多尺度特性和大的感受野。首先,设x为原始特征图,通过xb = BatchNorm(x)使用BatchNorm对其进行归一化。BatchNorm可以加速网络收敛,提高泛化能力,防止过拟合。

这里,PWConv表示逐点卷积。Conv表示核大小= 5的卷积。DWDConv 19表示扩张卷积核大小= 19,并且它是具有扩张率3的7 × 7深度方向扩张卷积,DWDConv 13表示扩张卷积核大小= 13,并且它是具有扩张率3的5 × 5深度方向扩张卷积,DWDConv7表示扩展卷积核大小为7,它是3 × 3深度方向的扩展卷积,扩展率为3。最后,Concat表示在通道维度上连接特征。

三个不同核大小的并行扩张卷积可以提取多尺度特征,其中大、中扩张卷积具有远距离建模能力和Transformer中自注意的大感受野,可以集中在较大的模糊区域;小扩张卷积可以集中在较小的模糊区域,恢复纹理细节x3的值变成了x的三倍。

然后,我们将x3送入多层感知器,该多层感知器将x3的特征维度转换为与x相同。多层感知器包含两个逐点卷积,并使用GELU作为激活函数。最后,将多层感知器的输出与标识快捷方式x相加,我们认为多层感知器不仅可以结合三种不同类型的特征,还可以对去噪特征起到一定的拟合作用。

图2. MixDehazeNet是一个嵌入在Mix Structure Block中的5级U-net。下采样是步长= 2的3×3卷积。上采样是逐点卷积和PixelShuffle。I是模糊图像,J是对应的清晰图像,J`是对应的去雾图像。

图3.Mix Structure Block包含多尺度并行大型卷积内核模块(右)和增强的并行注意模块(左)。

3.2.增强的平行注意

增强型并行注意模块(EPA)混合了不同类型的注意机制。它包含一个简单的像素关注、一个通道关注和一个像素关注。设x是特征映射,我们使用BatchNorm通过x·=BatchNorm(X)将其归一化。

像素关注度可以有效地提取位置相关的信息特征,如不同的灰霾分布简单的像素注意模块由两个分支组成:如图4(a)所示的P Fs和P As。P Fs是特征提取分支。P As是像素门分支。我们使用P As作为像素门控信号P Fs.

图4.简单像素注意力(SPA)、通道注意力(CA)和像素注意力(PA)的示意图。GAP是全局平均池化。

PWConv表示逐点卷积,Conv表示核大小= 3的卷积。像素注意力包含P Ap分支,可以提取全局像素门控特征。如图4(c)所示。

这里我们使用PWConv-GELU-PWConv来拟合特征,Sigmoid函数用来提取全局像素选通特征,然后用P Ap作为bx的全局像素选通信号.

通道注意力可以有效地提取全局信息并改变特征的通道维度。通道注意力有一个CAc分支,可以提取整个通道的特征。如图4(b)所示。

我们使用全局平均池(GAP)、PWConv-GELUPWConv和Sigmoid函数来提取全局通道门控特征,然后使用CAc作为xb的全局通道门控信号.

我们将三个不同的注意力门控结果沿着通道维度连接起来,然后应用一个带有PWConv-GELU-PWConv的MLP,将连接起来的特征通道维度降低到与输入x相同的维度,最后将MLP的输出与恒等捷径xb相加。

增强的并行注意模块更适合图像去雾,大气光A是一个共享的全局变量,而t(x)是一个位置相关的局部变量。通道注意能更好地提取共享全局信息并对A进行编码,像素注意能更好地提取位置相关信息并对t(x)进行编码,我们认为通过从原始特征中同时提取位置相关和共享全局信息,可以实现注意机制的全局优化,然而,当两种不同的注意机制串联使用时,当通道注意力通过提取全局信息来修改原始特征,然后像素注意力提取修改后的特征的位置相关信息时,全局最优条件没有达到。为了使增强的注意力模块能够同时提取原始特征的共享全局变量和位置相关局部变量,我们将三个不同的注意力模块进行并行处理,通过对原始特征A和t(x)进行并行编码,将三个独立的注意力结果连接起来得到组合特征F,然后通过多层感知器对组合特征F进行融合,我们认为这种并行模块可以更好地去除模糊特征。

3.3.混合结构块

图3为Mix Structure Block,它是一个transformer风格的块,包含多尺度并行大卷积核模块和增强并行注意力模块,多尺度并行大卷积核模块用于获得单个transformer [9,23]多头自注意模块所没有的。增强型并行注意模块可以有效地处理单个Transformer [9,23]前馈模块没有。多尺度并行大卷积核模块可以同时捕获大面积的雾霾并恢复纹理细节。增强的并行注意力模块可以提取共享的全局信息和位置-本文提出的MixDehazeNet包含Mix结构块,在多个图像去雾数据集上取得了最新的成果。

3.4.训练损失

给定图像对I,J,其中I是模糊图像,J是对应的清晰图像,我们让MixDehazeNet预测去雾图像J·。我们使用L1损失和对比度损失来训练我们的模型,可以用公式表示为:

其中Ri,i = 1,2,· · ·,n从固定的预训练模型中提取第i层特征。D(x,y)是L1损失。ωi是权重系数。β是用于平衡L1损失和对比学习损失的超参数。

4.实验

4.1.数据集

我们在RESIDE [20],RESIDE 6K数据集上评估了我们的方法。RESIDE[20]是最标准的数据集RESIDE数据集包含RESIDE-IN(ITS)、RESIDE-OUT(OTS)和合成目标测试任务(SOTS)。RESIDE-6 K数据集包含来自ITS和OTS的室内和室外场景的合成图像的混合。
1)我们在包含13,990个图像对的RESIDE-IN上训练了我们的模型,并在SOTS的室内集(500个图像对)上测试了它们。MixDehazeNet在ITS上训练了500个epoch。
2)我们在包含313,950个图像对的RESIDE-OUT上训练了我们的模型,并在SOTS的室外集(500个图像对)上测试了它们。MixDehazeNet在OTS上训练了40个epoch。
3)RESIDE-6 K数据集包含6,000个图像对,其中3,000个ITS图像对和3,000个OTS图像对用于训练,其余1,000个混合室内和室外图像对的图像对用于测试。我们使用DA [35]的实验设置并在RESIDE-6 K上训练MixDehazeNet 1000个epoch。

表1.各种SOTA方法在三个去雾数据集上的定量比较。

4.2.实现细节

我们使用4卡RTX-3090来训练我们的模型。在训练过程中,图像被随机裁剪为256 × 256块。我们提供了三种MixDehazeNet变体(-S、-B、-L分别表示小号、基本型和大号)。表2列出了变体的详细配置。我们提取了11号、35号、143号的隐藏特征,从固定的预训练Resnet-152的第152层,以及它们对应的系数ωi,i = 1,...,4到116,118,114,1.我们将超参数β设置为0.1。我们使用AdamW优化器优化MixDehazeNet,指数衰减率β1和β2等于我们将初始学习速率设置为2 × 10−4,然后使用余弦退火策略从初始速率逐渐降低到2 × 10−6。

图5/6. RESIDE-IN/OUT数据集的定性比较。放大以获得最佳视图。

4.3.与最先进方法的比较

定量分析:我们比较了MixDehazeNet与之前最先进的方法的性能,结果如表1所示。我们的模型在所有三个数据集上都优于之前的所有方法。在RESIDE-IN数据集中,我们的MixDehazeNet-L模型是第一个超过42 dB PSNR的方法,并且它在PSNR和SSIM方面都以较大的裕度优于所有先前的最先进的方法。在RESIDE-OUT和RESIDE 6 k数据集中,我们的MixDehazeNet-L模型在PSNR和SSIM方面也优于所有以前的最先进的方法。我们的不同模型变体表现出出色的性能,PSNR随着混合结构块的数量而增加。我们相信我们的方法可以适应不同类型的计算机视觉任务。
MixDehazeNet-S可以应用于实时图像去雾,而MixDehazeNet-L可以应用于对清晰度要求更高的图像去雾任务。
定性分析:图5显示了我们的MixDehazeNet与RESIDE-IN数据集上先前最先进的模型相比的视觉结果。DCP [42],GridDehazeNet [22]和FFA-Net [30]产生的恢复图像都包含不同程度的伪影,这降低了图像的清晰度。相比之下,由我们的模型恢复的图像是最清晰和最接近地面真实的,没有任何伪影。同样,图6显示了我们的MixDehazeNet的视觉结果与RESIDE-OUT数据集上先前最先进的模型相比。由于先验知识不满足,DCP [42]恢复的图像具有颜色失真。GridDehazeNet [22]和FFA-net [30]都有更多的haze残留,并且恢复图像中残留haze的分布不均匀。相比之下,我们的模型的恢复图像更清晰,雾度残留更少,边缘轮廓更清晰,并且最接近地面实况。图中的红色矩形突出显示了每个模型产生的恢复图像的细节差异。

表2.模型体系结构细节。

4.4.消融研究

消融实验在MixDehazeNet-S模型上进行,以了解每个拟议模块的作用。我们从MixDehazeNet-S-Base开始。

(1)MixDehazeNet-SBase中的每个Mix结构块保留DWDConv 19(删除DWDConv 7和DWD-Conv 13)在多尺度并行大卷积核(MSPLCK),并保留通道的注意力(2)在MixDehazeNet-S-Base中只恢复MSPLCK。(3)在MixDehazeNet-S-Base中只恢复EPA。(4)在MixDehazeNet-S-Base中恢复MSPLCK和EPA。然后,我们将对比度损失(CR)添加到整个模型中。所有消融模型训练配置均对应于MixDehazeNet-S,并在RESIDE-IN数据集上进行了实验。消融研究的结果见表3。与MixDehazeNetS-Base相比,MSPLCK可增加1.76 dB PSNR。与MixDehazeNet相比,EPA可增加1.89 dB PSNR。与MixDehazeNet-S-Base相比,MSPLCK和EPA相结合的MixStructure模块可以提高3.96dBPSNR,结果表明,所提出的各个模块都可以提高模型的去雾性能。
为了进一步验证这两个模块的作用,我们进行了两组消融实验。为了加快实验速度,我们提出了一个模型的小型版本,简化了架构,如表4所示,训练期减少到400。使用余弦退火策略,学习率设置为4 × 10−4到4 × 10−6。

多尺度并行大卷积内核:为了验证MSPLCK的多尺度特性和大感受野,我们使用同尺度并行大卷积核进行了三组对比实验。我们将MSPLCK中的多尺度扩张卷积替换为三个并行DWDConv7,其中扩张卷积核大小= 7,深度为3 × 3。接下来,我们用三个并行DWDConv13取代MSPLCK中的多尺度扩张卷积,其中扩张卷积核大小= 13,并且它是5 × 5的深度方向扩张卷积,扩张率为3。最后,我们将MSPLCK中的多尺度扩张卷积替换为三个并行DWDConv19,其扩张卷积核大小= 19,并且它是具有扩张率3的7 × 7深度方向扩张卷积。表5显示了实验结果,具有多尺度特性的MSPLCK算法比其他同类算法具有更好的效果规模并行的大卷积核,且卷积核的感受野越大,去雾效果越好.

增强并行注意力:为了验证并行注意力是否更适合图像去雾,我们进行了两组对比实验来比较串行注意力和并行注意力的效果,首先将EPA中的三个并行注意力替换为串行的通道注意力(CA)和像素注意力(PA),然后将EPA中的三个并行注意力替换为简单像素注意力(SPA),表6示出了实验结果,表明并行注意机制比串行注意机制更适合于图像去雾。

4.5.推理时间

在表1中,我们还将我们的模型的推理速度与之前最先进的模型进行了比较。我们的模型在保持相似推理时间的同时表现明显更好。例如,在RESIDE-IN数据集上,MixDehazeNet-S和MSBDN [7]具有近似14 ms的推理时间,但MixDehazeNetS与MSBDN相比提高了5.8dB PSNR。
MixDehazeNet-B的推理时间与AECR-Net [40]和PMNet [41]相似,约为28 ms,但与AECR-Net和PMNet相比分别增加了3.37dB PSNR和2.49dB PSNR。MixDehazeNet-L和FFA-Net [30]的推理时间相似,约为56 ms,但MixDehazeNet-L与FFA-Net相比,PSNR提高了6.23dB。

5.结论

本文提出了MixDehazeNet,它包含由多尺度并行大卷积核模块和增强并行注意模块组成的混合结构块,多尺度并行大卷积核实现多尺度大感受野,增强并行注意有效地处理不均匀的hazy分布,并允许有用的特征通过主干。据我们所知,我们的方法是第一个在RESIDE-IN数据集中超过42 dBPSNR的方法。

  • 22
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值