Vision Transformers for Single Image Dehazing解读

摘要-图像去雾是一种具有代表性的低级视觉任务,从模糊图像中估计出潜在的无雾图像。近年来,基于卷积神经网络的方法主导了图像去雾。然而,最近在高级视觉任务中取得突破的视觉Transformers,并没有为图像去雾带来新的维度。我们从流行的Swin Transformer开始,发现它的几个关键设计不适合图像去雾。为了为此,我们提出了DehazeFormer,它包括各种改进,例如修改的归一化层,激活函数和空间信息聚合方案。我们在各种数据集上训练DehazeFormer的多个变体,以证明其有效性。具体来说,在最常用的SOTS室内数据集上,我们的小模型仅用25%的参数和5%的计算成本就优于FFA-Net。据我们所知,我们的大模型是第一个在SOTS室内数据集上PSNR超过40 dB的方法,大大优于以前的最先进的方法。我们还收集了一个大规模的现实遥感去雾数据集,用于评估该方法 (代码)https://github.com/IDKiro/DehazeFormer.

索引术语-图像处理,图像去雾,深度学习,视觉Transformer。

一.导言

HAZE是一种常见的大气现象,会损害日常生活和机器视觉系统。雾霾的存在降低了现场的能见度,影响了人们对物体的判断,浓雾甚至会影响交通安全。对于计算机视觉来说,雾霾在大多数情况下会降低捕获图像的质量。它可能会影响模型在高级视觉任务中的可靠性,进一步误导机器系统,如自动驾驶。所有这些都使得图像去除成为一项有意义的低层视觉任务。

图像去霾的目的是从观测到的雾霾图像中估计出潜在的无雾霾图像。对于单幅图像去霾问题,有一个流行的模型[1-3]来刻画模糊图像的退化过程:

其中I是捕获的模糊图像,J是潜在的无模糊图像,A是全局大气光,t是介质透射图。

其中β是大气的散射系数,d是场景深度。由此可见,图像去雾是一种典型的不适定问题,早期的图像去雾方法倾向于用先验知识来约束解空间[4-7]。他们通常分别估计A和t(x)以降低问题的复杂性,然后使用等式(1)来推导结果。这些基于先验知识的方法可以产生具有良好可见性的图像。然而,这些图像通常与无雾图像明显不同,并且可能在不满足先验的区域中引入伪影。

近年来,深度学习在计算机视觉领域取得了巨大的成功,研究人员提出了大量基于深度卷积神经网络(CNN)的图像去雾方法[8-21]。在足够数量的合成图像对的情况下,这些方法可以实现优于基于先验的方法的性能。早期的基于CNN的方法[8-10]还分别估计A和t(x),其中t(x)使用在合成数据集时使用的传输图来监督。
目前的方法[13-20]更倾向于预测潜在的无雾图像或无雾图像的残差与模糊图像,因为它往往会实现更好的性能。最近,ViT [22]在使用普通Transformer架构的高级视觉任务中表现优于几乎所有CNN架构。随后,提出了许多修改的架构[23-40],视觉Transformer正在挑战CNN在高级视觉任务中的主导地位。许多工作已经证明了视觉Transformer的有效性,但仍然没有基于Transformer的图像去雾方法击败最先进的图像去雾网络。在这项工作中,我们提出了一种名为DehazeFormer的图像去雾Transformer,这是受到Swin Transformer [30]的启发。它大大超过了这些基于CNN的方法。

我们发现,视觉 Transformer中常用的LayerNorm [41]和GELU [42]损害了图像去雾性能。具体来说,视觉 Transformer中使用的LayerNorm将图像块对应的token分别归一化,导致块之间的相关性丧失。因此,我们去除了多层感知器(MLP)之前的归一化层并提出RescaleNorm来代替LayerNorm,RescaleNorm对整个特征图进行归一化,重新引入归一化后丢失的特征图的均值和方差。
此外,SiLU / Swish [43]和GELU在高级视觉任务中表现良好,但ReLU [44]在图像去雾方面表现更好。我们认为这是因为它们引入的非线性在解码时不容易逆转。我们认为图像去雾不仅需要网络编码高度表达的特征,而且这些特征很容易恢复到图像域信号。

Swin Transformer采用循环移位的窗口划分方法有效地聚集局部特征,但在图像去雾中发现循环移位对于图像边缘区域是次优的,具体地说,循环移位应该使用掩蔽的多头自注意(MHSA)来防止不合理的空间聚集,使边缘区域的窗口更小。我们认为在一个小窗口内聚合信息会带来不稳定性,这可能会使网络的训练产生偏差。因此,我们提出了一种基于反射填充和裁剪的移位窗口分区方案,该方案允许MHSA丢弃掩码并实现恒定的窗口大小。我们还发现MHSA的聚合权重始终为正,这使得它表现得像低通滤波器[29]。由于MHSA的聚合权重是动态的、全正的和归一化的,我们认为静态的、可学习的和无约束的聚合权重有助于补充MHSA,而卷积满足这一标准。

此外,我们还提出了一个基于先验知识的软重建模块,它的性能优于全局残差学习,并提出了一个基于SKNet [45]的多尺度特征图融合模块,以取代级联融合。我们的实验表明,DehazeFormer能够以较低的开销显著优于同时期的方法。图1显示了在SOTS室内数据集上DehazeFormer与其他图像去雾方法的比较。我们的小型模型仅用25%的#Param和5%的计算成本击败了FFA-Net [18]。我们的基本模型开销较低,但性能优于之前的最新方法AECR-Net [19]。据我们所知,我们的大型模型是第一种超过40 dB的方法,大大优于同时期的方法。

有一些非均匀的图像去雾数据集是使用专业的烟雾机收集的[46],但它们太小,与自然场景中存在的非均匀烟雾相去甚远。相反,我们倾向于收集遥感图像去雾数据集,因为高度非均匀的烟雾在遥感图像中很普遍。我们考虑了波长等因素对雾霾空间分布的影响,然后合成了一个大规模的真实感遥感图像去雾数据集。

图1. DehazeFormer与其他图像去雾方法在SOTS室内数据集上的比较。点的大小表示方法的#Param,横轴表示每个算法的计算复杂度。(这句话是在讲述一项关于图像去雾算法 DehazeFormer 的对比实验结果。SOTS indoor 是一个标准的图像去雾测试数据集,用于评估不同算法在去除室内图像中的雾霾效果。该实验结果使用图形的方式来展示 DehazeFormer 和其他相关方法之间的性能差异。在图形中,每个点代表一个算法,点的大小表示该算法所使用的参数数量(#Param),点的颜色和形状则没有特殊意义。图形的 X 轴是每个算法的计算复杂度,以 MACs 的形式衡量(MACs 是 Multiply–accumulate Operations 的缩写,是计算机视觉中常用的浮点运算计数器)。Y 轴是图像去雾算法的性能,以 PSNR(Peak Signal-to-Noise Ratio)的形式衡量,PSNR 数值越高表示去雾效果越好。通过这个图形,我们可以看出 DehazeFormer 在相同的计算复杂度下,相对于其他算法,其性能更好。同时,DehazeFormer 所使用的参数数量也相对较少,说明其在计算效率和模型精简性方面都表现出色。)

二、相关工作

A.图像去雾

早期的单图像去雾方法通常基于手工先验,例如暗通道先验(DCP)[4],颜色衰减先验(CAP)[6],颜色线[5]和Hazelines [7]。这些基于先验的方法通常产生具有良好可见性的图像。然而,由于这些先验是基于经验统计的,当场景不满足这些先验时,这些去雾方法往往会输出不切实际的结果。随着深度学习的快速发展,近年来基于学习的去雾方法占据了主导地位。DehazeNet [8]和MSCNN [9]是将CNN应用于图像去雾的先驱。它们学习估计t并获得结果以及通过常规方法估计的A。之后,DCPDN [10]使用两个子网络分别估计t和A,而GFN [12]估计三个预定义图像操作的融合系数图。另一方面,AOD-Net [11],重写等式(1),使得网络仅需要估计一个分量。GridDehazeNet [13]提出,学习恢复图像比估计t更好,因为后者会陷入次优解。最近的工作[14-20]倾向于估计无雾图像或无雾图像与有雾图像之间的残差。

由于基于学习的方法的去雾性能很大程度上取决于数据集的质量和大小,因此已经提出了几种数据集。这些去雾数据集分为两大类:真实的数据集[46-49]和合成数据集[50-52]。真实的数据集使用专业烟雾机产生的真实的烟雾来生成真实的烟雾图像。合成数据集通常使用等式。(1)将相应的雾度图像与无雾度图像和深度图进行合成。虽然真实的数据集看起来更有吸引力,但难以获得足够的图像对,并且由雾度机器产生的雾度的分布仍然与真实的雾度有显著差异。因此,大多数方法倾向于使用合成数据集进行训练和测试。与这些数据集相比,本文提出了一个新的合成遥感图像去雾数据集,称为RS-Haze,用于评估该方法去除高度非均匀雾霾的能力。RS-Haze比以前的数据集[53-56]更大,更真实,考虑了传感器特性,雾霾分布和颗粒大小,光波长以及其他被忽略的因素。

B.视觉变换器

CNN多年来一直主导着大多数计算机视觉任务,而最近,Vision Transformer(ViT)[57]架构显示出取代CNN的能力。ViT开创了Transformer架构[22]的直接应用,该架构通过分片线性嵌入将图像投影到令牌序列中。原始ViT的缺点是其弱感应偏差和二次计算成本。为此,PVT [23]使用金字塔架构来引入多尺度归纳偏置,并对键和值进行下采样以降低计算成本。T2 T-ViT [24]使用展开操作,就像CNN进行标记化一样,它使用Performer [25]来降低计算成本。此外,一些工作[26-29]在早期阶段使用卷积来引入感应偏置。Swin Transformer [30]将令牌划分为窗口并在窗口内执行自注意以保持线性计算成本。它采用循环移位方案来桥接窗口,使得相邻块采用不同的窗口分区。从那时起,Swin Transformer的许多后续工作已经提出。例如,一些方法通过重塑张量来桥接窗口[31-34];而一些方法通过使用具有全局感受野的令牌作为代理来桥接窗口[35-37];其他方法使用修改的窗口分区方案[38- 40]。我们的DehazeFormer可以被认为是Swin Transformer和U-Net的组合[58],但对图像去雾进行了几项关键修改。

Swin Transformer也有一些变体用于低级视觉任务。SwinIR [59]是将Swin Transformer用于低级视觉任务的先驱之一,它构建了一个由堆叠的Swin Transformer层和后续卷积层组成的大残差块。Uformer [60]使用Swin Transformer块来构建类似U-Net的网络和插入的深度卷积(DWConv)[61]在前馈网络(FFN)中,如LocalViT [62]。然而,我们发现它们在图像去雾方面表现非常差。我们将其归因于它们继承了原始Swin Transformer的归一化层,窗口分区方案和激活函数。提出了一些基于ViT的去雾网络,如HyLoG-ViT [63]和TransWeather [64]。然而,HyLoG-ViT没有表现出令人信服的性能,而TransWeather旨在使用类似DETR的框架[65]来同时处理多种天气条件。

三. DEHAZEFORMER

A.总览

DehazeFormer的网络架构基于流行的Swin Transformer [30],但在处理图像去雾时,结合了几项改进以弥补原始Swin Transformer的不足。图2显示了DehazeFormer的整体架构。给定图像对{I(x),J(x)},我们只计算L1损失来训练DehazeFormer。

图2. DehazeFormer是一个改进的5级U-Net,其卷积块被我们的DehazeFormer块取代。DehazeFormer块中虚线框所示的组件表示它们是可选的。SK融合和软重构层被提出来取代原始的级联融合和全局残差。输入大小为H × W,并且每个阶段中的特征图的大小在DehazeFormer块下方示出。

首先,我们简要回顾了Swin Transformer,给定一个输入特征映射X ∈ Rb×h×w×c,我们将X投影到Q; K; V(查询,键,值)使用线性层,组令牌使用窗口分区。Swin Transformer在窗口内应用MHSA,相邻块的窗口分区不同。为简单起见,下面的Q; K; V 2 R B b×l×d对应于一个窗口& header,其中l是窗口中的标记数,d是维度。

其中B是相对位置偏差项。线性层跟随它以投射注意力的输出。

与Swin Transformer相比,DehazeFormer模块在归一化层、非线性激活函数和空间信息聚合机制方面有所不同,在DehazeFormer模块之外,还提出了SK融合层和软重构层来取代级联融合层和全局残差学习。

SK融合层的灵感来自SKNet [45],它旨在使用通道注意力融合多个分支。特征映射为x1和x2,我们首先使用线性层f(·)将x1投影到x^1。我们使用全局平均池化GAP(·),MLP(Linear-ReLU-Linear)FMLP(·),softmax函数和分裂操作来获得融合权重:

我们使用权重fa 1; a2 g通过y = a1x^1 + a2 x2 + x2将x^1; x2与额外的短残差融合。

当前的图像去雾网络通常预测重构图像^J(x)或全局残差R(x)= J^(x)-I(x)。我们认为引入先验是有益的,只要不存在强约束,因为退化模型是近似。我们将等式(1)重写为

其中K(x)= 1=t(x)− 1和B(x)= −(1=t(x)− 1)A。我们驱动网络预测O 2 R h×w×4,并将O拆分为K 2 R h×w×1和B 2 R h×w×3。因此,网络架构软约束了K(x)和B(x)之间的关系。这种弱先验允许网络退化以预测全局残差(即,K(x)= 0,B(x)= R(x))。
为了方便起见,我们将等式(5)称为软重构。

B.重缩放图层规格化

归一化层在神经网络架构中起着至关重要的作用,因为它稳定了网络的训练。然而,我们发现Transformers常用的LayerNorm [41]可能不适合图像去雾。
我们首先回顾一下Transformers使用的LayerNorm公式。假设特征图的形状为x 2 R b×n×c,其中n = h × w(即高度和宽度),归一化过程可以表示为:

这里,µ和σ表示平均值和标准差,γ和β是学习的比例因子和偏差,i =(ib; in; ic)表示索引。在LayerNorm中,沿c轴沿着计算μ和σ,得到μ; σ 2 R B×n。我们认为平均值和标准差与图像的亮度和对比度相关,因此,在LayerNorm之后,图像块之间的相对亮度和对比度以某种方式被丢弃。为此,我们沿着(n; c)轴计算μ和σ,得到μ; σ 2 R B。我们注意到这种归一化方法是CNN中更常用的LayerNorm,本文中称为LayerNorm+。

图3.用于分析归一化方法的简单自动编码器。从左到右,有自动编码器的架构,输出图像和误差映射,其中误差被缩放8倍以获得更好的查看效果。嵌入层和重建层是具有分块张量整形的线性层。

我们进行了一个简单的实验来显示LayerNorm的负面影响,如图3所示。具体来说,我们只使用补丁嵌入,归一化和补丁重建层来构建自动编码器。我们训练这些自动编码器来重建单个输入图像。没有全局残差,学习恒等映射不是一个简单的任务[66]。当插入LayerNorm时,我们可以清楚地看到重建图像中出现的块伪影。由于这种自动编码器不涉及块之间的相互作用,它只能以牺牲丰富纹理区域为代价来记忆天空区域的统计信息。通过将LayerNorm改为LayerNormy,我们在很大程度上克服了它的负面影响。

但是LayerNormy仍然丢弃了特征图的均值和标准差,因此我们提出了基于LayerNormy构建的Rescale Layer Normalization(RescaleNorm),但是计算的均值和标准差被保存并引入到残差块的末尾。具体来说,我们首先获取μ; σ 2 R B×1×1,并通过等式(6)将输入特征映射x归一化为x^。然后我们使用主块F(·)处理x^以获得输出y^。我们使用两个线性层,其权重为Wγ; Wβ 2 R 1×c,偏置为Bγ; Bβ 2 R 1×1×c,通过fγ变换μ和σ; βg = fσWγ +Bγ; μWβ +Bβg,其中γ; β 2 R B×1×c。为了加速收敛,我们将Bγ和Bβ初始化为1和0。我们将γ和β注入y^以重新引入均值和标准差。因此,RescaleNorm可以公式化为:

与BatchNorm [67]相比,LayerNorm不是一个便宜的操作。它需要在推理过程中计算平均值和标准差,而不是使用在训练集上跟踪的运行估计值。因此,我们在MLP之前删除了归一化层,因为我们发现这几乎不会影响方法的性能。

C.具有简单逆的非线性激活函数

Gelu在高级别任务中的表现比REU更好[43,68,69]。然而,在低水平视觉任务中,Gelu的使用要比RELU[44]和LeakyReLU[70]少得多。虽然最近一些基于Transformer的图像处理网络继承了Gelu[59,60],但在我们的实验中,RELU和LeakyReLU在图像去噪方面仍然比Gelu表现得更好。我们认为,Gelu在图像去污任务中不起作用,因为它不容易倒置。如果将GELU看作一个图像滤波器,由于它的非单调性,就会产生梯度反转问题。与高级视觉任务不同,图像去噪中的特征映射将被解码成图像,导致Gelu引入的反转梯度在输出图像中发生反应。

比较Gelu和RELU,Gelu性能较差的另一个原因是它的非线性更强,因为它是比分段线性函数更复杂。因此,我们提出了SoftReLU,它是作为Gelu和RELU之间的过剩的REU的简单平滑近似:

其中,α是形状参数。特别是,当我们设置α=0时,SoftReLU等同于RELU。为了模仿GELU,我们在实验中设置了α=0:1。

图4. ReLU、GELU、LeakyReLU(!= 0:1)和SoftReLU(α = 0:1)。

图4显示了SoftReLU与其他非线性激活函数的比较。我们对激活函数进行了消融研究,发现LeakyReLU的性能与RELU相似,优于SoftReLU和Gelu,而SoftReLU优于Gelu。因此,我们认为非线性激活函数的可逆性对于图像去噪网络是至关重要的。

D.使用反射填充的移位窗口划分

Swin Transformer使用带掩码MHSA的循环移位来实现移位窗口划分的高效批处理计算。由于蒙版的原因,图像边缘的窗口大小小于设置的窗口大小。对于高级视觉任务,图像的对象通常位于图像的中心,使得图像的边缘像素对结果贡献很小。对于图像去模糊,图像边缘与图像中心一样重要。较小的窗口大小导致窗口中的令牌数量较少,这会使网络的训练产生偏差。我们认为,通过保持图像边缘的窗口大小与设置的窗口大小相同,可以提高网络的性能。

为了避免引入不合理的补丁间交互,我们提出使用反射填充来实现移位窗口划分的高效批处理计算,如图4所示。Swin Transformer的原始论文提到了如何使用填充来实现批处理计算。然而,其提出的基于填充的方案等价于循环移位,因为掩蔽的MHSA仍将被使用。与Swin Transformer不同,我们使用反射填充,并且不执行遮罩。这种方法的缺点是,与循环移位相比,它确实引入了额外的计算成本。幸运的是,图像消除网络在训练时倾向于处理比图像补丁大得多的图像时间到了。当图像尺寸变大时,边缘区域的百分比将变小。

图5.我们提出的反射填充方案与循环移位方案在移位窗口分区中的比较。实际边缘区域的百分比比图示小得多。

E.采用并行卷积的W-MHSA

我们认为乘MHSA是低通滤波,在最近的工作中提出了类似的结论[29]。
虽然MHSA的空间信息聚合权重是动态的,但权重始终为正,使其像平滑一样工作。
因此,空间信息聚合方案是

其中^V 2 R B×h×w×c表示窗口分区之前的V,Conv(·)可以是DWConv或ConvBlock(Conv-ReLU-Conv)。换句话说,我们仍然使用注意力机制来聚合窗口内的信息,但也使用卷积来聚合邻域内的信息,而不考虑窗口分区。此外,我们丢弃了某些块中的MHSA,特别是在编码器的浅级和解码器中,并且图2中示出了修改的块。在DehazeFormer块中用虚线框示出的组件指示它们是可选的。具体地,一些块不包含MHSA和RescaleNorm,并且仅当需要移位窗口分割时才使用反射填充和裁剪。
请注意,CSwin Transformer [38]中提出了类似的想法,但我们使用卷积来提取高频信息,而不是充当位置嵌入。与CSwin Transformer相比,我们使用反射填充而不是零填充,因为我们不需要它来隐式编码位置信息[71]。最重要的是,DehazeFormer的卷积层在窗口分区之前对^V执行,因此,它提供了在窗口之间聚集信息的能力。

F.实施细节

我们提供了五种DehazeFormer的变体(-T、-S、-B、-M和-L分别表示微小、小型、基本、中型和大型)。

表I详细架构规范

表I列出了这些变体的详细配置。
这里的注意率表示包含MHSA的块的百分比,我们将包含MHSA的块放置在每个阶段的末尾。对于三个小模型(-T,-S,-B),我们使用DWConv(K = 5)作为并行卷积。
由于DWConv是一种计算成本低但内存访问成本高的操作[72],因此我们对两个大型模型(-M,-L)使用ConvBlock(K = 3)。

训练时,图像被随机裁剪为256 × 256块。我们为训练不同的变量设置了不同的小批量大小,即f-T,-S,-B,-M,-Lg的f32; 16; 16; 8 g。参考线性缩放规则[73],我们将初始学习率设置为f4; 2; 2; 2;我们使用AdamW优化器[74]和余弦退火策略[75]来训练模型,其中学习率从初始学习率逐渐降低到f4; 2; 2; 2; 1g × 10−6。

四、RS-HAZE DATASET数据集

RESIDE数据集是一个大规模的均匀图像去雾数据集,它促进了图像去雾。然而,评估该方法对非均匀图像去雾的能力仍然依赖于一些小的、不切实际的数据集[46],这些数据集使用雾机来生成几乎不存在的非均匀雾。相比之下,遥感图像去雾是一项实用的非均匀图像去雾任务,因为遥感图像中的雾具有高度的非均匀性,因此,本文提出了一种新的遥感图像去雾数据集RS-Haze,与已有的遥感图像去雾数据集[55,56,76,77]相比,该数据集更真实,规模更大。

A.雾度合成配方

由于遥感成像系统的成像距离是固定的,所以在遥感图像的生成中,研究人员通常将d(x)设置为d0。然而,d(x)不是成像距离,而是散射光的介质的厚度。此外,遥感图像中的雾霾介质是非均匀的,使得d(x)在空间上变化,但在所有通道上是一致的。此外,透射图t(x)与波长和雾度条件相关。受先前工作[1,2]的启发,我们将散射系数建模为

其中,c0是常数,λ是信道的中心波长,并且指数γ(x)对应于逐区域的雾度条件。

则信道i和信道j之间的传输映射的关系可以表示为:

其中,TFI; int x(x); βfi; jg; λfi; jg分别是通道fi; jg的透射图、散射系数和中心波长。如果我们将通道1作为参考通道,则透射图tj(x)可以通过下式获得:

最终的雾度成像模型可以公式化为:

这里我们可以收集干净的图像J,并将λj设置为相应通道的中心波长,因此问题在于如何获得t1(x),Aj和γ(x)。

B.合成管线

我们首先考虑如何从真实的雾霾图像中提取透射图t1(x)。卷云通道(通道9)的反射率可以表征自然雾霾的空间非均匀特性[54],因此我们使用它来生成透射图t1(x),如下所示:

其中ρ9(x)是真实的朦胧图像的卷云通道的反射率,并且!是一个对应于霾密度的超参数。我们发现卷云通道中有一个很大的暗水平,即使在无霾的图像中,像素也超过5000。因此,我们对卷云通道应用0.1%的线性拉伸来去除暗水平。如果我们不去除暗水平,则T1(x)的最大值总是小于1,这相当于附加的均匀雾度。
之后,我们需要从无雾图像中估计场景的大气光。为此,我们将每个通道最亮的0.01%像素的平均值视为大气光[54]。但仍有许多估计不准确的情况。由于每个通道的大气光彼此相关,可以引入额外的约束来校正不正确估计的大气光。假设通道i中所有遥感图像的估计的大气光的平均值为Ai。我们设置参考值Ar =(A6 + A7)= 2和Ar =(A6 + A7)=2,并通过A0 i = Ar · Ai=Ar获得通道i的校正大气光。图6示出了校正如何细化大气光。

图6.估计的大气光的修正。上图为修正前后的大气灯光,下图为三个合成样本。

表二大气相对散射模型

最后,我们需要获得γ(x)。因为霾的颗粒特性可以根据霾密度而变化[78],所以指数γ(x)应该建模为霾密度的函数。如表II所示,我们建模了与霾反射率ρ相关的指数γ(x)。我们使用ρ9(x)作为霾反射率,并拟合γ(x)和!ρ9(x)与三次曲线,可表示为

其中a0 = 6:537,a1 = −27:465,a2 = 41:224,a3 = −21:547。请注意,我们将γ(x)裁剪到[0,4]以避免离群值。
现在我们可以使用公式(14)来合成数据集。然而,我们发现用这个数据集训练的网络在合成图像的密集雾霾区域工作良好,但在真实的图像的密集雾霾区域表现不佳。我们认为,当雾霾密集时,它很可能阻挡所有来自地面的光线[55]。根据雾霾成像模型公式(14),即使当tj(x)很小并且合成的雾度很密集时,仍然存在来自无雾度通道Jj(x)的信息残差。

其中tj(x)0 = 1 − tj(1 − tj(x)),我们还将tj(x)0剪切到[0,1]以避免离群值。这里tj(x)与等式(13)一致,但我们引入衰减因子<$1:25来衰减Jj(x)的信息。当雾度达到一定浓度时,合成的雾度图像完全丢失该区域无雾度图像的信息。

C.数据集详情

我们从EarthExplorer上的Landsat-8 Level 1数据产品下载多光谱(MS)图像。76幅包含不同地形且天气条件良好的遥感图像,并使用FLAASH模块[79]进行大气校正。同时,选择108幅多云遥感图像,使用其卷云通道生成透射图。我们使用GDAL库[80]从原始遥感图像中裁剪512×512图像块。最后,我们获得了6000块含有各种地形的hazefree MS图像和1500块分布类似于自然霾的卷云通道。每个无雾图像生成九个合成雾图像,其中包含三种不同的雾密度。雾密度通过设置w的范围来控制。每个范围内的w值通过从截断高斯函数中采样获得。RS-雾的汇总见表III。

表三RS-haze数据集摘要

五、实验

A.实验装置

我们的实验是在RESIDE数据集[52]和我们的RS-Haze数据集上进行的。RESIDE数据集是图像去雾最常用的数据集之一,它包含三个版本:RESIDE-V0,RESIDE-Standard和RESIDE-β。它包含几个子集,其中最常用的是:室内训练集(ITS)、室外训练集(OTS)和综合目标测试集(SOTS)。我们发现现有的工作使用不同的实验设置,并且可以分为两大类:ITS和OTS相结合的培训和SOTS测试;分别在ITS和OTS上进行训练,并分别在SOTS的室内和室外场景上进行测试。为了证明DehazeFormer的有效性,我们在两种设置上进行了实验,我们命名为RESIDE-Full和RESIDE 6 K,我们不会在每个实验设置下训练大模型,因为小模型已经足够好了。
1)RESIDE-Full:模型分别在室内和室外场景中进行训练和测试。根据FFA-Net [18],我们使用完整的ITS(13,990个图像对,来自RESIDE标准)和OTS(来自RESIDE-V0的313,950个图像对)来训练室内模型和室外模型,并在室内场景中进行测试(500对图像)和户外场景在该实验设置中,所有模型都使用其原始训练策略进行训练,并且我们复制了在以前的作品中报告的最佳结果。我们在ITS上训练DehazeFormers 300个epoch,在OTS上训练30个epoch。注意,室外子集中的一些图像小于配置的补丁大小,此外,由于室外图像的上半部分通常是天空,因此我们仅使用水平翻转进行数据增强。

2)RESIDE-6K:模型在混合数据集上进行训练和测试。我们使用DA [18]的实验设置,与RESIDE-Full显著不同。其训练集包含3,000个ITS图像对和3,000个OTS图像对,所有图像的大小为400 × 400。其测试集混合室内和室外图像对,形成1,000个图像对的测试集,而不进行重叠,这里称为SOTS-mix。在这个实验设置中,我们在RESIDE-6 K训练集上使用L1损失重新训练所有模型1,000个epoch,并根据模型的小批量大小调整学习率。对于一些估计t(x)的方法,我们调整它们来预测输出图像。因此,我们可以比较架构的性能,而不考虑训练策略的影响。
3)RS-Haze:模型在RS-Haze-mix上进行训练。对于默认的实验设置,我们使用8位伽马校正的RGB图像进行训练和测试。我们使用L1损失训练所有模型150个epoch,其他设置与RESIDE-6 K相同。对于MS图像去雾,我们使用16-位线性图像进行训练和测试。它旨在分析MS和RGB图像的图像去雾特性。注意,我们在伽马校正的RGB图像。
4)间接费用:我们使用参数的数量(#Param)和乘法累加运算(MAC)来测量开销。MAC是在256 × 256图像上测量的。

表IV在剩余数据集上培训的各种除雾方法的定量比较。

B.定量比较

我们定量比较DehazeFormers和基线的性能,结果如表IV所示。在这里,我们强调了基线中的最佳结果,并加粗了DehazeFormers超过它们的结果。总体而言,我们提出的DehazeFormers优于这些基线。我们认为,RESIDE-Full室内设置主要衡量模型处理高频信息的能力,室外集主要衡量模型的收敛速度。RESIDE-6 K衡量模型的稳定性和提取低频信息的能力。RSHaze衡量网络提取语义特征的能力。值得注意的是,DehazeFormer-B有时优于DehazeFormer-M,表明在这些实验设置中,注意力机制比卷积更重要。

1)RESIDE-Full:ITS培训和SOTS室内机测试应该是最广泛使用的实验装置。
比较基线方法,FFA-Net和AECR-Net是远远上级以前或同时代的方法。
前者主要依赖于大型网络,后者也可能受益于所提出的对比损失函数。
然而,我们提出的DehazeFormer-B在PSNR和SSIM方面超越了所有基线方法。此外,DehazeFormer-L的PSNR超过40 dB。据我们所知,这是第一个在SOTS室内机上PSNR超过40 dB的方法,大大超过了以前的工作。
最后,DehazeFormer的所有变体都运行良好,我们相信它是一种可扩展的方法。不幸的是,有些基线在SOTS室外集上没有报告结果。由于室外场景的训练集由超过30万个样本对组成,DehazeFormer和基线可能没有收敛。
我们认为SOTS室外集的性能还有很大的提升空间,目前的结果更多地反映了网络的收敛速度。特别是,DehazeFormer-M在室外集上不如DehazeFormer-S,可能是因为更多的非线性激活函数减慢了训练速度。我们提醒,RESIDE-Full上的基线结果是从以前的作品复制的,其中一些可以使用我们的代码库实现更高的性能。

2)RESIDE-6K:我们发现,在RESIDE-6 K实验设置下,所有基于CNN的网络的性能都比我们支持的DehazeFormers差。pose是由于测试集和训练集的图像分辨率不同。由于训练集的图像被调整了大小,其高频信息分布与测试集的图像不一致。正如我们所讨论的,卷积层擅长过滤高频信息,而注意力机制擅长过滤低频信息,我们相信注意力机制的这一属性对于图像去雾非常重要,因为为每个分辨率设置收集去雾数据集是不切实际的。

3)RS-Haze:与其他实验设置相比,该方法在RS-Haze上具有更高的PSNR,但SSIM较低。
遥感图像中的场景比自然场景更加单调,因此,遥感图像的潜色和亮度估计方法更容易实现,从而使图像的峰值信噪比更高。对比了几种不同的遥感图像去雾方法,可以看出,FFANet方法在基线上的去雾效果最好,在基线上的去雾效果最差。而我们的小模型则超越了它,这不仅是由于DehazeFormer本身的优秀设计,还因为遥感图像具有更多的相似性,此外,在RGB和MS图像上的DehazeFormerS的比较在表V中示出。如所预期的,密集的雾比轻的雾更难以被去除。
此外,更多的通道和更大的比特深度提供的附加信息确实大大提高了该方法的性能。

表V RGB / MS装置上DEHAZEFORMER-S的PSNR / SSIM

C. 定性比较

我们还选择了一些结果样本来定性分析每种方法的性能。由于我们没有在 RESIDE-Full 上重新训练基线,因此我们仅显示 RESIDE-6K 和 RS-Haze 上的测试结果。图 7 和图 8 说明了我们的 DehazeFormer-S 与一些代表性的基于学习的去雾方法的定性比较。

1)RESIDE-6K:我们选择了SOTS混合集中不同场景的四个样本来评估网络的去雾性能,包括合成的室内和室外雾霾。 AOD-Net 和 GCANet 会产生严重的色彩失真,这使得它们的室内和室外结果太暗或太亮。尽管经过 PFDN 和 FFA-Net 去雾后的图像的大部分区域都恢复了颜色,但远处的物体和靠近图像边缘的小物体仍然存在颜色失真。相比之下,我们的 DehazeFormer-S 通过雾霾正确恢复了颜色,结果看起来自然而真实。对于一些室内场景中雾霾密度变化较大的区域,如图所示从图7中第二行放大的白框可以看出,几乎所有的对比方法都无法有效去除雾霾。然而,我们的 DehazeFormer-S 可以很好地恢复清晰的图像,保留纹理和颜色信息,并且包含最少的雾度残留。

2)RS-Haze:选择RS-Haze中不同场景、不同雾霾密度的三幅图像来评估网络对非均匀雾霾的去雾性能。 AOD-Net 几乎无法处理非均匀雾霾并产生严重的伪影。 GCANet、PFDN和FFANet在雾霾较薄时可以有效去除雾霾,如图8前两行所示,但它们在色彩和细节再现方面不如DehazeFormer-S。此外,DehazeFormer-S 可以消除浓雾,而所有其他网络都会产生明显的伪影。参见图8第三行水面面积。

D. 消融研究

我们对 RESIDE-Full 的室内场景进行消融研究。然而,由于并非每个 DehazeFormer 块都有 MHSA,因此在移除并行卷积时,这些块会退化为无意义的线性层。因此,我们构建 DehazeFormer-A 仅用于消融研究。特别是,我们将 DehazeFormer-A 的注意力比率设置为 1 并减少网络深度以保持计算成本和参数。表VI列出了DehazeFormer-T和DehazeFormer-A之间的差异。我们可以看到DehazeFormer-T比DehazeFormer-A有更好的性能。在开销方面,与 DehazeFormer-T 相比,DehazeFormer-A 的参数较少,但计算成本较高。请注意,我们发现不同数据集上的消融研究结果并不总是一致,例如,与 RESIDE-Full 室内数据集相比,RESIDE-6K 更喜欢关注度较高的 DehazeFormer。如果与基线 (DehazeFormer-A) 相比有改善,我们将结果标记为红色;如果与基线 (DehazeFormer-A) 相比,我们将结果标记为蓝色。

                DEHAZEFORMER-T和DEHAZEFORMER-A的比较。

1)归一化层:我们研究归一化层及其对性能的影响,结果如表VII所示。我们可以看到,避免补丁间相关性的丢失并重新引入丢失的统计数据确实提高了网络的性能。此外,归一化层对于 MHSA 比 MLP 更重要。考虑到 MLP 之前的归一化层对性能没有显着影响,删除它是有意义的,因为获取特征图的标准差并不便宜。然而,LayerNorm 的负面影响并不像预期的那么明显,因为在我们对 RESIDE-6K 的早期消融研究中,归一化层显示出对性能的严重影响。因此,我们计划在未来的工作中探索数据集和标准化层之间的关系。

                               正化层的消融研究

2)移位窗口划分方案:我们研究了移位窗口划分方案,结果如表VIII所示。由于掩码填充和掩码循环移位在空间信息聚合方面是等效的,因此我们仅训练单个网络。如果我们用零填充替换反射填充,网络的性能会显着下降。零填充引入了无意义的标记,并且注意力矩阵是全正的,使得相比之下,无掩码的循环移位也会引入令牌之间不合理的交互,但负面影响较小。最后,我们提出的方案为网络提供了适度的性能改进。考虑到它只在 256 × 256 图像上引入了可以忽略不计的额外计算成本,所以这是值得的。

                               移动窗口分区方案的消融研究。

3)非线性激活函数:我们研究了非线性激活函数的差异,结果如表IX所示。我们替换了网络中的所有非线性激活函数,包括 MLP 和 SK 融合层中的非线性激活函数。令人惊讶的是,非线性激活函数极大地影响了网络性能,而我们早期对 RESIDE-6K 的消融研究并未显示出如此巨大的差距。使用 ReLU 和 LeakyReLU 的网络表现大致相同,因为它们都是可以轻松求逆的分段线性函数。虽然 SoftReLU 的形式很简单,但它不容易反转,因此使用它的网络会产生显着的性能下降。此外,GELU是非单调的,并且更难以反转,使得带有它的网络表现很差。我们认为在构建网络时必须考虑非线性激活函数的可逆性。

                                       非线性激活函数的消融研究。

4)并行卷积:我们研究证明具有注意力的并行卷积的重要性:a)删除并行卷积; b) 将卷积与 MHSA 平行放置,即卷积的输入是 X 而不是 V ; c) 将卷积放在 MLP [69] 之前,结果如表 X 所示。可以看出,Transformer 块中的附加卷积层可以显着提高网络的性能,但它们的放置至关重要。尽管该方案在之前的工作中已被广泛采用,但将 DWConv 插入 FFN 只带来了较小的性能。我们认为转换器以某种方式工作,因为它将令牌内和令牌间交互分为两个步骤,而在 FFN 中插入 DWConv 会破坏此属性。与注意力并行的 DWConv 优于与 MHSA 并行的 DWConv。虽然两种方案都使用DWConv来聚合空间信息,但前者是在与attention相同的特征空间中完成的,而后者是在不同的特征空间中完成的。 DWConv 提供静态可学习的聚合权重,而注意力则提供动态的全正聚合权重。因此与attention并行的卷积确实与attention起到了互补的作用。

                           平行卷积的消融研究。

5)其他组件:我们验证了软重建模块和SK融合模块对网络性能的影响。尽管 SK 融合只带来了很小的性能提升,但我们认为它是级联融合的一个很好的替代方案,因为它的开销较低。尽管软重建带来的改进比预期的要多,但我们相信对先验引入软约束是有益的。

                            其他组件的消融研究。

六.结论

本文介绍了Swin Transformer在图像去噪中的各种改进,并且DehazeFormer在多个数据集上取得了优异的性能。综上所述,我们建议使用RescaleNorm和RELU来代替常用的LayerNorm和Gelu,以避免一些对高水平视觉任务不重要但对低水平视觉任务至关重要的负面影响。为了提高MHSA的性能,我们提出了一种基于反射填充的移位窗口划分方案和一种基于卷积与注意并行的空间信息聚合方案。我们还提出了一些小的改进,适用于其他网络。最后,我们收集了一个大规模的遥感图像去霾数据集来评估网络去除高度非均匀雾霾的能力,DehazeFormer也取得了令人印象深刻的性能。在未来,我们计划致力于更轻量级和更简单的架构,并将架构扩展到其他低级视觉任务。此外,在缩略图上编码特征地图,然后在原始图像上进行解码,可以实现实时的4K图像去哈。

图7. SOTS混合集上图像去雾方法的定性比较,其中前两行是室内图像,最后两行是室外图像。第一列是模糊图像,最后一列是相应的地面真值。

图8. RS-Haze上图像去雾方法的定性比较。第一列是模糊图像,最后一列是地面实况。

  • 23
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值