MWFormer: 使用退化感知Transformer进行多天气图像恢复

这篇文章提出了一种名为MWFormer的多天气图像恢复模型,旨在通过单一的统一架构处理多种恶劣天气条件(如雨、雪、雾等)引起的图像退化。以下是文章的主要内容总结:

  1. 问题背景:现实世界中的图像常常因恶劣天气条件(如雨、雪、雾等)而质量下降,现有的图像恢复方法通常只能处理单一类型的天气退化,无法应对复杂的混合天气场景。

  2. 模型架构

    • MWFormer:基于Transformer架构,使用超网络和特征线性调制块,通过相同的参数集处理多种天气退化。

    • 特征提取网络:通过对比学习提取内容无关的天气感知特征,指导图像恢复过程。

    • 图像恢复网络:包含固定参数和天气自适应参数,能够根据天气类型自适应地调整恢复过程。

  3. 创新点

    • 多天气处理:能够处理单一或混合天气退化,且无需重新训练。

    • 测试时调优:允许在应用时进行调优,既可以处理单一天气,也可以处理混合天气。

    • 扩展应用:超网络还可用于天气类型识别和指导预训练的天气特定模型。

  4. 实验与结果

    • 性能提升:在多个多天气恢复基准数据集上,MWFormer在定量和定性评估中均显著优于现有的最先进方法。

    • 计算效率:MWFormer在保持高性能的同时,计算成本显著低于其他模型。

    • 混合天气处理:MWFormer能够有效处理训练期间未见过的混合天气退化。

  5. 扩展与泛化

    • 任务驱动训练:MWFormer可以通过任务驱动训练(如物体检测)进一步提升下游任务的性能。

    • 泛化能力:MWFormer的方法可以集成到其他网络架构中,提升其在多天气恢复任务中的表现。

  6. 结论:MWFormer是一种高效、灵活的多天气图像恢复模型,能够处理多种天气退化,且在计算成本和性能之间取得了良好的平衡。

MWFormer通过引入超网络和自适应机制,显著提升了多天气图像恢复的效果,并展示了其在多种应用场景中的潜力。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

官方项目地址在这里,如下所示:

摘要

恢复在恶劣天气条件下捕获的图像是许多计算机视觉应用中的基本任务。然而,大多数现有的天气恢复方法只能处理特定类型的退化,这在实际场景中往往不足,例如雨雪或雨雾天气。为了解决这些问题,我们提出了一种多天气Transformer,简称MWFormer,它是一种整体视觉Transformer,旨在使用单一的统一架构解决多种天气引起的退化问题。MWFormer使用超网络和特征线性调制块,通过相同的学习参数集恢复由各种天气类型退化的图像。我们首先采用对比学习训练一个辅助网络,提取内容无关的、退化感知的特征嵌入,这些嵌入有效地表示预测的天气类型,其中可能发生多种天气。在这些天气信息的预测指导下,图像恢复Transformer自适应地调整其参数,以进行局部和全局特征处理,以应对多种可能的天气。此外,MWFormer允许在应用时进行新颖的调优,既可以针对单一类型的天气恢复,也可以针对混合天气恢复,而无需重新训练,提供了比现有方法更大的可控性。我们在多天气恢复基准上的实验结果表明,与现有的最先进方法相比,MWFormer在不需要大量计算成本的情况下实现了显著的性能提升。此外,我们展示了使用超网络的方法可以集成到各种网络架构中,以进一步提升其性能。

关键词: 图像恢复,恶劣天气,多任务学习,低层视觉,Transformer

I. 引言

在现实世界中捕获的图像由于恶劣的拍摄或环境条件,往往质量不佳。例如,移动设备中常见的CMOS相机在低光条件下通常难以生成高质量的照片。在这种情况下拍摄的照片可能会出现噪声、模糊和曝光不足等问题。其他常见的退化现象可能是由多种同时发生的天气条件引起的,例如雨、雾和雪,这些条件会影响人类感知的图像质量。当这些图像被输入到自动化视觉系统中时,这些失真可能会严重阻碍计算机视觉算法的性能,这些算法通常是在正常天气条件下拍摄的数据集上训练的。未能考虑和改善这些自然现象的影响,通常会导致依赖于视觉的应用(如自动驾驶、机器人、安全和监控等)出现灾难性后果。

开发能够分析并随后恢复天气退化图像的图像处理算法是一个活跃的研究课题[2, 3, 4]。近年来,基于深度学习的恢复方法被广泛用于执行与天气相关的图像恢复任务,例如去雨[5, 3]、去雪[6, 7, 8]和去雾[9, 10, 4]。尽管这些方法取得了令人鼓舞的结果,但每种方法都只能处理单一类型的恶劣天气条件。而在许多实际场景中,天气条件通常是未知的,且往往存在多种混合条件,导致图像出现多重失真,上述方法无法充分改善这些情况。

最近,已经提出了几种统一的解决方案来恢复由多种同时发生的天气引起的退化图像[1, 11, 12, 13]。例如,[1, 2, 12]的作者在代表单一天气条件的组合数据集上训练单一网络,期望模型能够自适应地处理每种天气退化。然而,这些方法通常在不同天气类型之间的泛化性能上表现不佳,无法处理同时发生的天气条件引起的伪影。一个重要原因是多种同时发生的失真相互影响,产生了新的、高度多样化的失真。

为了在这一重要问题上取得进一步进展,我们提出了一种高效的、退化感知的多天气Transformer,称为MWFormer,其架构如图2所示。MWFormer旨在为在未知恶劣天气条件下执行图像恢复任务提供强大的恢复骨干。MWFormer能够通过一个小型辅助超网络从输入图像中提取退化感知特征,从而解释不同的天气引起的退化类型。这些特征指导图像恢复骨干的参数生成,使其能够根据预测的天气退化自适应地处理图像。我们还展示了基于超网络的多天气特征提取器能够在测试时进行新颖的调优,既可以以较少的计算量处理固定天气条件,也可以处理混合的、多重的天气引起的退化,而无需重新训练。这比现有的多任务方法提供了更大的灵活性和可控性。值得注意的是,所提出的模型是第一个能够处理训练期间未见过的混合天气退化的模型。超网络的一些扩展应用也得到了开发,例如识别恶劣天气类型,并指导预训练的天气特定图像恢复模型,展示了其多功能性。在基准数据集上的实验结果表明,MWFormer在多天气恢复基准上能够显著优于之前的最先进(SOTA)模型,无论是在定量还是定性方面。我们的方法还可以集成到各种其他网络架构中,以提升其在多天气恢复中的性能。总结来说,我们的贡献如下:

  • 我们提出了一种基于Transformer的新型架构,称为MWFormer,用于多天气恢复,它可以使用单一的统一模型恢复由多种恶劣天气退化引起的失真图像。

  • 使用超网络提取内容无关的天气感知特征,这些特征用于动态修改恢复骨干的参数,从而实现依赖于退化的恢复和其他相关应用。

  • 超网络生成的特征向量用于指导恢复骨干在所有维度和尺度上的行为(即局部空间、全局空间和通道调制)。

  • 创建了两种MWFormer变体——一种用于降低计算成本,另一种用于处理训练期间未见过的混合恶劣天气退化。

  • 综合实验和消融研究证明了所提出模块的有效性以及MWFormer在视觉和定量指标上的优越性。我们还在下游任务的背景下开发并分析了多天气恢复模型。

II. 相关工作

图像恢复。图像恢复是一个长期的计算机视觉问题,旨在从退化的输入中重建高质量图像。最近,出现了在大规模成对图像数据集上端到端训练大型神经网络以解决广泛任务的趋势,例如去噪[14, 15]、去模糊[16, 17, 18]、超分辨率[19, 20]、低光增强[21, 22, 23]、去雾[9, 10]、去雨[12, 24]等。这些问题的显著进展主要得益于新颖网络架构的发展。例如,编码器-解码器架构已被广泛用于各种恢复任务[16, 17, 18, 22, 23],主要是因为多尺度特征学习的有效性。同样,空间和通道自注意力机制已被用于学习空间聚焦和稀疏特征[25, 3]。最近,多阶段渐进网络[26, 27, 28]被部署在更具挑战性的任务上,如去模糊和去雨,取得了令人印象深刻的性能。

图2. MWFormer的架构。主图像处理网络由Transformer编码器、Transformer解码器和卷积尾部组成。
(a) 特征提取网络学习生成主网络中Transformer块和内部块Transformer块的部分参数,从而部分控制中间特征图的生成。
(b) 主网络编码器中的Transformer块,由特征向量指导。
(c) 主网络的Transformer解码器,其查询是可学习的参数。

图像去雨。雨会显著降低拍摄图像的质量。广泛的研究工作旨在减轻雨对图像的不利影响。恢复“雨天”图像涉及两个子任务:消除雨条纹和去除雨滴。例如,Li等人[5]利用扩张卷积神经网络和循环神经网络的组合,有效地从图像中去除雨条纹。Yasarla等人[29]利用基于高斯过程的半监督学习框架,展示了在真实世界图像上的出色泛化能力。Ba等人[30]提出了一种新的去雨网络,该网络在一个新的、全面的真实世界雨天图像数据集上训练。除了仅仅解决雨条纹问题外,越来越多的研究关注于解决雨滴带来的挑战。Qian等人[31]引入了一个专门设计用于捕捉雨滴相关伪影的数据集。他们还训练了一个注意力生成对抗网络(GAN)来有效去除雨滴。Quan等人[32]开发了一个级联网络,旨在同时去除雨滴和雨条纹。最近,Xiao等人[24]开发了一种Transformer架构,用于联合去除雨滴和雨条纹,获得了有希望的视觉结果。

图像去雪。雪是一种复杂的大气现象,会影响计算机视觉模型的性能,例如自动驾驶汽车中使用的物体检测器。DesnowNet[33]率先使用深度学习进行单图像去雪,作者还构建了第一个“雪天”图像数据集,称为Snow-100K。在此基础上,Chen等人[34]解决了遮蔽效应——一种雪片遮挡并降低图像清晰度的现象,提出了一种大小和透明度感知的雪去除算法。最近,Lin等人[35]设计了一种轻量级的拉普拉斯掩码查询Transformer用于雪去除,实现了SOTA性能。

多天气恢复。现实世界中存在许多不同的天气类型,这对单一天气恢复模型提出了重大挑战,导致越来越多的研究兴趣集中在开发能够在一个统一的框架内有效恢复受各种复杂天气条件影响的图像的图像恢复模型。Chen等人[36]利用两阶段知识学习机制来处理三种不同类型的天气,使用统一的网络。Li等人[12]设计了一种名为All-in-One的架构,配备了多个编码器以捕捉不同的退化,并使用单一解码器。尽管这种方法很有前景,但其显著的计算开销对实际应用提出了挑战。Valanarasu等人[2]揭示了一种更高效的基于Transformer的架构,称为TransWeather,通过结合内部块Transformer块(intra-PT块)并使用可学习的天气类型查询。内部PT块与普通Transformer块共享相同的架构,但以较小的块嵌入作为输入,这些子块是从原始块嵌入中产生的。这些较小的子块有助于网络提取更精细的细节,这对于减轻较小的退化是有益的。Ozdenizci等人[1]使用去噪扩散模型进行多天气图像恢复,设定了新的性能基准。然而,这种方法推理时间极慢,使其不适合实时部署。此外,该模型的设计忽略了针对各种天气类型特性的特定处理。Zhu等人[37]提出了一种更可解释的方法,用于提取天气通用和天气依赖的特征,以进行多天气恢复。此外,除了图像恢复模型外,一些研究人员[38]还提出了能够处理不同真实天气类型的图像分割模型。

用于图像恢复的Transformer。基于基础工作[39, 40],Transformer架构已广泛用于各种计算机视觉任务,包括图像恢复,通常显著超越之前的基于CNN的解决方案。图像处理Transformer(IPT)[41]是第一个采用纯Transformer架构进行图像处理任务的模型,它使用对比学习在大量损坏图像对上进行了预训练。预训练的IPT在微调后可以高效地适应许多图像处理任务,优于最先进的方法。基于Swin Transformer[40]的SwinIR[42]架构通过利用局部注意力模型有效地处理了低层视觉任务。Restormer[43]架构部署了一种新颖的Transformer变体,能够捕捉长距离像素交互,同时通过转置注意力机制保持高效。此外,Uformer[44]提出了一种U形Transformer架构,具有局部增强窗口,已被证明在多种图像恢复任务中表现出色。

III. 提出的方法

在这里,我们解释了所提出的MWFormer多天气恢复模型的技术细节。我们的主要目标是学习一个单一的统一模型,能够使用相同的学习参数集处理多种不同的天气退化。这与现实世界图像去噪的挑战类似,算法需要处理各种噪声源、类型和级别。非盲去噪通常优于盲去噪,因为额外的噪声信息有助于去噪网络更好地学习调整其参数。受此启发,我们建议将不同的天气类型视为不同的噪声源或类型。可以预先提取描述天气类型的特征,然后将其馈送到主恢复网络,该网络根据输入天气类型获得退化适应性。因此,我们提出的算法可以分为两个阶段:天气特征提取(由超网络执行)和天气类型感知的图像恢复过程。

总体架构

MWFormer的总体示意图如图2所示,显示了两大组件:(i)包含编码器和解码器块的恢复骨干,负责从退化的输入中恢复高质量图像;(ii)生成天气感知特征向量的特征提取网络。我们采用基于Transformer的架构作为恢复骨干。除了普通的Transformer块外,我们的编码器网络还包含在第二节中介绍的额外内部PT块。骨干的解码器类似于[2]中的设计,包括可学习的天气类型查询,这些查询交叉关注来自编码器的键和值特征。然而,即使是在多个天气数据集上训练,这种架构仍然无法学习解耦来自共存天气条件的混合天气特征。因此,我们设计了一系列改进,明确提供了在多天气设置中的网络灵活性。我们在以下部分进一步解释了这些创新设计。

特征提取网络

天气变化可以被视为不同的图像“风格”,这些风格本质上与图像内容解耦。为了说明这一想法,考虑同一场景的两个快照,每个快照在不同的天气条件下拍摄,并表现出不同的天气相关损伤。每个受损(或“天气风格化”)的图像应由恢复网络以不同的方式处理,但两个输出都应忠实地恢复图像内容。另一方面,包含不同内容但遭受相同天气退化的图像应导致网络产生类似的响应。这类似于图像风格转移,强调解耦图像风格和内容。Gram矩阵[45]表示特征图内的相关性,通常用于定义图像风格。然而,Gram矩阵的原始形式在多天气恢复的背景下失败,因为它代表艺术风格而不是天气相关特征。为了解决这个问题,我们在普通Gram矩阵之上附加了可训练的投影层——多层感知器(MLP),以学习天气特定的“风格”。

我们的特征提取网络的架构如图2(a)所示。我们利用Transformer编码器的前两个尺度,在每个尺度上计算Gram矩阵。由于Gram矩阵是对称的,为了节省计算,仅对两个矩阵的上三角部分进行向量化。这些向量进一步馈送到两个投影层(MLP),从而生成两个64维嵌入。最后,将这两个嵌入连接并投影到单个特征向量v上,该向量编码了输入图像的天气退化信息。

特征提取网络旨在将受相似天气退化影响的图像聚类,因此我们利用对比学习[46]来训练它,其中损失公式为:

图像恢复网络

图像恢复网络包含两组学习参数:编码与所有任务相关的一般恢复先验的固定参数,以及由特征提取网络生成的天气类型自适应参数,如图2(b)所示。更具体地说,输出图像Y计算为:

用于固定天气退化的简化架构

除了上述MWFormer架构外,我们还开发了一种轻量级的测试时变体,以降低计算成本。我们使用辅助超网络学习天气类型表示的设计,也使得在天气类型已知时能够进行计算高效的推理。假设给定天气类型的学习天气表示特征向量在嵌入空间中彼此接近,那么我们可以用表示天气类型的固定特征向量替换特征提取网络,这是完整模型的近似。更具体地说,我们在训练期间预先计算并存储受每种天气类型影响的图像的平均特征向量,然后在测试时直接使用这些特征。这种简化架构如图3(b)所示,公式为:

用于混合天气退化的多阶段架构

我们还开发了另一种测试时变体,用于去除混合恶劣天气。由于目前缺乏混合天气数据集,之前的恢复模型,无论是训练用于处理单一还是多种天气类型,都无法成功恢复在多种同时发生的恶劣天气条件下(如雨+雪)拍摄的图像。然而,MWFormer可以轻松修改而无需重新训练,以处理以前未见过的多重天气退化图像,因此比之前的模型更具通用性。

例如,考虑雨+雪的混合天气条件。如果模型仅在多个单一天气恢复数据集上训练,那么它可能能够恢复由任何天气因素(在这种情况下,雨或雪)退化的图像,但不能恢复组合的混合天气条件(在这种情况下,雨+雪)。因此,我们开发了一种两阶段网络架构作为MWFormer的测试时变体,以处理这种混合天气条件。在推理的第一阶段,使用雨天图像的平均特征向量作为图像恢复骨干的指导,生成一个中间结果,该结果无雨但仍包含雪花。然后,在第二阶段使用MWFormer再次处理仅包含单一恶劣天气的中间输出,以去除雪花,生成最终的干净图像。整个过程可以表示为:

如果图像受到更多类型的恶劣天气影响,则可以级联进一步阶段,其中每个阶段恢复特定类型的退化。请注意,不同阶段中的网络共享相同的权重集,从而在不需重新训练的情况下提供灵活的测试时增强能力。

图3. 默认架构与两种测试时变体的比较,应用于特殊情况。为了进行单一天气类型的恢复,特征提取网络被替换为固定的特征向量。为了进行混合天气恢复,图像处理网络被级联,以逐阶段依次去除退化。

扩展应用

创建天气感知特征向量的超网络是我们方法的一个关键方面。除了生成参数和调制特征图外,这些向量由于超网络对天气特征的强大感知能力,具有多种应用。我们展示了两个扩展应用,以展示所提出超网络的多功能性。

III-F1 天气类型识别

我们的超网络在对比学习策略下在多天气恢复数据集上训练,包含各种天气特征的丰富先验信息。利用这一点,我们开发了一种使用超网络进行天气类型识别的方法,而无需重新训练。

III-F2 指导预训练的天气特定模型

大多数现有的恶劣天气恢复模型都是针对特定天气类型训练的,这使得它们在已知条件下有效,但无法处理未知甚至混合天气场景。这限制了它们的实际应用。为了充分利用这些天气特定专家,我们开发了一种策略,利用所提出的超网络来指导现有的预训练天气特定模型,以恢复受未知天气条件影响的图像。

假设我们有许多不同类型的天气的专家模型。当面对受未知天气条件影响的图像时,我们的目标是选择最合适的专家模型,以便尽可能提高图像质量。不失一般性,假设我们有三个专家模型分别用于去除雨滴、去除雨条纹和去雪。我们首先使用公式(15) ∼ (17)计算三种天气类型的天气分数。然后,最高分数的天气类型被认为是最典型且对图像质量影响最大的天气类型。因此,选择与该天气类型对应的专家模型来处理图像。需要注意的是,对于受混合天气影响的图像,尽管退化可能无法完全消除,但我们的策略能够尽可能使用一个预训练的天气特定模型来提高图像质量,而其他策略无法在相同甚至更多的计算量下实现更高的图像质量。

IV. 实验

在本节中,我们首先详细介绍了我们的实验设置。然后,我们比较了MWFormer与现有SOTA模型在定性和定量方面的性能。此外,我们还进行了全面的消融研究,以研究不同MWFormer模型设计的有效性。最后,我们在第V节中讨论了MWFormer中特征向量的有效性和泛化能力。

训练细节

为了公平比较,我们首先按照[1, 2, 12]中的设置,在多天气恢复的标准基准上训练MWFormer,该基准是三个数据集的组合:RainDrop [31]、Outdoor-Rain [50]和Snow100K [51]。同样,我们使用RainDrop测试数据集[31]、Outdoor-Rain的Test1数据集[50]和Snow100K-L测试集[51]分别测试去雨滴、去雨雾和去雪。

我们首先使用公式(1)作为损失函数,在10k次迭代中预训练MWFormer中的特征提取网络,批量大小为8,学习率为。然后,我们使用平滑L1损失和感知损失[52]的加权组合,在200k次迭代中训练图像恢复网络。在我们的实现中,预测图像和真实图像通过预训练的VGG16(从第3、8和15层提取)提取的特征图之间的差异被求和作为感知损失。总损失函数为:

其中λ固定为0.04。为了避免过拟合特定数据集,我们从每个数据集中分别采样了大致相同数量的训练样本。最后,特征提取网络和图像恢复网络在另一个190k次迭代中使用降低的学习率进行联合微调。

我们通过改变基础通道的数量实例化了三个版本的MWFormer(小型、中型和大型),分别称为MWFormer-S、-M和-L。在MWFormer-L中,每个编码器尺度的通道数分别为64、128、320和512,而通道数分别减少0.75和0.5倍以创建MWFormer-M和MWFormer-S。

图4:RainDrop [31]测试集上的定性比较。MWFormer在各种场景下有效去除了雨滴伪影,生成的输出图像比其他比较模型具有更少的阴影或更少的模糊。

此外,需要注意的是,这个广泛采用的基准中的一些图像与真实场景的分布不同,这可能会限制模型的真实世界性能。例如,该数据集没有代表多天气恢复中的遮蔽效应[53]。为了进一步提高MWFormer对真实世界图像的适用性,我们在一个更大的数据集上重新训练了MWFormer,称为MWFormer-real。具体来说,除了之前的基准数据集外,我们还在训练集中包含了另外两个数据集:包含雨雾退化的真实世界帧的WeatherStream [54]训练集,以及包含雪花和遮蔽效应的CSD数据集[55]训练集。我们还在这个更大的数据集上重新训练了TransWeather [2]以进行公平比较。

定量比较

我们使用了五个最先进的多天气恢复模型作为比较:All-in-One [12]、Chen等人[36]、TransWeather [2]、WeatherDiffusion [1]和Zhu等人[37]。另一个名为AirNet [13]的一体化图像恢复模型也在基准数据集上重新训练以进行比较。表I报告了使用PSNR和SSIM [56]作为性能指标的性能。每个模型的计算成本,通过乘法累加操作(MACs)的数量进行评估,也列在表中。从表中可以看出,MWFormer-real在所有三个数据集上的PSNR表现最佳,PSNR通常被视为最可靠的保真度度量。MWFormer-L在平均PSNR方面也优于使用基准数据集训练的任何模型。尽管Chen等人[36]在Raindrop测试集上取得了更好的结果,但他们的模型在其他两种天气条件下表现不佳,这种不平衡的性能在实践中并不理想。在更注重感知的指标SSIM方面,基于扩散的WeatherDiffusion模型在平均上取得了最佳分数,但MWFormer也取得了可比较的结果,表现位列前三。

尽管WeatherDiffusion [1]在某些数据集上的SSIM表现良好,但如果考虑迭代采样扩散过程,它需要比我们最大的模型MWFormer-L多2000倍的计算量,比我们最小的模型MWFormer-S多5000倍的计算量。总体而言,我们的MWFormer似乎在图像质量和计算成本之间提供了最佳权衡。

此外,尽管WeatherDiffusion在RainDrop和Outdoor-Rain集上提供了最佳的SSIM结果,但扩散模型偶尔容易出现幻觉伪影。图9第三行显示了其中一个失败案例,其中出现了不可接受的伪影和污渍,显著改变了图像内容。由于这些恢复模型通常被用作许多下游识别任务的预处理模块,例如自动驾驶中的物体检测和语义分割,基于扩散模型的图像内容幻觉可能会导致现实世界场景中的危险结果。

此外,表II中展示了TransWeather-real和MWFormer-real的比较结果,表明如果两者都在更大的数据集上训练,MWFormer仍然超越了现有的领先模型,如TransWeather。此外,通过包含更多接近真实场景的图像,所有测试集上的数量指标都得到了提升。

定性比较

我们还在每个基准数据集上获得了视觉结果,如图4至图6所示。在RainDrop测试数据集上,如图4所示,AirNet未能去除许多雨滴。TransWeather和WeatherDiffusion都产生了伪影,如阴影和幻觉(见前两行)。然而,MWFormer提供了视觉上令人愉悦的结果,没有阴影或模糊。在Test1(雨+雾)数据集上,如图5所示,MWFormer能够准确恢复亮度和细节信息,而Chen等人和TransWeather的结果则丢失了细节(注意最后两行中的纹理),Zhu等人和WeatherDiffusion的结果则包含了阴影(见第一行)。此外,WeatherDiffusion有时会导致颜色失真(见第二行)。在Snow100K-L数据集上,如图6所示,MWFormer生成了更干净的图像,而AirNet、Zhu等人和WeatherDiffusion倾向于将一些雪花解释为其他图像细节并错误地保留它们,从而降低了图像质量。

我们还在两个更真实的测试集上比较了MWFormer-real和TransWeather-real:WeatherStream [54]和CSD [55]测试集。视觉结果如图7所示。在WeatherStream数据集上,MWFormer-real比TransWeather-real更彻底地去除雨条纹,生成了更视觉上令人愉悦的结果。在CSD数据集上,TransWeather-real有时错误地保留了雪花,并倾向于过度模糊小而明亮的物体。

混合天气退化的性能

更具挑战性但频繁的场景是混合天气条件。因此,我们还研究了比较模型在混合天气退化图像上的性能。使用[50]中的天气合成算法,我们使用Snow100K中的图像模拟了雨+雪的混合退化图像。恢复这些退化图像的结果如图8所示。可以看出,之前的模型未能恢复这些图像,因为明显的雪花、雨条纹或雾仍然存在于它们的输出中。这可能是因为混合天气退化图像不是它们训练数据的一部分;训练用于单一天气类型的模型不能期望泛化以恢复更复杂的天气退化。然而,MWFormer具有测试时增强的灵活性(图3),能够在两个连续阶段中去除雨和雪花,生成干净的、无退化的图像。我们还通过可视化逐阶段退化去除过程的效果,展示了多阶段应用的有效性,如图8所示。

为了研究我们提出的多阶段MWFormer架构在雨+雪恢复问题上的替代方法,我们比较了四种不同的策略:首先,我们应用最简单的单阶段架构,该架构旨在用于单一天气恢复,来处理雨+雪问题。其次,我们连续两次应用单阶段模型。第三,使用两阶段MWFormer,我们首先使用平均特征向量作为指导进行去雪,然后进行去雨。最后,我们反转顺序,首先进行去雨,然后进行去雪,如图3(c)所示。这些模型的性能在我们的合成数据集上进行了测试,该数据集包含不同的场景、不同的雨量和不同的雨条纹角度。表III中的定量比较表明,MWFormer在第一阶段进行去雨,然后在第二阶段进行去雪时表现最佳。这可能是因为雪花的外观受雨积累的显著影响;因此,雪退化图像的平均特征向量可能无法很好地匹配这些图像。去雨后的中间结果类似于训练集中的雪退化图像,这些图像更容易被网络处理。这些结果有力地证明了MWFormer模型在处理多天气场景中的有效性。

对真实天气退化的泛化能力

我们还在Snow100K-real数据集[33]上比较了MWFormer与其他模型的性能,该数据集包含在真实雪天条件下拍摄的照片,以及RainDS-real数据集[57],该数据集包含带有雨滴和雨条纹的真实世界图像。我们使用MWFormer-L处理Snow100K-real数据集中的图像,并使用其在第III-E节中讨论的变体来恢复RainDS-real数据集中的混合天气退化图像。请注意,这些图像没有可用的真实值,因此我们必须依赖视觉比较。如图9所示,MWFormer能够去除大部分雪花,生成了视觉上干净的恢复图像,与其他方法相比。对于同时受雨滴和雨条纹影响的图像,MWFormer也表现最佳,这归功于其处理混合天气退化的灵活性。此外,应该注意到WeatherDiffusion对域转移极其敏感——其性能在不同图像上差异显著,并且随机生成不可接受的伪影(图9第三行)。另一方面,MWFormer在真实天气泛化方面产生了更一致的视觉结果,这可能归因于较少的可学习参数和天气类型特征学习的设计。使用NIQE [58]的定量比较报告在表IV中,表明MWFormer在这个最广泛采用的无参考指标上优于之前的最先进模型。

图8:混合天气退化上的视觉比较。虽然大多数比较模型未能处理复杂的退化,但两阶段MWFormer模型在每阶段依次去除雨条纹和雪花,能够提供更视觉上吸引人的结果。

图9:真实图像(包括混合天气退化图像)上的定性结果,来自[51]和[57]。MWFormer能够去除雪花,同时保留原始图像结构。然而,AirNet [13]和WeatherDiffusion [1]生成了不希望的伪影。此外,MWFormer能够有效地去除训练期间未见过的混合天气退化,如最后三行所示。

任务驱动比较

图像恢复结果可能由人类或机器消费。天气退化去除更频繁地用于机器视觉系统,例如作为自动驾驶中物体检测的前置步骤。我们通过在物体检测的背景下进行任务驱动的图像恢复性能研究来研究这一方面。具体来说,我们评估了预训练的YOLO-V5 [59]物体检测器在由比较模型恢复的图像上的物体检测性能。如图10所示,在包含雪花的真实图像上,经过MWFormer处理的图像能够更好地提升YOLO-V5的检测性能,与将物体检测器应用于原始雪退化图像相比。这表明在诸如Autopilot [60]等应用中使用MWFormer作为物体检测器的预处理组件的潜力。然而,其他图像恢复方法导致检测到的物体更少,甚至错误分类了一些物体。值得注意的是,在受雨滴影响的图像上,MWFormer仅比原始图像略微提升了检测性能,而其他方法几乎没有效果甚至恶化了检测性能。这一观察结果与[3]中的实证结果一致。最后,我们观察到AirNet和WeatherDiffusion在某些图像上倾向于导致误报案例(第二行中的“滑板”和底部行中的“鸟”),这可能会导致现实世界应用中的意外和不良结果。

识别感知训练。我们还研究了如何展示MWFormer可以专门训练以有益于下游检测模型。为此,我们通过微调基础模型创建了MWFormer的识别感知版本的MWFormer,用识别损失(包括分类损失和回归损失)替换感知损失,使用具有冻结权重的

图10:YOLO-V5物体检测上的任务驱动比较。MWFormer帮助提供了比其他比较方法更好的检测性能。请注意,AirNet [13]和WeatherDiffusion [1]在检测结果中导致了误报,可能是由于恢复性能不足。

图11展示了恢复图像上叠加检测结果的几个可视化。检测到的物体边界框及其相关的检测置信度分数被叠加。从这个实验中可以得出一些有趣的观察结果。首先,包括任务导向的训练目标提高了下游检测任务的性能,与[61]中的发现一致。此外,优化人类质量感知和机器任务在输出图像中导致了不同的视觉效果,表明基于深度神经网络的检测器学习与人类视觉系统不同的表示。探索更多任务导向的图像恢复技术超出了本文的范围,因此我们将其留给未来的工作。

消融研究

为了进一步理解和验证MWFormer的有效性,我们进行了几项全面的消融研究。我们使用MWFormer-L作为基础模型,并使用相同的超参数集逐步消融各种组件。我们首先训练了一个基线MWFormer-L模型(没有特征学习网络),然后逐步添加1)空间局部适应性,2)空间全局适应性,3)通道特征调制,以及4)联合微调,如第III-C节所述。如表V所示,每个权重适应性轴都对所有数据集上的性能提升做出了显著贡献,局部适应性在Raindrop和Outdoor-Rain数据集上提供了最大的增益,而通道适应性在Snow100K上提供了最大的收益。联合微调的最终阶段可以通过将单独训练的特征提取网络与图像恢复骨干对齐,进一步提升整体性能。

我们还在图13中可视化了消融研究的结果。基线模型(没有三个提出的模块)无法彻底去除伪影,如第一行中的上箭头和第二行中的下箭头所示。一些图像细节也被视为伪影并因此被模糊,如右箭头所示。在添加局部适应性模块后,图像质量得到了显著提升,这归功于自适应局部操作。然后,通过添加全局适应性模块,模型获得了更好的全局理解,能够区分雪花或雨滴及其背景。在第一行中,模型将右箭头指向的内容视为灯泡而不是雪花。在第二行中,与草颜色相同的伪影被抑制。最后,通过添加通道调制模块,图像细节进一步增强,如第一行中的右箭头所示。

扩展应用的结果

计算天气分数的策略在RainDrop测试集[31]、Test1数据集[50](雨+雾)和Snow100K-L测试集[51]上进行了测试。图12中的箱线图展示了

图12:不同数据集的天气分数箱线图。

图11:视觉导向和识别感知训练效果的比较。可以观察到,后一种策略产生了视觉上不那么吸引人的结果,但导致了更好的检测准确性。

每个数据集的天气分数分布,显示每个数据集在其对应的天气类型上得分显著高于其他类型。在所有17,069张测试图像中,只有2张被错误分类。总体而言,我们提出的天气分数与图像中存在的天气类型一致。

我们还在带有混合退化的真实世界图像[57]上测试了指导预训练专家模型的策略。选择了三个SOTA预训练模型作为天气特定专家:AST [62]用于去除雨滴,ConvIR-Rain [63]用于去雨,ConvIR-Show [63]用于去雪。由于缺乏高质量的真实值,我们在图14中展示了视觉结果。为了模拟实际使用中的可能场景,我们还实施了一种比较策略:分别使用每个专家模型处理输入图像,然后对输出进行平均。这种方法反映了没有我们超网络的系统无法确定输入的天气特征,无法选择合适的专家,导致结果的简单融合。如图14所示,虽然简单的平均策略需要更多的计算,但其结果远不能令人满意。相比之下,使用我们提出的特征提取超网络,我们可以计算输入图像的天气分数,并相应地选择最合适的专家模型来消除图像中最视觉上分散注意力的退化。

V. 讨论

与基线的详细比较

不同架构:图15比较了MWFormer和我们的基线模型TransWeather [2]的架构。

就整体框架而言,TransWeather仅包含一个图像恢复骨干,而MWFormer还使用一个特征提取网络来自适应地指导图像恢复骨干的操作。通过精心设计的结构和训练策略,特征提取网络从Gram矩阵中提取与天气特征相关的信息。

就图像恢复骨干的架构而言,TransWeather采用了一个常见的图像恢复网络架构,所有参数都是固定的,缺乏针对多天气恢复任务的特殊设计。相反,我们的模型专门为多天气恢复设计,通过将参数分为两组,即编码一般恢复知识的固定参数,以及使用特征向量动态生成的天气自适应参数。除了参数空间中的操作外,特征向量还在特征空间中调制图像恢复网络。

此外,还开发了两种测试时变体:一种用于降低计算成本,另一种用于处理训练期间未见过的混合恶劣天气类型。提出的MWFormer是第一个能够恢复由未见过的混合恶劣天气退化的图像的模型。

图15:基线架构与我们架构的比较。

图14:简单平均策略与我们天气分数指导策略在真实世界混合天气退化图像[57]上的比较。

图13:消融研究的可视化。“L”、“G”和“C”分别表示局部适应性、全局适应性和通道特征调制。

不同应用:TransWeather的应用相对有限,因为它只能处理训练期间已经见过的几种固定天气类型。我们提出的MWFormer具有灵活性,可以恢复训练期间未见过的混合天气退化的图像。这种优于TransWeather的优势表明,MWFormer更适用于现实世界场景,其中不同的天气类型可能会混合在一起。此外,提出的特征提取超网络不仅可以与MWFormer的图像恢复骨干结合,还具有更广泛的应用场景,例如识别天气类型,并指导预训练的天气特定专家模型,如第III-F节所述。此外,我们还探索了训练图像恢复模型以有益于下游检测任务的方法(第IV-F节),这在TransWeather [2]中没有涉及。

泛化能力

为了展示我们方法的泛化能力,我们将我们的方法集成到三种不同的网络架构中并评估结果:两种基于Transformer的架构(Restormer [43]和Uformer [44])和一种基于CNN的架构(UNet [64])。

对于上述每种架构,我们训练了两个版本的模型:一个使用原始网络结构,另一个结合我们提出的自适应方法(称为“Ada-xxx”),两个模型具有相同的超参数和通道数。对于Ada-Restormer和Ada-Uformer,我们使用超网络生成的特征向量来指导恢复骨干在三个维度和尺度上的操作:局部空间、全局空间和通道。这使得恢复骨干的部分参数可以自适应生成,并且其中间特征图可以根据特征向量进行调制。由于GPU内存有限,我们将Ada-Restormer和Ada-Uformer的第一尺度编码器通道分别减少到16和8,批量大小为16。对于Ada-UNet架构,考虑到CNN无法捕捉长距离依赖关系,我们仅在局部空间和通道上应用了适应性。此外,我们移除了Ada-UNet和原始UNet架构中的批量归一化层,这些层通常被认为不适合图像恢复任务。其他设置与第IV-A节中报告的相同。

定量结果报告在表VI中,表明我们的方法可以显著提高各种网络架构在多个数据集上的性能。这些有希望的结果表明,我们提出的方法可以作为一种通用方法来提升不同网络架构在多天气恢复任务上的性能。

学习到的天气表示分析

为了更好地说明学习到的特征向量如何提高图像恢复网络的性能,我们使用t-SNE [65]可视化了特征提取网络Ffeat学习到的天气类型特征的分布。如图16所示,计算出的特征嵌入非常有效地解耦了跨内容的天气退化,因为受相同天气类型退化的图像紧密聚集,几乎没有重叠。这表明特征提取网络能够使用对比损失学习分离内容和退化表示。

我们还使用MWFormer的简化版本(图3(b))检查了特征向量对图像恢复的影响。以去雨滴为例,我们首先在Raindrop测试集上测试了模型,使用固定天气退化的默认设置,这意味着特征向量是Raindrop训练集中所有雨滴图像特征向量的平均值。然后,我们分别用Raindrop测试集和Snow100K测试集中任意图像计算的特征向量替换默认特征向量。表VII中的数值结果表明,当使用正确的天气类型嵌入时,MWFormer表现最佳,表明平均特征向量有效地表示了它们对应的天气类型。当使用来自受相同天气类型影响的图像的任意特征向量时,性能略有下降,而当使用不同天气类型的特征向量时,性能显著下降。总的来说,这些结果表明,我们的特征提取网络生成的向量有效地编码了用于指导天气恢复任务的天气依赖信息。最后,由于我们MWFormer的特征指导设计,用户可以根据他们的先验知识提供特征向量,从而任意控制图像恢复网络的操作。这种推理时的灵活性是之前工作中不可用的关键优势。

VI. 结论

我们引入了一种高效的、一体化的天气感知Transformer,称为MWFormer,用于恢复受多种恶劣天气条件退化的图像。MWFormer由一个编码器-解码器基础的恢复骨干组成,并通过一个辅助特征提取超网络增强,该超网络学习天气类型表示。提取的特征向量可以用于自适应地指导主图像恢复骨干,通过局部、全局和通道轴上的权重适应性。它们还可以用于天气类型识别或指导预训练的专家模型。由于辅助网络的可用性,MWFormer可以扩展到处理固定单一天气情况,减少计算量,或处理训练期间未见过的混合天气情况。我们在多天气恢复基准数据集以及真实世界数据集上进行了一系列定量和定性研究,结果表明,MWFormer在不需大量计算的情况下优于之前已知的多天气恢复模型。我们的方法还可以集成到各种网络架构中,以提升其性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值