摘要
基于变压器的恶劣天气图像恢复方法取得了重大进展。它们大多使用沿通道维度或空间固定范围块的自关注来减少计算负荷。然而,这种折衷导致了在捕获远程空间特征方面的限制。由于观测到天气引起的退化因素主要导致相似的遮挡和亮度,在这项工作中,我们提出了一种有效的直方图转换器(Histogram Transformer, Histoformer)来恢复受恶劣天气影响的图像。它是由一种被称为直方图自注意的机制驱动的,该机制将空间特征分类并分割成基于强度的箱子。然后将自关注应用于箱间或每个箱内,选择性地关注动态范围的空间特征,并将长范围的相似退化像素一起处理。为了增强直方图的自注意,我们提出了一种动态范围卷积,使常规卷积能够对相似像素而不是相邻像素进行操作。我们还观察到,常见的逐像素损失忽略了输出和真值之间的线性关联和相关性。因此,我们建议利用Pearson相关系数作为损失函数来强制恢复像素遵循与groundtruth相同的顺序。大量的实验证明了该方法的有效性和优越性。我们已经在Github上发布了代码。
关键词:图像恢复·恶劣天气去除·图像降雪术·图像脱雾·图像去雾·雨滴去除
图1:给定(a)中天气退化的图像,传统变压器沿着通道尺寸或在(b)中所示的固定范围块内进行自关注。相比之下,我们观察到天气引起的退化模式往往相似,但与背景不同。因此,我们将受恶劣天气影响的像素和背景像素根据下降强度(如(c)所示)分类到不同的箱子中,然后在箱子内部和箱子之间进行自我注意。
1介绍
计算机视觉领域对恢复受雨、雾和雪等恶劣天气条件影响的图像越来越感兴趣。这些天气条件会显著降低视觉质量,影响下游任务的性能,如目标检测[3,60]和深度估计[16,18]。因此,在恶劣天气下图像的恢复是一个至关重要的问题,为了视觉美学和安全。
早期的研究利用天气相关的先验来模拟退化的统计特征,并去除不利天气[1,2,22,23,35,76,83,95,99]。随后,卷积神经网络(cnn)成为解决脱机[5,17,34,40,57,73,79,80,88,89],去雾[27,29,62 - 64,77,88,90,92]和下雪[30,44,61,94]的强大工具。然而,每个任务都需要单独训练网络,并且在多个模型之间切换的复杂性对现实世界的应用提出了挑战。Li et al[33]因此引入了恶劣天气去除的挑战,这需要使用单一统一模型恢复受各种天气条件影响的图像。
最近,基于transformer的方法也被研究用于恶劣天气去除任务,其效果超过了cnn[11,19,70,72]。尽管如此,这些基于transformer的方法通常会通过将自注意操作限制在固定的空间范围内或仅在通道维度内,从而在有效的内存利用方面做出让步,如图1b所示。这种妥协阻碍了变形金刚的内在潜力,变形金刚原本是为卓越的全局特征建模而设计的,因此,它导致了恢复性能的恶化。
为了解决这些问题,基于天气导致的图像质量下降往往呈现出如图 1a 所示的常见模式这一观察结果,我们开发了一种用于统一去除恶劣天气影响的高效直方图变换器,名为 Histoformer。具体而言,我们引入了一个动态范围直方图自注意力(DHSA)模块,该模块赋予自注意力一个动态范围的空间感受野。我们将强度相近但空间位置不同的像素值归类到直方图的各个 bin(区间)中。自注意力是在 bin(区间)或频率维度上执行的,其过程如图 1c 所示。为了便于在局部和全局尺度上进行全面的特征提取,我们为直方图自注意力设计了两种重塑方式:基于 bin 的直方图重塑(BHR)和基于频率的直方图重塑(FHR)。在 BHR 中,配置 bin 的数量以纳入跨越更全面强度范围的像素,从而促进全局特征的整合。在 FHR 中,设定频率的数量,使得每个 bin 聚焦于有限数量的像素,增强对更精细特征的利用。因此,直方图自注意力具备了有效对空间动态范围进行建模的能力。
为了使卷积能够提取动态位置的天气相关依赖关系,我们开发了一个动态范围的卷积层,其中包括在应用可分离卷积之前进行顺序的水平和垂直像素排序。为了捕获嵌入在特征矩阵中的多尺度和多范围信息,我们引入了双尺度门控前馈(DGFF)模块,增强了其对视觉特征的有效建模能力。此外,我们注意到传统的损失函数主要关注像素级的接近度,忽略了整个补丁级的相关性。因此,我们建议利用Pearson相关系数[12]来确保重建恢复图像和干净图像之间的线性关系。
我们的贡献可以概括为三点:
我们提出了一种针对统一恶劣天气去除的新型变压器,配备了新的直方图自关注。它对天气引起的障碍物具有动态范围的空间关注,因此可以实现全局有效的降解去除。
为了捕获多量程信息,我们提出了一个双量程前馈模块。为了增强恢复图像和真实图像之间的全面线性关联,我们开发了相关损失。
我们的方法在各种数据集上实现了最先进的性能。此外,我们证实了所提出的方法的有效性,以恢复真实世界的图像,并加强下游应用的检测。
2相关工作
计算机视觉领域已经开展了大量研究来应对恶劣天气去除方面的挑战,包括去雨 [5, 17, 34, 40, 66, 73, 79, 80, 88, 89]、去雾 [27, 29, 62 - 64, 67, 77, 88, 90, 92]、除雪 [30, 44, 61, 94]、雨滴去除 [57, 59, 83, 93] 以及一体化天气去除 [28, 33, 53, 70] 等任务。雨丝去除:计算机视觉中的雨丝去除技术,其方法的演变十分显著。康等人 [23] 率先提出了一种利用双边滤波器将图像分解为低频和高频成分的单图像去雨方法。然而,近期的进展表明深度神经网络占据了主导地位。傅等人 [17] 引入了早期的深度卷积神经网络(CNN),用于从高频雨成分中提取特征,而杨等人 [79] 利用循环网络来分解雨层并去除各种类型的雨丝。李等人 [32] 提出了一种方法,通过整合基于物理的雨模型和对抗学习来解决大雨场景中的雨丝和遮蔽效应问题。也有人采用条件生成对抗网络来解决雨丝去除问题 [89]。亚萨拉等人 [81] 探索了高斯过程,用于从合成的雨数据到真实世界雨数据的迁移学习。全等人 [58] 使用级联网络来同时去除雨丝和雨滴。最近,一种具有双 Transformer 架构的图像去雨 Transformer [78] 被精心设计出来,它结合了基于窗口和基于空间的机制,从而取得了堪称典范的成果。还提出了一种稀疏去雨 Transformer 来增强特征聚合 [11]。
雨滴。从单个图像中去除雨滴已经通过各种方法得到解决,其中一些依赖于传统的手工制作功能。早期的一项研究结合了时间信息来解决基于视频的雨滴去除问题[83]。Eigen等[15]使用了一个浅层CNN,该CNN使用了包含雨滴退化版本和无雨滴版本的图像对进行训练,尽管结果经常显示出模糊。Qian等人介绍了一种注意力GAN和一个新的数据集。Quan等人后来对他们的方法进行了改进,他们根据雨滴的数学描述生成注意力图,并将其与检测到的雨滴边缘结合起来。
除雪。desow - net[44]是基于cnn的除雪方法的先驱之一,Li等人的堆叠密集网络[31]和Chen等人的JSTASR[8]引入了尺寸和透明度感知方法。最近,DDMSNet[94]引入了一个密集的多尺度网络,利用语义和几何先验来增强除雪。本文还提出了一种基于双树小波变换的分层分解模式。Chen等人设计了SnowFormer,这是一个使用交叉关注来建立局部-全局上下文交互的框架。
除雾。Li等人提出了一种同时考虑大气光度和透射图进行除雾的CNN。Ren等人[63]主张采用预处理方法处理模糊图像,从而产生多种输入模式,并在此过程中诱导色差作为其去雾过程的一部分。还引入了一种分层密度感知网络,专门用于图像去雾[92]。Zheng等人[97]制定了一种基于课程的对比正则化去雾方法,旨在促进对比空间内的一致性。
一体化天气去除:近期一些研究工作试图通过单一网络解决各种由天气导致的图像质量下降问题。李等人 [33] 提出了一个一体化网络,该网络包含一个由多个特定任务编码器和一个共享解码器组成的生成器。瓦拉纳拉苏等人 [70] 展示了 TransWeather,这是一个基于 Transformer 的模型,具有单一的编码器 - 解码器结构,能够修复受各种大气条件影响的图像。还提出了一种自动选择受天气影响而质量下降的数据的流程,以增强现有模型 [91]。朱等人开发了 WGWS - Net [100],该网络能够在两个独立阶段学习一般性天气特征和特定天气特征。其他一些近期的研究工作也尝试通过采用概率去噪扩散模型 [53]、知识蒸馏 [10]、大规模预训练模型 [68]、混合专家模型 [49]、少样本学习 [24]、码本 [41, 71, 82]、自适应滤波器 [54]、知识分配 [74] 和域转换 [56] 等方法来解决恶劣天气去除问题。
基于变压器的图像恢复。自从视觉变压器(Vision Transformer, ViT)[14]用于视觉识别以来,变压器已经在一系列计算机视觉任务中获得了大量的应用[25,37,45,46,50,51,86]。特别是在低级视觉领域,图像处理变压器b[4]举例说明了如何在广泛的数据集上预训练变压器可以显着提高低级应用程序的性能。另一方面,U-former[75]引入了一种基于U-Net设计的变压器架构,用于恢复任务。Swin- ir[38]采用Swin Transformer[45]进行图像恢复。一些最新的基于变压器的方法被提出用于脱车[11,39]、除雪[1,43,65]、除雾[19,43,65]和一体化天气清除[70,72]。
与现有的基于transformer的方法不同,这些方法的自关注应用于固定的空间范围或仅仅是通道维度,我们的方法使动态范围的空间关注能够自适应地关注具有类似模式的天气引起的退化。
3方法
3.1总体架构
我们的Histoformer的整体架构框架如图2所示。假设输入是一张低质量图像I^{lq} \in \mathbb {R}^{3\乘以H\乘以W},我们对输入进行3*3的卷积来进行重叠图像的补丁嵌入。在网络主干的编码器和解码器中,我们安排直方图变换块(HTBs)来提取复杂的特征并捕获动态分布的退化因素。在同一阶段内,编码器和解码器通过跳过连接相互连接,从而在连续的中间特征之间建立联系,增强训练过程的稳定性。在每个阶段之间,我们应用像素unshuffle和像素shuffle操作来进行特征下采样和上采样。
图2:我们用于天气去除的Histoformer的整体架构。其主要组成部分是直方图转换器模块,由动态范围直方图自关注(DHSA)模块和双尺度门控前馈(DGFF)模块组成。在DHSA中,我们提出了两种类型的重塑机制,即双向直方图重塑和频率双向直方图重塑。
在每个直方图变换块(HTB)内,我们引入了动态范围直方图自注意力(DHSA)机制,以提取空间上动态变化的天气劣化特征,并增强局部和全局特征的聚合效果。此外,一个双尺度门控前馈(DGFF)模块被集成到直方图变换块中,用于丰富多范围特征的表示,从而有助于图像恢复过程。在编码阶段的每个层级中,我们的模型配备了一个粗跳连接(crude skip-connection),用于补充来自输入的原始特征,它由一系列操作组成,包括平均池化、逐像素卷积和深度可分离卷积。我们在第一层级之后启动粗跳连接,这种设置使得编码器能够更有效地专注于学习由天气导致的残差。通过这种混合式的构建方式,Histoformer 能够充分利用与天气无关的背景的自适应内容以及天气劣化模式的固有特征,从而有助于将不需要的劣化部分从潜在的清晰背景中分离出来。
3.2直方图变压器块
HTB作为我们的Histoformer的关键组件,包含两个关键模块,即DHSA和DGFF。这两个组件的安排是为了与层归一化相互作用,可以表示为:
式中\protect \rm LN表示层归一化,F_l表示第l阶段的特征。DHSA和DGFF的详细信息分别见3.2节和3.2节。
动态范围直方图自注意力 为了更好地捕捉动态分布的由天气导致的图像质量下降情况,我们开发了一个动态范围直方图自注意力(DHSA)模块。该模块包含一个涉及动态范围卷积的过程,此过程会对分数特征的空间分布进行重新排序,以及一个双路径直方图自注意力机制,它将全局和局部动态特征聚合结合起来。在通过 1×1 逐点卷积进行最终输出投影之前,重新排序后的特征会被还原到它们的原始位置,以保持空间一致性。
动态范围卷积。传统的卷积运算使用固定的核大小,导致有限的接受域范围,从而执行局部和小范围的计算。这种有限的卷积范围主要关注本地信息,与自我关注机制对远程依赖关系建模的能力自然不一致。为了解决这一限制,我们设计了一种动态范围卷积技术,通过在传统卷积操作之前仔细地重新排序输入特征。给定一个输入特征F\in \mathbb {R}^{C\乘以H\乘以W},我们沿着通道维度将其分为两个分支,即F_{1}和F_{2}。对于第一个特征分支,我们在水平和垂直方向上执行排序操作,随后将排序后的特征与第二个特征分支连接起来。所得到的重组特征然后通过随后的可分离卷积。整个过程阐述如下:
其中Conv_{1*1}是1*1的点向卷积,Conv^d_{3*3}是3*3的深度卷积,\protect \rm Concat是沿通道的拼接操作, Split表示沿通道维度拆分特征的操作,Sort_{i属于{ h, v}}表示水平或垂直排序操作。这种方法在矩阵的对角角处将高强度和低强度的像素组织成规则的模式,从而允许卷积跨动态范围执行计算。考虑到天气导致的退化通常表现出密切相关的模式,退化的像素倾向于集中在邻近的位置,与那些干净的像素分开。因此,这种安排使卷积核能够部分地专注于保留干净的信息,并单独恢复退化的特征。
Self-Attention柱状图。现有的视觉变压器[11,75,78,78,86,96]由于计算和存储效率的妥协,通常利用固定范围的注意力或仅仅沿着通道维度的注意力。然而,固定的设置限制了自注意自适应地跨越较长的范围来关联期望的特征。我们注意到,天气引起的退化会导致类似的模式,并且那些包含不同强度的背景特征或天气退化的像素最好分配不同程度的关注。因此,我们提出了一种直方图自注意机制,将空间元素分类为箱,并在箱内和箱间分配不同的注意。为了并行计算,我们在实现过程中设置每个bin包含相同数量的像素。
给定动态范围卷积的输出,我们可以将它们分为值特征V属于 {R}^{C*H*W}和两对查询键F_{QK,1},F_{QK,2}属于 {R}^{2C*H*W},然后传递到两个分支。首先对V的序列进行排序,并根据其索引对Query-Key对进行排序,表示为:
其中,{R}_{C*, H* W}^{C*HW}表示从 {R}^{C* W}到 {R}^{C* HW}的特征重塑操作,d是排序值的索引,Gather表示根据给定索引检索张量元素的操作。
然后给定bin B的个数,我们将排序后的特征从C*HW重塑为C*B*HW/B。为了同时提取全局和局部信息,我们定义了两种类型的重构,即双向直方图重构(BHR)和频率直方图重构(FHR)。第一种方法是将bin的个数设为B,每个bin包含HW/B元素;第二种方法是将每个bin的频率设为B,每个bin的个数设为HW/B。通过这种方式,我们可以通过BHR提取大规模信息,其中每个bin包含大量动态定位的像素,通过FHR提取细粒度信息,其中每个bin包含少量像素相邻的强度。这两对Query-Key特征分别经过两种类型的重塑和随后的自关注过程,它们的输出被元素明智地相乘以产生最终输出。该过程可表示为以下表达式:
其中k为正面数, {R}_ {i}属于{B,F}表示BHR或FHR的重塑操作, A_ {i}属于{B,F}表示得到的注意图。
双尺度门控前馈 先前的研究 [11, 75, 78, 86] 通常在标准前馈网络中利用单范围或单尺度卷积来增强局部上下文信息。然而,这些方法往往忽视了动态分布的由天气导致的图像质量下降情况之间的相关性。在实际应用中,不仅可以通过增大核尺寸,还可以利用扩张机制 [36, 84, 85] 来提取多尺度信息。因此,我们构想了一个双尺度门控前馈(DGFF)模块,该模块在信息传递过程中整合了两条不同的多范围、多尺度深度可分离卷积路径。
表1:三个天气清除任务在PSNR和SSIM方面的定量比较,其中数值越高表示性能越好。表格的上半部分显示特定任务方法的结果,而下半部分显示对统一的多天气模式的评估。最好和次好的结果用粗体和下划线表示。带*的表示源代码不可用的方法。
表1:三个天气清除任务在PSNR和SSIM方面的定量比较,其中数值越高表示性能越好。表格的上半部分显示特定任务方法的结果,而下半部分显示对统一的多天气模式的评估。最好和次好的结果用粗体和下划线表示。带*的表示源代码不可用的方法。
给定一个输入张量F_{l} 属于 {R}^{C*H*W},我们最初采用逐点卷积运算将通道维度增加R倍。在此增加之后,扩展的张量被定向到两个平行分支。在整个特征变换过程中,采用了5\× 5和扩展的3× 3深度卷积来增强对多范围、多尺度信息的提取。在门限机制[13]之后,第二个分支的输出在通过激活后充当另一个分支的门限映射。因此,DGFF模块内部完整的特征融合流程如下:
其中, Conv^{d}_{5*5}表示5*5深度卷积,\protect \rm Conv^{d}_{3*3}是3*3展开深度卷积, Shuffle和Unshuffle分别表示像素洗选和解洗选操作, Mish表示Mish激活[52],F_{l +1}是当前阶段传递到1 +1 -th第1阶段的输出。
3.3重构损失和相关损失
我们使用恢复的高质量图像I^{hq}与地面真值I^{gt}的像素级差的l1范数作为重建损失,即:
此外,我们注意到\(\mathcal{L}_{rec}\)(重建损失函数)仅规范了恢复后图像与真实图像之间的像素级相似性,却忽略了图像块级别的线性相关性。图像内强度的内在关系会因天气导致的图像质量下降的固定模式而遭到破坏。 通过模拟真实图像内的强度关系,我们迫使受影响的像素根据原始强度排序回到它们的原始位置。因此,我们引入了图像之间的皮尔逊相关系数[12]作为一种规范线性关系的手段,其表达式如下:
其中I^{{\cdot}}_i{表示图像的第I个像素},\protect\overline I{^}{{\cdot}}和\sigma\left (I^{{\cdot} }\right)分别表示图像序列的均值和标准差。取值范围为[-1,1]。当两幅图像完全相关时,\rho函数值为1,当两幅图像负相关时,函数值为−。因此,我们将相关损失表示为:
使得\protect \mathcal {L}_{cor}=0,此时恢复的图像与groundtruth完全一致。因此,总体损失函数定义为:
其中是相关损失的权重。
图3:Snow100K[44]上的降雪目视对比。(b)至(e)的样本为Restormer[86]、TransWeather[70]、WGWSNet[100]、WeatherDiff[53]。
图4:室外雨桶除雾和除雾的视觉对比。(b)至(e)的样本为Restormer[86]、TransWeather[70]、WGWSNet[100]、WeatherDiff[53]。
4实验
4.1实验设置
数据集。我们在与先前研究 [33, 53, 70] 相同的数据集上对我们的模型进行训练,以确保公平比较。训练集包含从 Snow100K [44] 中选取的 9000 张图像、从 Raindrop [57] 获取的 1069 张图像以及从 Outdoor - Rain [32] 获取的 9000 张图像。Snow100K 包含因降雪而受损的合成图像,Raindrop 则由受真实雨滴影响的图像组成,Outdoor - Rain 的特色是包含受雾和雨丝双重影响的合成图像。为了进行评估,我们使用了 Test1 数据集 [32, 33]、RainDrop 测试数据集 [57] 以及 Snow100K - L 和 - S 测试集 [44]。Snow100K 还提供了一个包含 1329 张受恶劣天气影响的真实世界测试集。
比较基准。 我们将自己的方法与专门针对不同天气去除任务(雨滴去除、降雪去除以及雨雾去除)设计的最先进方法进行性能对比评估。 具体而言,在降雪去除方面,我们以SPANet [73]、JSTASR [8]、RESCAN [34]、DesnowNet [44]以及DDMSNet [94]作为基准进行对比。在雨雾去除的情况下,我们与CycleGAN [98]、pix2pix [20]、HRGAN [32]、MPRNet [87]以及Restormer [86]进行比较。对于雨滴去除,我们针对pix2pix [20]、DuRN [42]、RaindropAttn [59]、AttentiveGAN [57]等方法进行评估。 此外,我们还将一些近期的Transformer或多退化恢复网络,如IDT [78]、NAFNet [6]、MAXIM [69]以及Restormer [86]纳入到我们的对比分析当中。值得注意的是,所有这些方法都是针对特定数据集进行微调的单任务网络。
此外,我们还与all -in- one网络[33]、Chen等[10]、TransWeather[70]、WGWS-Net[100]、WeatherDiff[53]和AWRCP[82]进行了性能比较,这些网络都是使用统一模型训练来处理上述所有任务的。请注意,我们的方法也经过训练,可以使用单个模型来处理所有这些任务。
训练细节。我们的实现是通过PyTorch [55]在NVIDIA Tesla V100 GPU上完成的。网络总共训练300,000次迭代,初始批量大小为8,初始图像块大小为128,这与渐进式学习流程[86]类似。 我们采用AdamW优化器[48],在前92,000次迭代中,初始学习率设为\(3\times10^{-4}\),在剩下的208,000次迭代期间,使用余弦退火策略[47]将学习率逐渐降低至\(1\times10^{-6}\)。 每个阶段\(L_{i\in \{1,2,3,4\}}\)的模块数量设置为\(\{4,4,6,8\}\),通道大小\(C\)为36。DGFF(双尺度门控前馈)中的通道扩展因子\(r\)设置为\(2.667\)。不同阶段自注意力机制中的头的数量分别设置为\(\{1,2,4,8\}\)。 我们随机应用水平翻转和垂直翻转作为数据增强技术。
图5:raindrop[57]上雨滴去除的视觉对比。(b)至(e)的样本为Chen et al[10]、TransWeather[70]、WGWSNet[100]、WeatherDiff[53]。
图6:在Snow100K[44]上实际恶劣天气去除的定性比较。(b)至(e)的样本为Chen et al[53]、Restormer[86]、TransWeather[70]、WGWSNet[100]、WeatherDiff[53]。
4.2与最先进技术的比较
定量评价。在我们的研究中,我们对应用于合成数据集和真实数据集的指标进行了全面的比较分析,如表1所示。为了进行公平和有充分根据的比较,我们利用了最近的多种降解去除方法,如MPRNet[87]、MAXIM[69]和Restormer[86],并将它们作为每个基准的特定天气方法。此外,我们使用全天候训练数据集[33,53,70]重新训练了包括Chen等[10]和WGWS-Net[100]在内的一体化恶劣天气去除方法。这种详尽的比较表明,我们提出的方法在三种不同类型的退化中比现有方法具有显着的性能优势。
定性评估。此外,我们对三个任务进行了可视化比较,结果分别如图3、4、5所示。图6显示了一个真实世界的天气移除案例。这些结果表明,我们的方法在综合消除积雪退化方面表现出色,包括小雪点和大雪点。相比之下,最近的WeatherDiff[53]方法仍然表现出一些残雪退化,其恢复细节的能力不是最优的。当涉及到具有挑战性的天气条件的恢复,我们的方法擅长于去除复杂的雾霾和雨的痕迹,与之前的方法相比,产生视觉上吸引人的结果。
4.3消融研究
为了证实Histoformer中每个成分的有效性,我们对Outdoor-Rain[32]进行了一系列消融研究。特别是,我们研究了动态范围卷积、DHSA模块、DHSA中的箱数、DGFF模块和相关损失的影响。
动态范围卷积。我们实验了动态范围卷积的两种设置,即先水平排序后垂直排序再进行卷积,以及反向排序。此外,我们将它们与香草卷积进行了比较,结果显示在表2中。常规排序操作的性能提升为0.14 dB,排序操作的顺序对结果影响不显著。
表2:动态范围卷积的消融研究
表3:消融研究的自我注意设计
表4:消融对DHSA中bin数量的研究
表5:前馈模块选择的消融研究
表6:相关损失设置的消融研究
DHSA。为了评估所提出的DHSA模块的有效性,我们与两个基线进行了比较,即multi-Dconv头转置注意(MDTA)[86]和top-k稀疏注意(TKSA)[11]。此外,我们通过排除BHR分支或FHR分支来探索DHSA的两个附加设置。定量分析结果如表3所示。
MDTA和TKSA都跨通道集成了丰富的信息,这可能导致对跨空间维度的远程信息的开发损失。虽然我们的直方图自我注意可以捕获空间上的远程信息,但使用单个BHR或单个FHR分支都忽略了bin间或bin内的关系,导致结果较差。通过结合动态范围卷积和双分支直方图自注意,能够提取远程空间特征,我们的DHSA提高了性能,与TKSA相比,PSNR提高了0.96 dB。
箱数。为了评估箱数对DHSA的影响,我们进行了5个不同值的实验:12、20、28、36和44。结果如表4所示。可以观察到,不断增加箱子的数量可以提高性能。但是,当bin的数量超过44时,就会导致内存不足错误。
双尺度门控前馈(DGFF)。为了评估所提出的 DGFF 模块的有效性,我们与四个基准模型进行了比较:(i)普通前馈网络(FN)[38];(ii)门控深度可分离卷积前馈网络(GDFN)[86];(iii)双自适应神经块(DANB)[96];(iv)混合尺度前馈网络(MSFN)[11]。定量分析结果呈现在表 5 中。虽然 MSFN 整合了混合尺度信息,但它可能仍然遗漏了对多范围空间知识的利用。通过纳入不同范围的像素重排和特征聚合操作,我们的 DGFF 进一步提升了性能,相较于 MSFN 实现了 0.3 dB 的峰值信噪比(PSNR)增益。
相关的损失。表6显示了相关损失的有效性及其权重的影响。很明显,
可以持续地提高性能,而具体的减重对最终结果没有实质性的影响。因此,我们将损失权值默认为1。
图7:两幅雪景图像[44]的真实风化及其在谷歌API上的下游检测结果
4.4实际应用
为了进一步证明我们的方法对现实世界恶劣天气去除的实际适用性及其改善下游检测任务的潜力,我们在图7中提供了两个示例。如图所示,我们的Histoformer有效地从场景中消除了雪花,并帮助检测器识别被忽略的门和建筑。
5结论
在本研究中,我们引入了一种新的直方图自关注机制,并设计了一种名为Histoformer的直方图转换器来解决一体化天气去除的挑战。我们的直方图自关注包括将空间特征分割成多个bin,并沿着bin或频率维度分配不同的注意力,允许它有选择地关注动态范围内与天气相关的特征。为了方便多范围和多尺度信息的学习,我们提出了DGFF模块和相关损失。通过大量的实验,我们证明了我们的方法的有效性和优越性。