USCFormer: 基于语义对比学习的图像去雾统一变压器2023

摘要:雾霾严重降低了场景物体的可见度,降低了自动驾驶、交通监控等基于视觉的智能交通系统的性能。作为一种潜在的补救措施,我们提出了一种用于图像去雾的具有语义对比学习的新型统一变压器,称为USCFormer。USCFormer有三个关键贡献。首先,USCFormer吸收了CNN和Transformer各自的优点,将它们合并成一个统一的Transformer格式。因此,它允许同时捕获全局-局部依赖特征,以获得更好的图像去雾。其次,通过将干净/模糊图像作为正/负样本,对比约束促使恢复图像更接近真实图像(正)而远离模糊图像(负)。第三,我们将语义信息作为重要的先验知识来帮助USCFormer减轻雾霾对场景的影响,并通过利用目标内语义相关性来保留图像细节和颜色。在合成数据集和真实朦胧照片上的实验充分验证了USCFormer在感知质量评价和主观评价方面的优越性。代码可从https://github.com/yz-wang/USCFormer获得。

目前的图像去雾技术大致可以分为两大类,即基于先验的和基于学习的方法。基于先验的研究通常是利用手工制作的先验[5]、[6]、[7]、[8]来估算全球大气光的透射图,然后基于大气散射模型恢复无雾图像[9]。尽管这些基于先验的算法提高了整个图像的整体可见性,但并不是所有情况下都适用,因为在实践中先验很容易被违背,往往产生不理想的去雾效果。

最近,随着深度学习的进步,人们提出了大量基于学习的去雾算法[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]来克服基于先验方法的缺点。他们通常利用卷积神经网络(cnn)或transformer[18],以端到端的方式直接从相应的模糊图像中恢复干净的图像。尽管这些技术更有效,并且优于传统的基于先验的智慧,但仍然存在一些具有挑战性和未得到很好解决的问题,限制了它们的除雾性能。

首先,尽管cnn通过小邻域卷积操作提取局部特征是有效的,但有限的接受域使得难以捕获全局依赖特征。其次,基于变压器的网络中复杂的自关注运算通常导致高冗余,无法有效捕获局部特征细节。第三,现有的除雾方法大多只采用干净图像作为正样本来指导网络的训练,而忽略了对模糊图像作为负样本的利用。这些负样本也可以提供有益的监督信息,以促进前沿算法的去雾能力。如图1 (d)所示,通过保留更多的图像细节和颜色信息,同时利用正样本和负样本有利于生成更清晰的图像。第四,未探索的高级语义信息很重要,可以被视为有利于除雾任务的线索,而这通常被当前的除雾方法所忽略。理论上,模糊图像与其对应的无雾图像(即ground truth)具有相同的语义信息,这是一条重要的先验知识,可以用来指导网络的训练。另一方面,属于同一语义范畴的对象通常具有相似的结构和颜色特征,便于网络恢复图像(见图1 (e))。

图1所示。USCFormer中不同组件的影响。从(a)到(f):(a)朦胧图像,以及(b) Swin Transformer[4]的去雾结果,(c)我们的统一Transformer网络,(d)带负样本的统一Transformer网络(无SCR), (e)我们的完整模型(统一Transformer网络+负样本+ SCR),以及(f)地真图像。SCR是语义一致性正则化模块。

为了解决这些问题,我们提出了一种用于图像去雾的具有语义对比学习的新型统一变压器,称为USCFormer。USCFormer巧妙地将CNN和Transformer以统一的格式结合在一起,并从这两种模型中获益,从而能够捕获全局和局部依赖关系,从而帮助网络生成更自然、更逼真的图像(见图1 (c))。此外,为了充分利用负面样本(朦胧图像)的附加监督信息,我们利用对比约束[19],促使恢复后的图像与真实底面图像(正样本)相互靠拢,同时使其远离朦胧图像。此外,考虑到语义信息可以为恢复物体结构和颜色提供有价值的线索,我们开发了一种有效的语义一致性正则化(SCR),以帮助模型更好地从朦胧图像中保留结构和细节。SCR利用估计的语义标签作为重要的先验知识来帮助USCFormer学习语义引导的特征,然后将其与粗糙的眩晕结果融合以进一步去除雾霾。这样,USCFormer可以更好地还原图像的结构和颜色,并保留更多的细节。在合成试验台和真实世界图像上进行的大量实验证明,USCFormer远远优于最先进的(SOTA)除雾算法。

综上所述,本工作有以下贡献:

•提出了一种名为USCFormer的新型统一Transformer网络用于图像去雾,该网络无缝集成了CNN和Transformer各自的优点,以帮助网络产生更具判别性的特征表示。此外USCFormer利用高级语义信息和对比学习范式进一步提高模型的除雾能力,生成具有丰富细节的高质量无雾图像。

•我们将语义信息视为有价值的先验知识,并开发了语义一致性正则化模块,该模块利用估计的语义标签作为指导,帮助USCFormer学习语义引导特征,更好地帮助USCFormer从模糊图像中保留结构、颜色和细节。

•通过大量的实验,对USCFormer与8种SOTA图像去雾方法进行了比较。结果评估在充分,减少,和无参考图像质量评估,人类主观调查和视觉质量。显然,我们的USCFormer优于其竞争对手。

剩下的工作安排如下。在第二节中,我们从现有的单幅图像去雾算法、图像恢复的对比学习和语义分割的引入三部分简要回顾了相关工作。在第三节中,我们介绍了用于图像去雾的USCFormer的细节。第四节描述了实施的实验并分析了结果,第五节给出了结论。

图像去雾中的变压器:受到视觉变压器(Vision transformer, vit)在各种计算机视觉任务中的成功[4]、[18]、[25]、[26]、[27]的启发,Zhao等[28]首次将vit引入到去雾网络的设计中。他们通过共同学习图像的固有分解和去雾,开发了一种基于局部-全局混合变压器的图像去雾网络。后者,Song等[29]提出了一种改进型Swin Transformer,名为DehazeFormer,用于图像去雾,该方法引入了各种改进,以提高网络的性能。Valanarasu等[30]开发了一个端到端基于变压器的网络,可以恢复任何天气条件下退化的图像。最近,Yang等人[31]提出了一种用于图像去雾的多尺度Transformer融合网络MSTFDN,该网络由多尺度Transformer块、特征增强模块和颜色恢复模块组成。

对比学习[32],[33],[34],[35]是一种自我监督学习范式,旨在将相关(正)样本拉到一起,同时将不相关(负)样本推到表示空间中。此前,对比学习被广泛应用于各种高级视觉任务中[34],[36],[37],因为这些任务具有对正样本和负样本之间的对比进行建模的固有特性。最近的几项研究[19]、[38]、[39]、[40]发现了将对比学习应用于低水平任务(如低光图像增强和图像去雾/脱雾)的有效性。Liang等[38]开发了一种对比学习范式来恢复弱光图像的亮度。Wu等[19]开发了一种对比正则化项,利用朦胧和干净图像的信息来更好地去雾。Ye等[40]提出了一种非局部对比学习(non-local contrast learning, NLCL)框架用于非配对图像去训练,该框架将干净图像斑块作为正样本,将雨层斑块作为负样本,以更好地恢复无雨图像。

语义分割语义分割任务的目的是对具有相同目标类的图像像素与指定的标签进行聚类[41],[42]。近年来,已经提出了大量利用语义分割来解决高级视觉任务的方法,如道路检测[43]、光流估计[44]、3D重建[45]等。然而,很少有研究集中在利用语义分割来促进低级视觉任务,特别是图像去雾任务。Ren等[46]利用每个模糊帧中的语义信息来理解场景内容,从而更好地执行视频去模糊。后者,Xu等人[47]提出了一种深度网络,可以借助语义正则化自适应地去除雨纹。Zhang等[48]开发了一种同时利用立体图像和语义信息的配对除雨网络。最近,Zheng等人[39]提出了一种用于单幅图像分离的分割感知渐进式网络(SAPNet)。


模型构建

SCFORMER无缝融合了CNN和Transformer各自的优点。使模型能够捕获全局和局部依赖关系,以产生更具区别性的特征表示。此外,与现有的大多数去雾方法只采用干净图像来指导网络训练不同,我们充分利用了干净图像和模糊图像的有益信息,确保恢复的图像接近干净图像,远离模糊图像。此外,为了更好地保留模糊图像中的全局结构和局部细节,我们将语义信息作为先验知识,利用对象内语义一致性帮助去雾网络生成更清晰、更自然的图像。在本节中,我们首先介绍USCFormer的概述。然后,对设计的统一变压器网络进行了详细的描述。最后,详细阐述了对比约束模块和语义一致性正则化,揭示了它们在USCFormer中的工作原理。

USCFormer的整体架构如图2所示,其中包括一个统一的变压器除雾网络、一个对比约束模块和一个语义一致性正则化(SCR)模块。给定一个模糊图像x,我们首先使用统一的Transformer网络,通过重构损失(L1 + MS-SSIM损失[49]函数)产生粗去雾图像y。接下来,将y输入到以下对比约束模块和SCR模块中执行不同的任务,两者共同作用,提高USCFormer的除雾能力。最后,借助对比约束和高级语义信息的有意义引导,获得精细去噪图像y’。在设计中,USCFormer除了采用了精心设计的统一Transformer除雾网络外,还采用了两种主流网络:特征提取网络是众所周知的VGG19网络[50],语义分割网络是流行的DeepLapv3+[51]。因此,使用两个损失函数来训练我们的USCFormer,即重建损失对比约束损失

USCFormer概述。它由三个主要部分组成:统一的变压器除雾网络、对比约束模块和语义一致性正则化(SCR)模块。USCFormer利用对比学习和高级语义引导来利用模糊图像(负样本)和语义引导信息来提高模型的去雾能力。因此,当输入朦胧图像时,USCFormer通常会生成高质量的无雾图像,且细节丰富。

统一变压器除雾网络

cnn和ViTs[18]是计算机视觉领域的两大主流模型。尽管这两种框架在不同的领域都非常有效,但视觉任务各自的局限性可能会影响图像去雾模型的性能。具体来说,cnn的接受野通常是有限的,难以捕捉到全局依赖特征,而vit由于复杂的自注意操作,往往会导致高冗余,无法有效捕捉到局部特征[52]。为了解决这些问题,我们开发了一种新颖的统一Transformer块,巧妙地将CNN和ViT的各自优势集成在一个简洁的Transformer格式中。

考虑到Swin Transformer[4]在捕获输入特征之间的全局依赖关系方面非常有效,而其计算复杂度与图像大小呈线性关系,我们采用该框架作为Transformer组件的主干。统一变压器网络的架构和配置如图3和表1所示。如图1所示,每个统一变压器模块由三个模块组成:Swin Transformer模块、卷积干和特征融合模块。在我们的设计中,Swin Transformer模块负责捕获全局依赖特征,而卷积系统用于提取局部特征细节,两者可以相互促进以产生更具判别性的特征表示。特征融合模块是由卷积运算、归一化层和激活函数组成的简单网络,但它可以有效地融合全局和局部特征。与现有方法直接从模型的最后一层输出去雾图像不同,我们采用卷积投影块融合不同统一Transformer块的中间特征,可以丰富输出特征,使最终恢复的图像更加清晰

图3所示。变压器统一除雾网络的体系结构。在设计中,使用四个统一的Transformer块从输入模糊图像中提取全局局部特征表示,其中每个Transformer块是由一个CNN和一个Transformer模块组成的两个分支单元。然后,将来自不同Transformer块的分层特征转发到卷积投影块以生成最终的恢复图像。

整个流程如图3所示:首先将输入的模糊图像分割成不同的patch,然后将其送入Swin Transformer[4]块中提取全局特征表示。同时,在主块中引入卷积干,从输入特征中提取局部特征。接下来,通过特征融合模块将从Transformer块中提取的全局特征和从卷积干中提取的局部特征进行融合,以更好地恢复干净的图像特征。

在我们的统一Transformer去雾网络中,总共使用了4个统一Transformer模块来提取多层次特征,并将这些特征转移到一个卷积投影块中,从而产生最终的恢复图像。

对比约束

受低层次视觉任务中对比学习成功的启发[19],[40],我们利用对比学习范式来帮助USCFormer产生更多的视觉愉悦。对比学习的目标是将锚定样本与正样本拉到一起,同时将它们从负样本中推开。将对比学习应用到图像去雾任务中,需要考虑两个方面:一是如何构造正样本和负样本,二是如何定义这些样本的潜在特征空间进行对比。

在对比约束中,我们将输入的模糊图像、真实图像和恢复图像分别作为负样本、正样本和锚定样本。此外,采用预训练的VGG-19模型[50]作为特征提取模块,提取不同样本的潜在特征。

我们从特征提取网络中分层提取隐藏特征,丰富特征表示以获得更好的对比。因此,对比约束损失[19]可表示为:

式中Gi (IP)表示真地图像IP(阳性样本)的第i个潜在特征。因此,Gi (IN)和Giy '分别表示输入模糊图像IN(负样本)和恢复图像y '(锚定样本)的第i个隐藏特征。Wi为特征提取模块中提取的第i个隐藏特征的权重系数。在这里,我们选择从VGG-19网络的第1、3、5、9、13层提取特征,并将wi, i = 1、2、3、4、5分别设置为1 32、1 16、1 8、1 4、1。对比约束损失的引入使USCFormer能够更好地利用朦胧图像和干净图像的信息,还原更自然的去雾图像。

语义一致性正则化

同一语义范畴下的对象通常具有相似的结构和颜色,这为恢复对象的结构和细节提供了强有力的线索。也就是说,我们可以利用目标内语义相关性来约束合理的解空间,以便更好地去雾,同时保留朦胧图像中的大尺度结构和小尺度细节。为此,我们提出了一个有效的语义一致性正则化模块,该模块将高级语义信息作为重要的先验知识来指导USCFormer更好地恢复无雾图像。

SCR将预测的语义标签作为有意义的引导信息,帮助USCFormer学习语义引导特征,然后将其与粗去雾图像特征融合,帮助去除雾。如图4所示,

语义一致性正则化模块的详细结构。将生成的粗去雾图像与语义引导特征融合,生成精细去雾图像。精细去雾图像受益于高层次的语义信息,可以保留更多的对象结构、颜色和细节。RDB表示剩余致密块。

 

我们首先使用预训练的DeepLabv3+网络[51]从输入的模糊图像中估计语义映射,然后采用深度可分卷积提取语义引导特征。然后,利用高效残差密集块(RDB)对粗去雾图像y中的干净特征进行编码,进一步去雾。如图5所示,RDB是一种增强的残差网络,将残差学习和密集连接结合在一个统一的模块中,可以提取多尺度和更丰富的特征表示。最后,将提取的语义引导特征与粗去雾图像特征融合,生成精细去雾图像y′。通过这种方式,在高级语义信息的指导下,我们的USCFormer可以产生更清晰,更自然的无雾图像。语义一致性正则化模块的详细配置如表2所示。

除了对比约束损失外,我们还利用L1损失和多尺度结构相似性损失(MS-SSIM)[49]作为联合重建损失。事实上,研究[53]已经证明L1-norm在图像恢复任务中可以比L2norm获得更好的性能。遵循同样的策略,我们采用l1范数作为恢复损失的一个组成部分。

MS-SSIM损耗可表示为:

其中X、Y分别为最终去雾图像和真地图像。其中,uX, Y和σX, σY表示X和Y的均值和标准差,σX·Y表示它们的协方差。C1和C2是为了避免被0除而添加的两个小常数。在实验中我们设C1 = 0.0001, C2 = 0.0009。M为量表个数,根据[49]设为5。βm和γm表示这两个成分的相对重要性,为简单起见,均设为1。

因此,整体损失函数表示为:

 

其中,超参数λ1、λ2、λ3在实验中分别设置为1、1、0.02。对于这三个超参数,我们进行了大量的实验以确保它们的最优值

 结论:在本研究中,我们提出了USCFormer——一种具有语义对比学习的有效的统一变压器来解决图像去雾问题。为了利用CNN和Transformer各自的优势来促进图像去雾任务,提出了一种新的统一Transformer网络,同时学习全局和局部特征表示,以更好地恢复无雾图像。此外,USCFormer利用模糊图像作为负样本,为网络提供额外的监督信号,从而提高模型的除雾能力。此外,我们提出了一种新的语义一致性正则化(semantic consistency regularization, SCR)方法,利用未探索的高级语义信息作为有价值的先验知识来指导网络的训练,从而更好地帮助USCFormer恢复图像结构和细节。在合成数据集和真实模糊图像上的实验表明,USCFormer对SOTA去雾算法有较好的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值