通过多感受野非局部网络和新的对比正则化实现精确和轻量级的去雾
【注:该论文没有公布源码】
摘要
最近,基于深度学习的方法已经主导了图像去雾领域。尽管已经通过复杂的模型实现了非常有竞争力的去雾性能,但提取有用特征的有效解决方案仍然没有得到充分探索。此外,在许多视觉任务中取得突破的非局部网络尚未被适当地应用于图像去雾。因此,本文提出了一种由多流特征注意块(MSFAB)和交叉非局部块(CNLB)组成的多感受野非局部网络(MRFNLN),从提取更丰富的去雾特征入手,设计了多流特征提取(MSFE)子块,它包含三个具有不同感受野的平行卷积(即1 × 1,3 × 3,5 × 5)进行多尺度特征提取。在MSFE之后,我们引入了一个注意子块,使模型自适应地聚焦于重要通道/区域。MSFE和注意子块构成了我们的MSFAB。然后,我们设计了一个交叉非局部块(CNLB),它可以捕获查询之外的长范围依赖关系。代替查询分支的相同输入源,通过融合更多的先前特征来增强键和值分支。CNLB通过利用空间金字塔下采样(SPDS)来实现计算友好在不牺牲性能的情况下减少计算和内存消耗的策略。最后但同样重要的是,提出了一种新的聚焦细节的对比正则化方法,该方法强调低层细节,忽略高层细节,综合实验结果表明,所提出的MRFNLN模型优于最近的国家的最先进的去雾方法与不到150万个参数。
图像去雾,多流特征关注块,交叉非局部块,聚焦细节的对比正则化。
一.引言
在模糊场景下拍摄的图像通常会在对比度或颜色失真方面遭受明显的视觉质量下降[1],从而导致在输入某些高级视觉任务时性能显著下降在这些任务中,对无雾图像的要求非常高,因此,单图像去雾,其目的是从相应的模糊图像恢复干净的场景,在过去的十年里,学术界和工业界[2],[3]。引起了极大的关注
作为一项基础性的低层图像恢复任务,研究雾霾的产生机理具有重要意义。在形式上,雾化过程由大气散射模型(ASM)描述[4],[5]:
其中I表示观察到的模糊图像,J表示无模糊图像,A表示描述环境光强度的全局大气光,t表示透射图,并且x是像素坐标。
给定模糊图像,恢复其干净版本是高度不适定的。早期的方法倾向于通过引入各种先验来解决这个挑战,例如暗通道先验(DCP)[6],[7],非局部先验(NLP)[8],颜色衰减先验(CAP)[9]等。这些先验试图在一定程度上限制解空间,增加场景可见性。然而,去雾效果很大程度上依赖于所采用的先验分布与真实的数据分布的一致性,当这些先验分布的假设不满足时,恢复的图像会失真/变色。
在过去的十年中,卷积神经网络(CNN)取得了突破性进展,许多研究人员提出了许多数据驱动的方法[10]-[18]。其中一些使用CNN来估计方程1中的A和t(x),然后相应地导出无雾预测[10]-[13]。另一种是直接学习模糊图像与地面真实值之间的关系,从而重建出无模糊的潜在图像(或霾残留)[14]-[18]。通常,他们试图通过增加网络的深度和宽度来提高去霾性能。然而,这种模型的参数数量和训练难度将大幅增加,如图1所示。在本文中,我们的动机是探索不同的方法来改善在恢复精度和计算效率方面的去雾性能。
尽管目前基于CNN的方法性能显著,但其表达能力(或模型容量)仍然有限,这在很大程度上依赖于特征提取。在去雾过程中,自然场景的多尺度特性往往被忽略。由于不同场景或其中的对象具有丰富的细节和不同的大小/形状,因此理想的特征提取方法应该是场景/对象相关的。然而,基于CNN的去雾方法通常采用固定大小的卷积层[14]-[16]。这种具有相对固定和单一感受野的卷积层不足以覆盖相关区域,无法解决在这种场景下捕获的模糊图像。
本文提出了一种多流特征提取(MSFE)模块,该模块包含三个不同感受野的并行卷积来提取多尺度特征,其中大感受野负责大尺度信息,例如密集模糊区域,此外,我们还采用了一个由通道注意力和空间注意力组成的注意力模块,使特征提取器自适应地聚焦于重要通道或区域,MSFE和注意力模块构成了我们的多流特征注意力块(MSFAB)。
第二个改进是调整非局部网络[19]使其适合图像去雾。非局部网络[19]可以使模型能够探索整个图像之间的全局信息关系,已应用于许多视觉任务(例如,超分辨率[20],[21],语义分割[22])。虽然已经取得了非常有希望的结果,非局部网络在图像去雾领域的应用较少,其主要原因是计算量大,占用GPU内存大,阻碍了其实用化,因此,如何将非局部网络应用于图像去雾是一个很有前途的研究方向,本文提出了一种交叉非局部块(CNLB)算法,以扩展长距离非局部块的搜索空间。范围依赖,同时简化矩阵乘法。前者通过探索查询输入内外的相似性来实现。键和值分支的输入不再与查询相同,后者是通过引入空间金字塔下采样(spatial pyramid down-sampling,SPDS)策略实现的。
目前,对比正则化(CR)被嵌入到损失函数中,将预测图像拉到干净图像,从模糊图像中推出来(在表示空间中)[16]。以前,(详细信息)和高级别(语义信息)特征图被用来构建表示空间。然而,我们注意到,给定某个图像,最后,本文提出了一种新的基于细节的对比正则化方法(DFCR),通过强调低层细节来优化训练方向。
基于上述改进(即MSFAB,CNLB,DFCR),我们提出的MRFNLN模型优于现有的最先进的去雾解决方案[14]-[16],如图1所示。本文的主要贡献总结如下:
本文设计了一个有效的局部特征提取模块--多流特征注意块(MSFAB),它包含三个不同感受野的并行卷积(即,1×1、3×3和5×5),信道注意机制,和空间注意机制(有扩张的回旋)这种简单的设计可以通过引入多个感受野来提高网络的表现能力,并且通过自适应地集中于重要的信道/区域。
提出了一种基于交叉非局部块的图像去雾算法,该算法通过搜索相似度来扩展长程相关性的搜索空间,并引入了一种空间金字塔下采样策略,以减少计算量和GPU内存的限制,提高了算法的效率。
提出了一种新的细节聚焦的对比正则化(detail-focused contrastive regularization,DFCR)算法,该算法通过在表示空间中强调低层细节信息而忽略高层语义信息,在推理阶段不增加额外的计算量和参数,从而提高了去雾性能,并结合上述改进,提出了三层U-Net结构,即:多感受野非局部网络(MRFNLN),其在小于150万个参数的模型中实现了最先进的性能。
本文的其余部分组织如下。我们首先在第二节中回顾了一些基于深度学习的去雾方法。第三节详细描述了所提出的MRFNLN模型,第四节展示了一些实验结果。最后,第五节总结了本文。
二、相关工作
传统的去雾方法旨在设计手工先验来限制解空间,例如暗通道先验(DCP)[6],[7],非局部先验(NLP)[8]和颜色衰减先验(CAP)[9]等。最近,数据驱动方法[10]-[18]通过实现令人难以置信的性能而主导了这一领域。这些方法背后的基本假设是,可以通过卷积神经网络(CNN)从大量模糊-干净图像对中学习从受损数据到地面实况或中间模糊相关变量的映射。
A.深度图像去雾
随着深度学习的兴起,深度去雾模型取得了很大的进步,Cai等人[10]提出了一种可训练的基于CNN的模型,称为DehazeNet,用于估计传输图(即,t(x)),其随后用于通过ASM导出无雾图像[4],[5]。类似地,Ren等人[11]设计了多尺度CNN在一些实施例中,可以使用MSCNN(即,MSCNN)来估计粗略级别的传输图,并且稍后将其细化到精细级别。全球大气光(即,A)分别估计的经验规则DehazeNet和MSCNN方法。通过重新制定ASM,AOD-Net [12]将t(x)和A统一为一个变量。因此,它们可以同时估计。然而,如果t(x)和A的估计不准确或有