SADnet: 基于注意机制的半监督单幅图像去雾方法2022

摘要:许多现实生活中的任务,如军事侦察和交通监控需要高质量的图像。然而,在有雾或雾霾天气下获取的图像对这些现实任务的实施构成了障碍;因此,图像去雾是一个重要的研究问题。为了满足实际应用的要求,单一的图像去雾算法必须能够有效地处理真实世界的朦胧图像,具有较高的计算效率。在这篇文章中,我们提出了一个快速和强大的半监督去雾算法SADnet的实际应用。SADnet利用合成数据集和自然模糊图像进行训练,因此它对现实世界的模糊图像具有良好的泛化能力。此外,考虑到雾霾在大气环境中的不均匀分布,信道空间自注意(CSSA)机制,以提高所提出的SADnet的代表性的权力。大量的实验结果表明,该方法实现了良好的去雾性能和竞争力的运行时间相比,其他国家的最先进的图像去雾算法。

在这篇文章中,我们提出了一个半监督的单图像去雾算法与实际应用的潜力。建议的SADnet是一个完全端到端的模型训练合成和现实世界的朦胧图像;这些训练路径分别对应于受监督分支和无监督分支。此外,考虑到图像雾密度不均匀,不同区域(例如,轻雾和浓雾)应当被赋予不同的权重,然而,这种需要被大多数基于学习的图像去雾方法,尤其是半监督方法所忽略。我们提出了一个通道空间自我注意(CSSA)机制,由三部分组成:通道注意空间注意自我注意。通道注意力和空间注意力分别关注通道和空间特征,以强调有意义的信息,而自我注意力通过建模长程依赖关系进一步改善了网络表示。我们在监督训练阶段应用均方误差和感知损失,在无监督训练阶段应用总变差和暗通道损失。实验结果表明,该方法具有图像清晰、计算效率高的特点。

本工作的主要贡献如下:

- 考虑到单个图像去雾算法的实际应用,并受到半监督学习的启发,我们提出了一种快速的半监督去雾算法,该算法利用真实世界和合成的模糊图像来联合训练模型。

- 我们提出了一种信道空间自注意(CSSA)机制,该机制灵活地为特征分配权重,并影响网络更多地关注重要信息,从而提高网络的去雾性能。

- 我们定性和定量地分析了所提出的算法,结果表明,所提出的SADnet优于其他国家的最先进的图像去雾方法在合成和现实世界的朦胧图像。

Single Image Dehazing

目前,有两种类型的竞争性方法用于单图像去雾:基于先验和基于学习的方法。在基于先验的方法中,利用各种手工制作的视觉线索来估计物理模型的中间参数。Tan [46]提出了局部对比度最大化去雾方法。基于统计观测ofclear户外场景,他等。[18]提出了一种新的暗通道先验(DCP),以准确估计传输图。由于DCP在图像去雾方面简单有效,因此随后提出了许多基于DCP的算法[5,16,19,34,45,50,60]来改善去雾效果。Zhu等人[61]首先通过线性模型恢复深度信息,然后使用深度信息恢复干净的图像。提出了一种基于非局部路径先验的全局方法[3]来估计每像素传输。提出了收缩场的交错级联[54],以在恢复无雾图像的同时降低噪声。然而,基于先验的方法强烈依赖于某些先验假设,这些假设仅在某些情况下有效;因此,这些方法不是普遍适用的。

与上述方法相比,基于学习的方法通常使用CNN从大规模训练数据中提取特征以用于去雾。Cai等人[4]提出了一种名为DehazeNet的可训练去雾模型来估计传输。Ren等人。[39]提出了一种多尺度去雾策略,由两级网络组成,用于估计粗透射和细透射。此外,提出了整体边缘引导模型[41]来细化预测传输的边缘。Zhang和Patel [57]利用密集连接的编码器-解码器网络来预测传输图和U-Net [42]来估计大气光。然而,中间结果的不准确估计总是导致低质量的去雾结果。除了上述用于优化透射图和大气光的方法之外,存在许多不预测中间参数的基于学习的方法。Li等人。[26]重新制定了大气散射模型,并设计了AOD-net来学习联合集成大气光和传输的映射关系。Ren等人。[40]提出了一种基于图像融合的端到端网络,该网络集成了基于三个物理模型生成的不同置信度图,以获得无雾图像。Chen等人[6]提出了一种平滑扩张卷积的特征提取方法,并采用门控融合技术融合不同层次的特征,实现图像去雾。Liu等人。[32]将GridNet从语义分割引入图像任务,并提出了一种基于注意力的GridDehazeNet用于单幅图像去雾。总之,这些方法在学习过程期间在合成图像数据上进行训练,并在真实世界的模糊图像上进行测试;因此没有很好地考虑自然模糊图像的特性。

Semi-supervised Learning

半监督学习[62]有着悠久的研究历史,当可用数据由少量标记样本和大量未标记样本组成时,它起着重要的作用。最近,许多基于半监督学习的方法[15,21,24,31,44,47,53]已经被提出用于计算机视觉任务。Huang等人[21]介绍了一种用于形状分类的多标签半监督方法。Souly等人[44]提出了一种半监督语义分割框架,该框架利用GAN为多类分类器构建额外的训练示例,并鼓励鉴别器学习更好的特征以实现更准确的像素分类。Wu和Prasad [53]提出了一种用于高光谱图像分类的半监督方法,该方法利用所有训练数据及其伪标签来预训练深度卷积递归网络,然后使用有限的标记数据对其进行微调。Tang等人。[47]通过使用自适应超图学习提出了一种半监督多标签图像注释方法。同样,为了充分学习自然模糊图像的特征,本文提出了一种半监督的单幅图像去雾算法。

Attention Mechanisms

在人类的感知中,注意力通常意味着人类视觉系统集中在显著区域[22]-即输入场景中最重要和信息量最大的部分-在那里它自适应地处理视觉信息。最近,许多研究在深度学习框架中嵌入了注意力机制,以处理和增强CNN;这些包括序列到序列任务[10,30,48]和图像视场[7,20,49,52,56,59]。特别地,Vaswani et al.[48]提出了Transformer架构,通过完全依赖于自注意机制来捕获输入和输出之间的全局依赖关系,并将其应用于序列转导域。Zhang等人[56]在传统的生成对抗网络(GAN)框架中引入了自注意模块,提出了自注意生成对抗网络(SAGAN),该网络在图像生成任务上表现出良好的性能。提出了一种通道注意机制[59]用于图像超分辨率以捕获特征通道之间的相互依赖性,并且自适应地重新缩放通道特征。Woo等人。[52]提出了一种称为CBAM的样本和有效的注意力机制,它可以无缝嵌入到任何CNN架构中。CBAM在检测和分类任务上取得了良好的性能。对于单个图像去雾,Qin et al.[38]提出了一种特征融合注意力网络(FFA-Net)来恢复干净图像,但FFA-Net在自然场景中泛化能力有限。在注意力机制的启发下,提出了一种半监督框架下的多注意力融合机制,从三个方面对输入场景的全局依赖关系进行建模,使网络能够更多地关注最有意义的特征。

图一.架构的建议半监督框架图像去雾。Conv、DeConv、InsNorm和ReLU分别表示卷积、去卷积、实例归一化和ReLU激活函数。该网络被设计为自动编码器。编码器由三个卷积块组成,解码器由一个去卷积块和两个卷积块组成,其中插入七个平滑膨胀残差块以聚合信息。为了有效地融合特征,利用多注意力融合机制。


 Network Architecture

所提出的网络遵循一个示例自编码器结构。首先将输入模糊图像传入编码器部分以进行特征提取。具体来说,编码器由三个卷积层组成,其中最后一个卷积操作将特征映射降采样到原始大小1/2。

接下来,使用平滑扩张卷积[6]进行特征增强,涉及7个平滑扩张残差块。与传统的残差块不同的是,平滑扩展残差块采用扩展卷积而不是正则卷积层。考虑到扩展卷积中输入单元之间不存在依赖关系,在扩展卷积之前利用可分离共享卷积[51]来消除由此产生的网格伪影。在平滑扩展卷积的基础上,在每个卷积层之后增加实例归一化和ReLU层。

为了适应雾密度不均和图像结构细节不明显的情况,我们提出了一种多注意融合机制,该机制由通道注意空间注意自注意三部分组成。这种多注意力融合的结构是基于图像去雾过程的。首先,考虑到卷积提取的不同层次的特征映射包含不同重要程度的信息,我们提出了一个融合上述残差块输出特征的通道注意模块。然后,基于图像中雾的分布并不总是均匀的这一重要观察,我们采用空间注意机制将不同的权重分配到图像的不同区域。最后,利用自关注模块对广泛分离的空间区域之间的长期、多层次依赖关系进行建模,以恢复更清晰的结构细节。通道和空间注意是轻量级结构,而自注意机制处理小维特征映射。因此,多注意力融合机制不会导致算法计算复杂度的显著增加。

经过解码运算,得到最终的无雾输出。对称地,解码器还包含三个卷积层,其中第一个反卷积层向上采样特征映射回其原始大小

Channel-spatial Self-attention

在有雾图像中,雾的分布密度是不均匀的;因此,不同的特征区域应该被赋予不同的权重。此外,卷积对具有局部感受野的信息进行操作;因此,仅使用卷积层很难对图像中的全局依赖关系进行建模。CSSA机制由三部分组成。首先,给定一个模糊的图像,我们使用通道注意力使模型关注有价值的内容是什么,然后使用空间注意力关注特征中最有信息的部分在哪里。最后,我们利用自注意机制进一步增强表征感兴趣区域的能力。

Channel Attention

考虑到不同层次的特征在经过卷积运算后所代表的信息不同,它们的重要程度也应该不同。因此,我们提出了一种通道注意机制来自适应地为不同的信道特征分配权重。通道注意模块的框架如图2所示。令X = [x1,…], xk,……, xK]为输入,K表示特征映射的个数,其大小为H ×W。在本文中,K的值为8。我们首先使用平均池化和最大池化来聚合特征映射中的空间信息,产生两个不同的通道描述符:zc avд和zc max,分别表示平均池化特征和最大池化特征。其公式可计算如下:

式中,xk (i, j)为第k个特征xk在(i, j)处的值,HGP表示平均池化函数,HM P表示最大池化函数。

然后,将两个描述符向前传递给两个卷积层和ReLU激活函数,通过sigmoid函数得到信道注意图Mc。公式如下:

式中,δ和σ分别表示ReLU和sigmoid函数,Conv表示卷积运算。

最后,将输入F与Mc相乘,通过通道注意机制生成重新缩放的特征Fc:

 

其中·表示逐元素乘法。 

Spatial Attention.

由于整幅图像的雾密度并不总是相同的,因此我们使用空间注意力来利用特征之间的空间间关系,使模型更加关注信息部分,例如浓雾图像区域和包含纹理和细节的有价值的高频分量。空间注意模块的详细结构如图3所示。首先,使用平均池化和最大池化操作来聚合输入特征的通道信息。这两个特征可以表示为:

然后,将池化的特征进行串联,经过卷积层、实例归一化操作和sigmoid函数,得到空间注意图Ms: 

最后,我们将Ms与输入Fc相乘,得到空间注意机制的输出Fs:

 Self-attention.

我们还添加了一个自关注模块来提供额外的全局特性。自注意机制的详细结构如图4所示。自关注[56]机制补充了卷积操作,并有助于捕获跨图像区域的长期、多层次依赖关系。在这个操作中,首先是输入卷积特征映射x转换成两个空间f和д来计算注意力图。计算过程如下:

式中f (x) = Wf x, д(x) = Wдx, βj,i表示模型在合成第j个区域时对第i个位置的关注程度,N为输入特征中特征位置的个数。然后,将x变换为另一个特征空间h,并乘以βj,i,得到注意层oj的输出: 

其中h(x) = Whx。在上式中,Wf、Wд、Wh是通过1 × 1次卷积计算得到的学习权参数。

最后,将oj乘以一个可学习参数标量λ,并将结果加回输入x。自关注模块y的最终输出公式为:

 

结论:在本文中,我们提出了一种新的用于单幅图像去雾的半监督算法。同时使用合成模糊图像和自然模糊图像对网络进行训练,使该方法能够很好地处理自然模糊图像。此外,我们提出了一种通道空间自注意机制,可以有效地处理包含不同权重信息的图像。该网络具有相对轻量级和高效的计算时间;因此,它可以应用于实际应用。在公共基准数据集和自然模糊图像上的大量实验结果表明,该算法优于其他最先进的方法。

本研究的主要限制是半监督算法仍然需要真实的无雾图像进行训练。无监督[14]或零射击[25]学习可以克服这一缺点,但由于缺乏ground truth图像,这些网络模型的去雾性能受到限制。在未来的工作中,我们计划建立一个更有效的无监督或零射击深度框架,以继续提高除雾的性能

注释:

通道注意机制(channel attention mechanism)和信道注意机制(channel-wise attention mechanism)是在深度学习中常用的注意力机制。

通道注意机制是指在特征图的不同通道之间学习到的权重,用于调整不同通道的重要性。它可以通过计算每个通道的平均值或最大值来得到权重,然后将这些权重应用于相应的通道上。通道注意机制能够引导模型关注对当前任务更有用的通道,以提高模型的性能和泛化能力。

信道注意机制是指在特征图中的每个位置上,学习到的权重用于调整不同通道的重要性。与通道注意机制不同,信道注意机制可以对每个位置上的通道进行细粒度的建模。例如,在图像分类任务中,信道注意机制可以学习到在某些位置上更关注纹理信息,而在其他位置上更关注颜色信息。

因此,通道注意机制和信道注意机制在注意力的范围和粒度上有所区别。通道注意机制更关注整个特征图中不同通道之间的关系,而信道注意机制更关注特征图中每个位置上不同通道之间的关系。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值