文献阅读3CGMDRNet: Cross-Guided Modality Difference Reduction Network for RGB-T Salient Object Detection

(这篇feihua有点多啊)

摘要:

创新地提出了一种交叉引导模态差异减少网络(CGMDRNet),通过减少模态差异来实现内在一致性特征融合。

1设计了一个模态差异减少(MDR)模块,该模块嵌入在骨干网的每一层。该模块使用交叉引导策略来减少RGB和热特征之间的模态差异。

2设计交叉注意融合(cross-attention fusion, CAF)模块,融合具有小模态差异的交叉模态特征。3使用基于变压器的特征增强(TFE)模块来增强对性能贡献更大的高级特征表示。

4由高层特征引导低层特征融合,得到边界清晰的显著性图。

I. INTRODUCTION

现有的RGB-T SOD模型可分为两类:传统方法和深度模型。

传统的方法:低秩张量学习、排序算法、或图学习,从RGB和T中提取和融合低级手工特征。然而,传统提取的手工特征不能很好地表示像素之间的语义相关性,导致融合特征的可分辨性较低。

深度模型主要关注多模态信息融合,如语境引导跨模态融合模块、多交互双解码器、视觉色彩阶段理论等融合跨模态信息。深度模型的一般是先进行单模态特征提取,然后进行多模态特征融合。

RGB- T SOD的挑战是如何利用RGB和T之间的相互作用,但仅通过融合操作难以消除模态差异并保持特征区分。现有方法通常采用简单的融合策略,从配对的RGB和T中获取互补信息,如逐元求和、逐元乘法和拼接或这些方法的组合。然而,这些简单的融合策略容易使融合不够充分。此外,RGB和T是由不同的传感器捕获的,它们具有完全不同的外观。同时,现有方法没有考虑不同成像机制导致的RGB和T的模态差异。因此,直接将RGB和T映射到同一特征空间进行融合是无效的。

我们的工作任务与目前的RGB-T和RGB-D SOD模型相似,但这些模型没有很好地解决以下挑战:1)在主干网提取的RGB和T是直接融合的,如果没有足够的交叉模态互补信息,简单的融合操作无法解决模态差异问题,因此通过交叉引导网络来利用多模态互补信息是有意义的。2)研究表明,CNN提取的特征往往具有更多的信道冗余,这对判别信息建模有不同的贡献,但现有方法忽略了这一问题。因此,期望生成通道注意向量,以交叉引导的方式反映不同通道的重要性。

另一方面,高级特征包含更丰富的语义宏信息和位置信息,这对于定位显著目标非常重要。当特征从高级向低级逐渐聚集时,性能趋于饱和,即高级特征对高性能的贡献大于低级特征。现有模型采用扩展卷积层(如:阿特劳斯空间金字塔池化(ASPP)、混合池化-阿特劳斯(HPA)、金字塔池化模块、全局上下文模块(GCM))探索高阶特征和多尺度信息,然后将多尺度信息聚合成全局信息。然而,这些策略仍然使用不同大小的卷积核来获得多尺度信息,但仍然是相对较大的局部接受域。目前,多尺度信息表示采用并行训练和同步误差反向传播,不利于分别提取不同分支的判别特征。与这些多尺度设计不同,我们在网络中嵌入变压器以增强融合特征在上面三层的表示。

因此,我们的方法侧重于探索跨模态一致性,构建一个通用的RGB-T SOD模型,融合了模态差异、交叉注意和自注意机制的优势。基于以上分析,提出CGMDRNet。主要动机是探索通过减少模态差异(将RGB和T作为不同模态)实现多尺度线索一致融合的可能性。提出的CGMDRNet主要包括MDR模块、CAF模块和基于变压器的特征增强(TFE)模块。

1为了实现跨模态特征的充分交互和一致融合,获得更多的判别特征,提出了一种新的模态差异减少(MDR)模块,该模块可以通过交叉引导策略充分利用和合并RGB和T之间的互补信息。在交叉制导阶段,采用双向制导策略,引导一种模态特征尽可能与另一种模态特征相似,从而减小RGB与T之间的差异。其基本思路是由不同成像机制引起的一些非判别性单模态特征在另一模态特征的引导下转化为判别性特征。MDR过程以双向方式进行,多模态特征的差异将被减少。

2一种新的交叉注意融合(CAF)模块来挖掘RGB和T最具区别性的特征。上述过程减小了RGB和T之间差异,因此可以很容易地合并模态差异较小的单模态特征,从而产生更具判别性的融合特征。

3一个TFE模块来增强高级特征的语义信息,并进一步挖掘全局信息。

3TFE模块的输出特征生成金字塔乘法结构的初始显著性映射。在低层次信息的引导下,对初始显著性图进行细化。在此基础上对初始显著性图和最终显著性图进行监督,生成高质量的显著性图。

综上所述,本文的主要贡献如下:

1)提出一种新颖的端到端可学习框架CGMDRNet,该网络可以自动引导减少模态差异,串级优化跨层信息,探索跨模态特征。综合实验表明,在三个RGB-T数据集上取得了较好的性能。

2)为了有效减小RGB和T之间的模态差异,设计了一种有效的模态差异减小(MDR)模块,该模块使用交叉引导策略补偿多模态数据中的模态差距,然后自适应增强判别性单模态特征进行融合。

3)为了有效地挖掘跨模态特征并学习共享表征,提出了一种交叉注意融合(CAF)模块,该模块将多级输出特征级联聚合,由高阶特征引导低阶特征降低低阶特征中的噪声信息。

II. RELATED WORK

A. RGB Salient Object Detection

在过去的几十年里,SOD因其广泛的应用而引起了广泛的研究兴趣。随着深度学习技术的快速发展,基于cnn的方法取得了令人瞩目的成绩。

Wang等人[46]建立了一个细心的显著性网络(mindful Saliency Network)来检测注视图中的显著物体,以获取对场景的高级理解。

Wang等[47]考虑到显著性检测中的多层次特征,提出了一种渐进式特征抛光网络来提取多层次、多尺度的特征,可以更好地理解上下文和语义信息。

Yang等人[48]专注于设计更有效的损失函数,提出了一种有效的渐进式自引导损失函数,该函数模拟形态闭合操作,逐步创建辅助训练监督来指导训练过程。

使用更有效的损失函数来捕获SOD任务的质量因子[49],如均值交叉过并损失、加权二元交叉熵损失和亲和场匹配损失。

同时,对于SOD边缘信息的挖掘也有很多研究。

Qin等[50]提出了一种新的边界感知SOD的混合损耗。

Zhao等[51]关注显著边缘信息与显著目标信息的互补性,提出了一种SOD的边缘引导网络。

Wang等人[52]提出了一个显著边缘检测模块,以强调显著边缘信息的重要性,因为它为更好地分割显著对象和细化对象边界提供了强有力的线索。这些模型可以预测具有清晰边缘的图。

B. RGB-D Salient Object Detection

除了上述边缘引导信息外,另一种有效的辅助信息是深度图,深度图可以提供空间和距离信息,辅助显著目标的检测。以往的工作主要集中在提取手工特征来探索突出表征。

Song等[53]提出了一种多尺度判别融合方法,对RGB-D对进行多尺度预分割。随着深度学习技术的快速发展,人们提出了各种性能优异的深度模型。

Li等人[54]设计了一个跨模态加权网络,鼓励多模态信息以跨模态加权的方式进行综合交互。

Li等[55]通过信息转换方法提出了一种跨模态自适应融合网络。

Li等人[56]提出了一种分层交替交互网络,可以减轻深度图中的干扰。

Jin等[57]提出了一种互补深度网络,以减轻低质量深度图对RGB-D SOD的影响。

Fan等[58]设计了深度净化单元,抛弃了低质量的深度图。

Wang等[11]利用高级特征提供的丰富语义信息来指导低级特征的学习。

Fu等[59]提出了一种用于联合学习的Siamese网络,并设计了密集合作融合架构来探索互补特征。

Li等[60]设计了一个注意力导向的交织融合网络,以密集和交织的方式提取互补特征。

Zhou等[61]提出了一种用于RGB-D显著性检测的特异性保留网络,该网络可以保留模态特异性特征。

C. RGB-T Salient Object Detection

虽然深度图可以提供一定的重要空间和距离信息,但由于成像机制的限制,在一些极端环境下(如低照度、遮挡、雾霾等),SOD的性能较差。热红外摄像机的成像原理是基于物体表面的热辐射。因此,即使在极端环境下,也可以通过捕获物体的辐射热来清晰地突出物体的轮廓。因此,将RGB图像与T相结合是解决许多复杂场景中SOD的理想方法。近年来得到了广泛的研究。

1) Traditional Approaches:

以往的RGB-T SOD方法主要依赖于基于图形的技术。

Wang等[25]建立了第一个RGB-T SOD数据集,提出了RGB-T SOD跨模态一致性的多任务流形排序。

Tu等[26]利用多尺度流形排序法融合不同特征,引入中间变量推断最优排序种子。

Tu等[21]提出了一种RGB-T SOD协同图学习算法,该算法以超像素为图节点,协同利用层次深度特征学习图的亲和性和节点显著性。

Huang等[27]设计了一种基于多图融合学习的无监督RGB-T显著性检测方法,利用多图融合模型选择性地学习有用信息。

2) Deep Models:

得益于优越的特征学习能力,基于cnn的方法发展迅速。

Zhang等[22]设计了端到端融合网络,使用邻接深度特征组合模块提取多级精炼特征,使用多分支群融合模块捕获跨模态特征。最后,采用联合注意引导双向消息传递模块,对多层融合特征进行融合,预测显著图。

Huo等[29]提出了一种上下文引导的堆叠细化网络,该网络使用上下文引导的跨模态融合模块来探索两模态的互补。

Zhang等[41]和Zhou等[32]聚合了多尺度和多层次特征,这有助于更好地理解上下文和语义信息,生成高质量的显著性地图。

Tu等人[30]提出了一个多交互双解码器网络来挖掘和建模两种模式的相互作用。

Wang等[20]设计了一种交叉制导融合网络,其中包括一个跨尺度交替制导融合模块,用于挖掘高层语义信息,然后通过制导融合模块将多模态特征结合起来。

Guo等[62]提出了RGB-T SOD的两阶段融合网络。第一阶段,利用特征融合模块对RGB图像和热图像局部区域的统一和相交信息进行聚合;第二阶段,采用双侧辅助融合模块提取辅助空间特征;

D. Transformer for Salient Object Detection

Vaswani等[63]首先提出了一种基于变压器的编码器-解码器架构,该架构具有堆叠的多头自关注层和点向前馈层,以优化机器翻译任务。

Chen等[65]使用预训练好的ViT作为U-Net的骨干网络,在医学图像分割方面表现良好。

Liu等[66]针对RGB和RGB- d SOD提出了一种新的令牌上采样方法和patch-task-attention机制。

Liu等[33]提出了RGB-D SOD的三联体变压器嵌入网络,该网络利用三联体变压器嵌入模块学习跨层的远程依赖关系,增强了多层次特征。

Ma等[43]针对SOD提出了一种基于变压器和CNN的双边网络,分别利用CNN和变压器学习局部详细信息和全局语义信息。

E. Observations

如前所述,由于大多数RGB-D和RGB-T超氧化物歧化法主要关注多模态信息的融合,因此直接应用于多模态超氧化物歧化法存在以下局限性:(1)全局上下文问题。现有的基于cnn的方法仍然难以建立全局上下文,这导致显著目标不完整,如图1中所有SOD结果所示。(2)跨模态交互效应。如图1所示,BBSNet和APNet结果表明,简单的融合策略(级联或添加元素)可能无法促进跨模态信息交互,从而降低显著性结果。(3)干扰信息效应。尽管热图像为识别显著目标提供了重要信息,但热图像中的一些干扰信息往往会导致错误的检测。

考虑到上述现有方法存在的问题和不足,特别是受到通过图像到图像的翻译减少模态差异的研究,以及利用层注意或空间注意将多模态信息融合的研究的启发,我们进一步考虑特征之间的模态差异、空间和通道注意机制以及自注意机制,建立RGB-T SOD的全局语境。

III. PROPOSED METHOD

A. Overview

1)动机:已有研究证实,减小RGB和T之间的模态差异对多模态融合任务具有积极作用。由于RGB包含丰富的颜色和纹理细节信息,而T可以提供强烈的对比信息,在极端环境下进一步抑制背景干扰,因此一个完善的RGB- T SOD模型应该充分利用两种模态的优势,利用其他模态来弥补一种模态在减少相互干扰方面的局限性。为此提出了一个模态差异减少网络,该网络明确地模拟了两种模态之间的差异,并通过交叉引导策略减少了模态差异。然后,选择性地利用RGB特征来补充T信息的细节,同时利用T信息来丰富RGB信息的语义表示。

2)体系结构:目前的RGB-T SOD模型直接融合从骨干网中提取的多模态特征,没有充分考虑两模态特征的差异。相比之下,CGMDRNet则探索了交叉引导的模态差异减少策略。图显示了所提出的CGMDRNet的总体框架。

B. Cross-Guided Modality Difference Reduction (MDR) Module

虽然RGB图像和T图像记录相同的场景,但由于成像机制的不同,模态存在差异。然而现有模型大多是直接融合多模态特征(即忽略它们之间的模态差异),这可能会降低融合特征的可辨别性。为了解决这一问题,我们设计了一个新的模态差异减少(MDR)模块,旨在通过交叉引导策略减少模态差异。将从骨干网中提取的多级特征输入到MDR模块中,得到模态差异较小的判别单模态特征。

受交叉引导增强策略的启发,我们也采用交叉引导策略来减少不同成像机制造成的模态差异。该策略从交叉引导模态差异减小(MDR)模块开始,包括RGB引导T模态差异减小(T-MDR)和T引导RGB模态差异减小(RGB-MDR)模块。其中,RGB模态中提取的多级特征用于指导热模态中的特征提取,反过来,热模态中提取的特征也用于指导RGB模态中的多级特征提取。通过这种交叉引导的模态差异减小策略和对网络的持续优化,使模态差异最小化,有利于下一阶段两模态的整合。

首先,考虑到RGB图像和热图像具有不同的模态信息,共享权值机制可能不适合提取多模态特征。在MDR模块中,我们使用Res2Net-50分别从RGB图像和热图像中提取单模态特征,并删除最后一个完全连接层和平均池化层,以保留更多的空间信息。设Fri和Fti分别为RGB和T第i个侧外层的特征映射,其特征差计算为:

其中Bconv(·)表示一个顺序卷积操作,使用3×3卷积层,然后是批处理归一化和ReLU激活函数。

特征减法操作允许模型理解两个特征之间的显式差异。然后,由Fdifi引导的中间层特征Fgi计算为:

其中“⊗”表示乘法运算。

最后,计算rgb引导模态差减小后的热特征如下:

其中“⊕”表示元素求和运算。

通过以上操作过程,可以使热特征与从RGB图像中提取的单模态特征具有部分相似的性质,以减小两种特征之间的模态差异。同样,我们在RGB模态上执行相同的操作,使用提取的单模态热特征来指导RGB特征提取。这种双流模态差分缩减操作将提高对待融合的跨模态特征的识别能力。

C. Cross-Attention Fusion (CAF) Module

RGB-D SOD一般使用深度信息作为一种辅助信息。由于RGB和T都可以为SOD提供大量的判别信息,因此它们应该被平等对待。因此,如何充分利用两种模式的优势,充分融合MDR模块的特点是一个关键问题。最直接的策略是通过元素加法运算实现。然而,这种直接融合策略忽略了两种模式之间的相互作用,没有充分利用互补线索。另一种可行的策略是通过拼接操作实现,但不考虑RGB和T中不同特征的独立性。由于上述两种融合策略没有考虑多模态信息的依赖关系,为了充分整合跨模态信息,充分利用两种优势,我们设计了交叉注意融合(CAF)模块来完成融合任务。

提出的CAF模块旨在挖掘RGB和热特征中的共同显著性线索,以生成更多的判别特征。更具体地说,将双流MDR(包括RGB-MDR和T-MDR)模块的特征输入到CAF模块中,实现多模态特征的深度挖掘和完全融合。CAF模块由三部分组成:基于信道维度的跨信道增强模块、基于空间维度的并行增强空间注意模块和自适应融合模块。

首先,使用1×1卷积将通道数量减少一半,这样可以降低模型的复杂度,加快训练过程。然后,使用基于注意力的交叉增强策略来探索两个特征之间的相关性。具体来说,使用全局平均池化方法分别获得RGB和热特征的全局统计信息,然后将这两个特征输入到全连接层中,再通过sigmoid激活函数得到分别反映RGB和热特征重要性的通道关注向量Attri和Attti。这个过程可以表示为:

式中,δ(·)和FC(·)分别表示sigmoid激活函数和全连通层,conv1×1(·)表示1×1卷积运算。此外,为了充分挖掘两种模态之间的相关性,采用交互方式增强特征图,即利用一种模态中产生的通道注意向量增强另一种模态中相应的通道注意向量。

通过这种方式,CAF模块将明确地关注重要的特征,并抑制不重要的特征。这个过程可以表示为:

其中表示通道乘法运算。

我们引入了空间注意机制来提取重要的空间信息。具体来说,输出的Fi沿着通道轴进一步馈送到平均池化层和最大池化层,以连接池化结果。然后,将拼接结果馈送到一个7×7的卷积层和一个sigmoid,得到空间权重图。最后,为了保留各模态的原始信息,利用空间权重图对Fri和Fti进行并行增强,并利用残差连接来保留原始特征。这个过程表示为:

 其中conv7×7 (x;y)表示x和y在7×7卷积层中的连接操作,M(·)和a(·)分别表示沿通道轴的最大池化操作和平均池化操作。通过上述操作过程,得到RGB图像和T图像的交叉增强特征。为了有效地融合它们,分别采用元素加法和元素乘法运算,既强调特征的互补性,又强调特征的共同性:

 最终的融合特征图是将两个精细化的跨模态特征图通过串联操作进行整合:

考虑到RGB-T数据存在不一致性,直接在空间维度上整合跨模态信息可能会降低融合特征的可分辨性。在CAF模块中,以平行的方式应用空间注意力来增强单模态特征。实际上,跨通道增强模块和自适应融合模块中已经集成了跨模态信息。如果忽略噪声信息的影响,直接加入跨模态空间注意力,可能会产生较大的判别信息损失和较低的计算效率(我们的验证结果也支持这一结论)。跨模态空间注意问题将在未来进一步研究。

D. Transformer-Based Feature Enhancement (TFE) Module

在SOD任务中,期望找到突出区域或物体,并进一步分割出清晰的边缘。所设计的网络应能抑制背景噪声。为此,网络要考虑不同像素之间的关系,突出突出的像素,抑制背景噪声的像素。因此,有必要从局部和全局的角度对特征映射中像素之间的依赖关系进行建模。受transformer在捕获远程上下文信息方面的巨大成功的启发,我们使用transformer进行特性增强。如[37]所述,当特征从高级向低级逐渐聚集时,性能趋于饱和,即高级特征对高性能的贡献更大。因此,应该增强前三个级别特征(Fi (i = 3,4,5))的特征

具体来说,输入特征Fi(i=3,4,5)首先被扁平化为一个一维序列{Fi}, N为patch个数。然后,将其馈送到线性投影层中,映射到嵌入空间中。为了保留补丁的位置信息,在补丁嵌入中加入特定的位置编码。这个过程可以描述为:

其中PE是一个可学习的位置嵌入序列。

然后,将嵌入位置信息的序列输入到transformer encoder中。具体来说,encoder包含MHSA和MLP子层。我们在这两层之前插入层归一化(LN),然后在这两子层之后进行残差连接,同时堆叠l层变压器编码器。这个过程可以描述为:

式中,L为标准变压器层数。在建立了像素之间的远程依赖关系后,将这些斑块重新塑造成增强的特征图。同时,利用剩余连接保留更多的原始信息。增强的特征映射描述为:

E. Cascaded Decoder

在通过Eq.(8)和Eq.(11)计算出两组多级交叉模态特征,之后,我们需要进一步增强交叉模态特征的表示。高层特征包含丰富的语义信息,有利于定位显著目标,低层特征在微观层面包含更详细的信息,有利于细化边缘,但包含噪声信息。因此,直接聚合多层特征的策略并不是最佳选择。受启发,我们采用了特征引导策略。

首先,利用特征生成包含丰富语义信息的初始显著性图;然后,利用特征增强初始显著性图的细节,并通过初始显著性图对细节进行细化。具体来说,我们利用金字塔乘法特征聚合策略来聚合跨模态特征。特征首先由更高级的特征进行细化:

式中up(·)表示上采样操作,kmax = 5。然后,通过累进级联策略将这些精炼的特征进行整合,生成初始显著性图:

其中S1表示初始显著性图。随后,利用特征增强初始显著性图的详细信息,利用初始显著性图指导特征的语义信息增强。具体来说,我们将初始显着映射S1和连接起来,并使用两个卷积层来学习空间向量。然后,利用学习到的空间向量对特征图进行增强。之后,我们将相邻两层的增强特征图与初始显著性图S1进行连接,并通过1 × 1的卷积层进行降维,得到精细化的输出s。过程描述为:

F. Loss Function

最后,通过构建两个级联阶段,构建了一个端到端可训练框架。整体损失函数由两部分组成,分别优化初始显著图和最终显著图S()。整体损失函数可表示为:

其中initial和final为像素位置感知损失,表示初始显著性图和最终显著性图,可以对不同像素进行不同的关注,从而提升SOD的性能,计算为:

式中F(·)表示指标函数,γ为超参数,l∈{0,1},W和H分别为显著性图的宽度和高度。psij和gsij分别为图像中位置(i,j)像素点的预测结果和真值,ψ为模型参数,为预测概率。在损失函数l中,将每个像素赋予一个权重αij,以反映像素(i, j)的重要性:

其中,Aij表示像素(i, j)周围的面积,αsij∈[0,1]。

IV. EXPERIMENTAL RESULTS

A. Dataset

VT821,VT1000,VT5000。

B. Implementation Details

PyTorch NVIDIA RTX 2080Ti GPU

在ImageNet上使用预训练的参数初始化骨干网。其他参数使用默认PyTorch设置初始化。训练数据通过随机翻转、旋转和边界裁剪来增强使用Adam优化器来训练模型,初始学习率设置为0.0005,每60个epoch将学习率除以10。在训练和测试阶段,输入的RGB和T被调整为256 × 256。

C. Evaluation Metrics

五种指标,包括F-measure、平均绝对误差(MAE)、S-measure、E-measure和精确召回率(PR)曲线。F-measure是一个综合指标,是精度和召回率的调和,定义为:

其中,经验地将β2设置为0.3,以强调准确率高于召回率,precision和recall分别表示准确率和召回率。MAE定义为预测显著性图与地面真值之间的平均绝对误差(GT):

其中S为检测到的显著性图,G为GT。S-measure用于评估预测显著性图与GT之间的空间相似性:

其中,So和Sr分别为对象感知结构相似度和区域感知结构相似度,α通常设为0.5。E-measure是一种增强的对齐矩阵,可以捕获图像级的统计信息和像素级的匹配信息:

其中φ表示像素位置(x, y)处的矩阵入口。

D. Comparison With State-of-the-art (SOTA) RGB-T Methods

 

 E. Qualitative Evaluation

F. Ablation Study

1) Effectiveness of MDR Module:

 2) Effectiveness of CAF Module:

 3) Effectiveness of TFE Module:

 4) Effectiveness of the Feature Guidance Strategy:

5) Effectiveness of Thermal Modality:

 G. Discussions

1)计算复杂度:

2)失败案例:

 3)在RGB-D SOD上的性能:

V. CONCLUSION

在本文中,我们提出了一个新的框架CGMDRNet来实现RGB-T SOD。考虑到成像机制导致的模态差异,我们建立了面向显著性的模态差异减少(MDR)模块,以减少模态差异,促进多模态交互。为了促进多模态信息的融合,我们提出了一个交叉注意融合(cross-attention fusion, CAF)模块来调整跨模态交互,突出突出的响应。同时,我们使用基于变压器的特征增强(TFE)模块来增强高级特征,并引导低级特征生成边缘锐利的显著性图。在三个RGB-T SOD数据库上的实验结果验证了该方法与其他SOD方法的有效性。考虑到多模态显著性检测没有统一的框架,未来的工作将重点放在多模态RGB-D和RGB-T显著性目标检测上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值