当RGB遇见热成像:看CONTRINET如何用“分而治之“玩转显著目标检测

本文详细介绍了一篇题为《Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection》的论文,该研究提出了一种名为CONTRINET的鲁棒融合三流网络,旨在解决RGB与热模态融合的挑战。该框架使用统一编码器和专门的解码器,每个解码器处理不同的子任务,探索RGB-T SOD的模态特定信息和模态互补信息,从而增强最终的显著性图预测。该研究还提出了一个涵盖现实世界中各种挑战性场景的RGB-T SOD基准数据集VT-IMAG。在公共基准数据集和VT-IMAG数据集上进行的实验表明,CONTRINET在常见场景和具有挑战性的场景中始终优于最先进的竞争对手,即使在处理不完整的模态数据时也是如此。

本推文由邓镝撰写,审核为韩煦。

一、研究背景

显著目标检测(SOD)是计算机视觉、计算机图形学和机器人学等多个领域的一项基础研究任务,其目的是在图像中定位吸引人类视觉注意力的像素级物体或区域。随着研究的深入,SOD技术不仅在多个下游领域获得成功应用,更在基于RGB图像(即彩色图像,一幅彩色图像由红(Red)、绿(Green)、蓝(Blue)三个通道的图像叠加而成)的检测任务中取得了显著进展。尽管RGB模态提供了丰富的纹理和颜色信息,但它缺乏鲁棒性,容易受到实际环境因素的影响。因此人们引入补充模态来弥补RGB模态的缺点,主要集中在RGB-深度图(RGB-D)和RGB-热模态(RGB-T)。深度图容易受到光照不良和恶劣天气等不利条件的影响,而热模态对周围环境不敏感,但它无法捕捉精细的纹理和细节。因此,RGB和热模态的结合为复杂场景中的SOD提供了理想的解决方案。

目前RGB-T SOD任务面临以下挑战:

  1. 由于数据特征的差异,直接将成熟的RGB-D SOD模型应用于RGB-T SOD任务无法产生令人满意的结果。
  2. RGB和热模态在为显著物体提供判别线索时,会导致聚合特征受到污染,从而产生不理想的SOD结果。
  3. 在复杂的现实场景或成像过程中,由强噪声、热交叉和恶劣天气条件等因素导致的缺陷模态所带来的挑战在很大程度上被忽视了。

该论文的主要贡献如下:

  1. 引入了一种新颖的“分而治之”策略。提出了CONTRINET,用于有效地融合模态互补线索并深入挖掘模态特定线索。
  2. 提出了MFM、MDAM和RASPM模块,以提升模型性能。
  3. 为该领域贡献了一个具有各种挑战性场景的综合基准数据集VT-IMAG,作为进行可靠RGB-T SOD评估的新测试平台。

 二、方法

1、方法概述

1 CONTRINET总体架构 

图1展示了所提出的CONTRINET的架构,其目的是将RGB-T SOD任务的最终预测分解为模态特定和模态互补子任务。具体而言,CONTRINET的主要架构包括:

  1. 一个联合编码器,它具有共享的骨干网络,用于从双模态输入中提取多尺度的低级和高级特征,并配备了模态诱导特征调制器(MFM),以减少模态差异,实现两种模态特征的无缝融合。
  2. 两个模态特定流,用于分别优化每个模态的多尺度特征,目标是预测RGB和热领域的显著性图。
  3. 一个模态互补流,用于动态整合与显著性相关的线索,生成模态互补显著性图。在这个流中,引入了模态感知动态聚合模块(MDAM),用于合并来自两个模态特定流的判别性线索,辅助推断更一致的显著区域。
  4. 在这些流中部署了残差空洞空间金字塔模块(RASPM),以提供更大且紧凑的感受野。同时,采用流协同融合策略,将这些流分别预测的结果进行组合,生成综合的显著性图。

2、模态诱导特征调制器

模态诱导特征调制器(MFM)解决了两个问题:一是由于模态之间的固有差异,导致不同模态的特征难以融合;二是有缺陷的输入会产生噪声干扰问题。如图2所示,MFM包含两个阶段:交叉引导特征增强(CFE)和注意力感知特征融合(AFF)。

2 模态诱导特征调制器的架构图

交叉引导特征增强:为了在保留各模态判别能力的同时,减小不同模态之间的差异,文中提出了交叉引导特征增强模块。以模态共享联合编码器的输出作为输入,首先采用一组通用操作将它们归一化,通过对RGB和热特征进行加权,来建模跨模态的长程依赖关系,进而确定需要进行特征互补的区域。此外还采用了残差连接,以保留每个模态的原始信息。在通道维度上采用了挤压激励(SE)操作。该操作不仅可以选择出具有代表性的通道,还能抑制模态之间的噪声,在特征层面增强去噪效果。

注意力感知特征融合:基于不同模态改进后的线索,从逻辑上增强跨模态特征的兼容性,并实现一致性融合。首先采用一种可行的拼接特征聚合策略将去噪和校准后的结果进行整合,得到初步融合特征。同时对特征沿着通道轴进行全局平均池化和最大池化操作,以计算用于定位显著物体的空间统计信息。然后将并行池化的结果进行拼接,以增强空间结构特征。在第i个特征级别,当前输出与第i-1个MFM的先前输出进行拼接。这个拼接后的特征会经过一个卷积层,得到第i个特征级别的最终融合特征。

3、残差空洞空间金字塔模块

采用串行卷积操作的模态共享联合编码器,无法捕捉到丰富的上下文信息。此外,3×3卷积的有限使用也阻碍了有效感受野的扩展,进而对预测显著性图中精细结构和清晰边界的获取产生不利影响。为了解决这些问题,文中提出了一种轻量级的残差空洞空间金字塔模块(RASPM),以便从多个感受野和特征尺度中有效地捕捉紧凑的上下文信息。

3 残差空洞空间金字塔模块的架构图

如图3所示,RASPM由四个并行分支和一个残差分支组成,四个并行分支用于捕捉上下文特征,残差分支用于保留原始特征。具体而言,每个分支都包含一个1×1卷积层,用于减少通道数量。此外,第k个分支配备了一个1×(2k-1)的非对称卷积,随后是一个(2k-1)×1的非对称卷积,以降低计算负载。考虑到不同尺度特征之间的相关性和潜在的互补性,文中引入了跨分支的捷径连接,用于从底部到顶部整合特征,避免信息丢失。为了在不牺牲特征分辨率的情况下扩大感受野,文中在四个并行分支中加入了扩张率为(2k-1)的空洞卷积操作,形成一个空洞空间金字塔。随后,四个分支的输出会被拼接起来,然后通过一个3×3卷积进行自适应重新加权,并减少通道数量。最后,通过多尺度特征和原始特征的残差组合,生成具有丰富上下文信息的重建特征。

4、模态感知动态聚合模块

直接将来自不同模态的信息进行简单组合,可能会导致结果不可控且不一致。为了应对这一挑战,CONTRINET中引入了模态感知动态聚合模块(MDAM),它以动态加权的方式,将从RGB和热模态流中挖掘出的信息线索整合到模态互补流中。

4 模态感知动态聚合模块的架构图

如图4所示,给定获取的多层次特征集,首先通过乘法和拼接操作进行初始特征交互和融合,以获得聚合特征。文中设计了一个面向细节的增强分支,通过强调具有显著纹理和结构变化的区域,来引导清晰的整体拓扑结构的恢复。由于热图像包含额外语义上下文线索,将其直接整合到聚合特征,实现区域级语义补偿。采用动态加权方式,根据输入的跨模态特征计算动态权重,并限制它们的和为1。使用这两个权重对细节增强分支和语义补偿分支的结果进行加权融合,最后通过卷积层与残差连接得到最终输出。

5、总体损失函数

通过构建三个精密的流,建立了一个端到端可训练的融合三流网络。该框架分别从特定于模态的RGB/热流以及模态互补流中产生三个预测结果。更具体地说,每个流中最后一层的重建特征是通过1×1卷积、上采样操作和sigmoid函数获得的,从而得到各自的显著性图。此外,通过采用流协同融合(即加法操作),将上述重建预测结果组合起来,生成一个优化的、综合的输出,记为,它可被视为CONTRINET的最终显著性图。为了优化所提出的CONTRINET,以保留特定于模态的信息并整合模态互补信息,文中为特定于模态的流和模态互补流提供监督信号。考虑到预测的显著性图,文中采用加权二元交叉熵损失和加权交并比损失进行约束。总体损失为:

其中表示真实标签。

三、实验

1、实验设置

数据集:实验在三个广泛使用的RGB-T基准数据集以及文中最近引入的具有挑战性的基准数据集上进行,以全面展示CONTRINET在各种具有挑战性的场景下的鲁棒性。目前有三个公开可用的RGB-T SOD任务基准数据集:VT821由821对手动配准的图像对组成;VT1000包含1000对由高度对齐的RGB和热像仪捕获的相对简单场景的图像对;VT500提供了5000对高分辨率、多样化且偏差最小的图像对。

为了增强现有RGB-T SOD算法在各种现实场景中的鲁棒性并拓宽其适用性,文中引入了一个更具挑战性的数据集,称为VT-IMAG。该数据集包含536幅RGB图像及其相应的热图。每个选定的RGB-T图像对至少包含一个在RGB和热模态中都显著的物体。VT-IMAG提供了高质量的注释,涵盖了各种不同的物体类型以及在监控和自动驾驶中常见的各种场景(例如车辆、行人和路障)。

评估指标:在本研究中选择了五个常用的SOD评估指标,包括S测量、F测量、加权F测量、E测量和平均绝对误差。

实现细节:在PyTorch平台上实现,使用单个NVIDIA GeForce RTX 3090 GPU。在训练时,骨干网络使用在ImageNet上预训练的模型进行初始化,而其他模块的剩余参数设置为PyTorch的默认值。输入的RGB和热图像被调整为352×352大小,并采用多种增强技术以防止过拟合。网络使用Adam优化器进行训练,批量大小为16,初始学习率为5e-5,并采用余弦退火学习率调度。最终模型在100个epoch内收敛。预测的显著性图被调整为原始大小,三个并行显著性预测的融合结果被视为最终预测。

2、与最先进方法的比较

CONTRINET与27种最先进的方法进行比较,其中包括十种基于CNNs的RGB-D SOD方法,三种传统的RGB-T SOD方法,以及十种基于CNNs的RGB-T SOD方法。实验使用VGG16和Res2Net50作为骨干网络来评估提出的CONTRINET。为了克服RGB-T SOD的性能瓶颈,实验还引入了更强的骨干网络Swin Transformer作为编码器(CONTRINET∗)。为了进行公平比较,RGB-D SOD方法在RGB-T数据集上使用其默认设置进行重新训练,RGB-T SOD方法提供的显著性图直接用于比较。

1 与最先进方法的比较

表1总结了在三个基准数据集上使用五个评估指标的定量比较结果。提出的CONTRINET在很大程度上优于三种传统方法(即MTMR、SGDL、M3S-NIR),并且与所有基于CNNs的最先进方法相比具有竞争力,在大多数评估指标上取得了最佳结果。更强版本CONTRINET,即CONTRAINET*,与最近基于Transformer的方法相比具有绝对优势。

2 与最近公开的最先进RGB-T SOD方法的复杂度比较

此外,文中将提出的CONTRINET与最近公开的最先进的RGB-T SOD方法的复杂度进行了比较,如表2所示。在不同的骨干网络下,CONTRINET的模型参数数量相对较少,计算效率具有竞争力。与现有采用模态特定编码器的两流框架方法不同,CONTRINET的有效性和效率源于所提出的“分而治之”策略,这在未来高效鲁棒的RGB-T SOD研究中值得更多关注。

5 最近代表性的RGB-T SOD方法生成的显著性图

图5展示了最近代表性的RGB-T SOD方法生成的显著性图,展示了它们在几个具有挑战性的场景中的性能:强噪声(第一行)、热交叉(第二行)、过曝光(第三行)、复杂背景(第四行)、恶劣天气(第五行)和多个物体(第六行)。现有方法无法确保低质量和有缺陷的模态数据的结构完整性,而CONTRINET通过三流范式的模态特定挖掘和互补功能实现了这一点。

3 最近最先进的RGB-T SOD方法的定量比较结果

为了证明所提出的CONTRINET具有卓越的鲁棒性,文中在VT-IMAG数据集上评估了不同深度学习模型的性能。表3展示了最近最先进的RGB-T SOD方法的定量比较结果。所有模型仅在清晰数据和简单场景(即VT5000的训练集)上进行训练,并在VT-IMAG中的各种现实世界挑战性案例上进行零样本鲁棒性评估。如表3所示,提出的CONTRINET显著优于所有竞争对手,在五个评估指标上均表现出一致且显著的性能提升。结果验证了所提出的CONTRINET在处理各种未知挑战性场景方面具有卓越的泛化能力。

3、消融研究

所有消融研究实验均使用CONTRINET50进行。文中构建了一个单流模型作为简单基线,在该模型中,两个模态的编码器各层特征直接相加。表4展示了这个强基线(称为“No.1”)的有效性,它为进一步提升性能提供了可靠的基础。

4 不同组件及其各种设计选择在三个数据集上的消融分析

MFM的有效性:“No.2”表示仅包含AFF的MFM,“No.3”表示仅包含CFE的MFM。结果表明,每个步骤都在一定程度上提高了SOD性能。将“No.2/3”与“No.4”进行比较,发现这两个独立组件可以协同增强网络的鲁棒性。

RASPM的优越性:如表4所示,与“No.6”相比,“No.5”的较差结果凸显了RASPM的不可或缺性。为了进一步验证RASPM的优势,文中用其他多尺度特征学习方法进行替代,如表5所示,具体包括普通卷积、PPM和ASPP。尽管这些模块与RASPM具有相似的功能,但当集成到CONTRINET中时,性能却不尽如人意,这证明了RASPM的优越性。

5 所提出的RASPM与其他替代方案在三个数据集上的比较

MDAM的有效性:为评估MDAM的影响,文中通过从模态互补流中移除MDAM进行消融研究,在表4中记为“No.6”。与“No.9”的结果对比,证明了MDAM在多层融合不同模态互补特征方面的重要作用,有助于提升显著性检测效果。为验证动态聚合机制的有效性,“No.7”中将可学习的动态权重设为固定值1。“No.8”去除了细节增强(DoE)部分。结果显示,去除DoE会使MDAM在所有评估指标上的有效性略有下降,证实了DoE在优化RGB特征、增强模型显著性检测能力方面的额外价值。

损失函数的讨论:模型中采用了由加权二元交叉熵损失和加权交并比损失组成的混合损失,为评估其效果,分别使用单一损失函数进行训练,并评估模型性能。表6表明,混合损失是CONTRINET实现稳健性能的关键因素。

6 所提出的CONTRINET在三个数据集上使用不同损失函数的比较

流协同融合分析:表7展示了各种显著性图及其组合的定量比较。最终融合后的显著性图有效的结合了不同流分别生成的显著性图的优势,并抑制了劣势。这突出了所提出的流协同融合策略在准确分割常见显著物体方面的优势。

7 不同流在三个数据集上预测的显著性图的性能比较

四、总结

论文提出了CONTRINET融合三流网络,将“分而治之”策略融入到RGB-T SOD任务的稳健框架中。CONTRINET由一个统一编码器和三个专门的解码器组成,这些解码器处理不同的子任务,从而为RGB-T SOD实现更全面、更具弹性的感知。CONTRINET中设计的组件能够动态集成模态互补信息,同时专注于深度挖掘模态特定信息,减少缺陷模态的干扰,使其在具有挑战性的场景中具有较高的鲁棒性。为评估CONTRINET的鲁棒性和泛化性,文中还构建了一个名为VT-IMAG的全新综合RGB-T SOD基准数据集,涵盖各种具有挑战性的场景。大量实验结果展示了所提出的CONTRINET在处理极具挑战性场景中的SOD问题时的天然优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值