TIP 2025 | IFENet：用于可见光-深度-热成像三模态显著目标检测的交互、融合与增强网络

最新推荐文章于 2025-05-04 22:19:55 发布

大靠山

最新推荐文章于 2025-05-04 22:19:55 发布

阅读量892

点赞数 19

文章标签：目标检测网络人工智能开源政务搜索引擎百度

本文链接：https://blog.csdn.net/m0_59235245/article/details/146067282

版权

论文信息

IFENet: Interaction, Fusion, and Enhancement Network for V-D-T Salient Object Detection

IFENet：用于可见光-深度-热成像三模态显著目标检测的交互、融合与增强网络

源码：https://github.com/Lx-Bao/IFENet

论文创新点

论文的4个创新点

多模态交互模块（IIGI）：作者提出了模态间和模态内基于图的交互模块（IIGI），通过图推理机制探索模态间通道相关性和模态内长程空间依赖性。
基于门控注意力的融合模块（GAF）：作者设计了基于门控注意力的融合模块（GAF），将“模态”视为特征空间中的一个新维度，并采用门控机制对多模态特征进行空间、通道和模态维度的过滤与融合。
基于频率分割的增强模块（FSE）：作者提出了基于频率分割的增强模块（FSE），将融合特征分解为高频和低频分量，分别用于增强边界细节和目标位置。

摘要

可见光-深度-热成像（VDT）显著目标检测（SOD）旨在通过利用三模态信息来突出最具视觉吸引力的目标。然而，现有模型未能充分探索多模态之间的相关性和差异性，导致检测性能不尽如人意。本文提出了一种交互、融合与增强网络（IFENet）来执行VDT SOD任务，该网络包含三个关键步骤：多模态交互、多模态融合和空间增强。具体而言，基于Transformer骨干网络，IFENet能够获取多尺度多模态特征。首先，作者部署了基于图的多模态间和模态内交互（IIGI）模块，以探索模态间的通道相关性和模态内的长程空间依赖性。其次，作者采用了基于门控注意力的融合（GAF）模块来净化和聚合三模态特征，其中多模态特征分别沿空间、通道和模态维度进行过滤。最后，基于频率分割的增强（FSE）模块将融合特征分离为高频和低频分量，以增强显著目标的空间信息（即边界细节和目标位置）。在VDT-2048数据集上进行了大量实验，结果表明作者的显著性模型在13个最先进的模型中始终表现优异。

关键词

可见光、深度、热成像、三模态、显著目标检测、交互、融合、增强。

III. 提出的方法

A. 总体架构

IFENet的总体架构如图2所示。具体而言，IFENet的输入是VDT图像。为了提取多级特征，作者采用了三个Swin-Transformer作为骨干网络，这些网络共享权重。多级特征表示为、和。然后，作者通过模态间和模态内基于图的交互（IIGI）模块进行多模态交互，该模块探索多模态特征的模态间通道相关性和模态内长程空间依赖性。之后，作者通过部署基于门控注意力的融合（GAF）模块对多模态交互特征进行多模态融合，该模块净化和聚合多模态信息。最后，作者采用基于频率分割的增强（FSE）模块来增强边界细节和目标位置等空间信息。通过这种方式，作者可以生成最终的高质量预测图。

B. 模态间和模态内基于图的交互模块

图卷积已在许多研究中成功应用，它通过将图像投影为由节点和边组成的图结构来促进信息流动。因此，为了进行有效的多模态交互，作者设计了一个模态间和模态内基于图的交互（IIGI）模块，该模块探索了三种模态之间的关系。如图3所示，它由两个关键部分组成，包括通道间模态图推理单元和空间内模态图推理单元，前者捕捉模态间通道相关性，后者通过获取全局空间信息获得模态内长程空间依赖性。

具体而言，IIGI模块的输入特征是三种模态编码器特征和前一个IIGI模块的三种模态特征。作者首先通过逐元素求和将每对模态特征组合起来，并进一步利用通道交换模块减少每种模态的通道冗余，生成增强的输入特征。然后，沿通道维度，作者将每种模态的增强输入特征均匀分为组，并部署全局平均池化（GAP）生成节点嵌入，即。对于每种模态，它有个节点，每个节点可以用一个维向量表示。之后，为了建模多模态特征的通道间相关性，作者部署了通道间模态图推理单元，其中将所有节点组合起来以获得整个节点嵌入，即。随后，作者构建邻接矩阵，其可以定义为

其中表示归一化操作，表示矩阵乘法。接下来，作者进行图推理以捕捉不同节点之间的相互关系，其可以表示为

其中是新的节点嵌入（即图表示），表示非线性激活函数，是可学习参数。

在图推理之后，作者将图表示重新投影到通道权重，并进一步将其与初始模态特征相乘，从而引入多模态互补通道信息并获得初步交互特征。这里，作者以可见光分支为例，该过程可以描述为

其中FC()表示带有sigmoid激活函数的全连接层，表示逐元素乘法/求和。

最后，三个初步交互特征将分别输入到三个空间内模态图推理单元中，以探索长程空间依赖性。这里，作者首先使用图投影将每个初步交互特征向量压缩并转换为空间图节点嵌入，其中每个节点嵌入的大小为。然后，作者构建邻接矩阵，其中利用图推理来建模每个模态中不同空间区域之间的上下文语义相关性。最后，作者将图表示重新投影到最终交互特征。这里，作者以特征为例，整个过程可以表示为

其中是图投影函数，表示图重新投影，GRs()表示两次图推理操作。此外，为了促进网络的训练，作者采用了深度监督策略，其中在IIGI模块的最终输出特征上部署卷积层，并生成预测图。

C. 基于门控注意力的融合模块

在计算机视觉任务中，门控机制通常用于处理时间序列数据。受现有研究的启发，作者设计了一个基于门控注意力的融合（GAF）模块来执行多模态融合，其中将多模态特征视为时间序列数据的特殊情况，并采用门控机制同时从空间、通道和模态维度过滤特征。实际上，这是对深层特征的净化和融合。通过这种方式，作者可以隐式地保持不同模态的独立性和完整性，从而感知不同模态特征的差异性，并在融合过程中减轻低质量模态信息的负面影响。

具体而言，如图4所示，作者首先将来自三种不同模态的特征堆叠起来，其中将“模态”视为一个额外的维度，生成堆叠的多模态特征。该过程定义为

其中表示沿通道维度堆叠三个特征。随后，堆叠的多模态特征被发送到3D卷积层和sigmoid激活函数，生成特征权重。这里，为了实现每个通道中模态和空间信息的感知，3D卷积核分别在模态和空间维度上滑动。之后，作者将权重与沿空间、通道和模态维度相乘，并进一步部署残差连接以净化多模态特征，生成净化后的特征。该过程可以描述为

其中 ()表示sigmoid激活函数， ()表示3D卷积层。

最后，作者通过3D卷积进行多模态特征的最终融合。这里，与上述操作不同，作者将净化后的多模态特征重塑为。3D卷积核将在通道和空间维度上滑动，以感知每个模态的空间和通道信息。这极大地促进了多模态特征的融合，作者可以获得融合特征。该过程可以表示为

其中 ()表示3D卷积层，并用于将模态维度压缩为1。表示重塑操作。

D. 基于频率分割的增强模块

频率信息可用于减少空间冗余，其中混合特征通过频率理论进行分解。然而，它们未能充分利用高频和低频信息，这对空间信息的增强至关重要。因此，为了进行空间增强，作者设计了一个基于频率分割的增强（FSE）模块，将融合特征分解为高频和低频分量，分别用于改善边界细节和目标位置。特别是，作者探索了高频特征和低频特征之间的互补性。

形式上，如图5所示，作者首先将融合特征与前一个FSE模块的输出特征相加，生成聚合特征。然后，作者将聚合特征分为高频和低频分量。这里，低频特征通过使用平均池化层、两个卷积层和低频DCT滤波器与残差乘法获得。高频特征通过使用两个卷积层和高频DCT滤波器与残差乘法获得。该过程可以定义为

其中和分别表示高频和低频DCT滤波器。AP()表示平均池化层（步幅=2）。和分别表示和卷积层。

然后，作者挖掘高频线索和低频线索之间的互补性，如图5所示。具体而言，作者首先将两种特征发送到Pred模块，生成包括和在内的粗略预测图，分别由显著边缘和显著目标地面真值（GT）监督。这里，Pred模块由和卷积层组成。之后，高频和低频特征通过交互求和相互补充，从而获得频率增强特征。同时，为了减轻由于频域变换导致的信息丢失，作者引入了原始特征，该特征通过CBAM增强并以残差连接方式与频率特征结合。通过这种方式，作者获得了最终的增强输出特征。整个过程可以定义为

其中 ()和 ()表示卷积层。 ()表示卷积层后接上采样操作。 ()表示下采样操作后接卷积层。CBAM()表示卷积块注意力模块。最后，作者将发送到Pred模块，生成高质量预测图。通过这种方式，作者可以逐步获得预测图，其中是最终预测结果。

为了更直观地描述FSE模块，作者在图6中展示了FSE模块中的特征可视化。从图6中可以看出，FSE模块的输入特征更多地关注背景，特别是桌面。这将导致特征中的空间冗余。经过频率分割操作后，作者可以获得高频和低频特征，分别关注显著目标的边缘和主体。这可以用于增强这些特定部分。最后，通过交互和融合高频和低频特征，空间增强的输出特征可以减少对背景的关注，并更准确地建模显著目标的表示。

IV. 实验

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述