berling00-CSDN博客

原创【论文阅读 | TCSVT 2024 | CCAFusion: 用于红外与可见光图像融合的跨模态坐标注意力网络】

红外与可见光图像融合旨在生成包含全面信息的单一图像。它可以保持丰富的纹理特征和热信息。然而，对于现有的图像融合方法，融合图像要么牺牲了热目标的显著性和纹理的丰富性，要么引入了像伪影这样的无用信息干扰。为了缓解这些问题，本文提出了一种有效的用于红外与可见光图像融合的跨模态坐标注意力网络，称为CCAFusion。为了充分整合互补特征，设计了基于坐标注意力的跨模态图像融合策略，该策略由特征感知融合模块FAF）和特征增强融合模块FEF）组成。

2025-10-10 17:51:49 1401

原创【论文阅读 | ECCV 2024 | DAMSDet：具有竞争性查询选择与自适应特征融合的动态自适应多光谱检测变换器】

红外-可见光目标检测旨在通过融合红外和可见光图像的互补信息，实现鲁棒甚至全天候的目标检测。然而，高度动态变化的互补特性以及普遍存在的模态错位，使得互补信息的融合变得困难。在本文中，我们提出了一种动态自适应多光谱检测 Transformer（DAMSDet），以同时解决这两个挑战。具体来说：本文·提出了一种模态竞争性查询选择（Modality Competitive Query Selection, MCQS）策略，以提供有用的先验信息。该策略可以为每个目标动态选择基本显著的模态特征表示。

2025-09-30 23:11:37 1391

原创【论文阅读 | WACV 2025 | MCOR：通过跨模态信息互补和余弦相似性通道重采样模块增强的多光谱目标检测】

从不同模态获取的图像可以通过互补可见光(RGB)和红外(IR)图像中的专有信息，有效提高检测模型的准确性和可靠性。RGB和IR图像的不同特性导致模态不平衡问题；融合多模态信息会极大地影响检测精度，因为在整合过程中每个模态提供的一些独特信息会丢失；RGB和IR图像在融合时保留了各自模态的噪声。跨模态信息互补(CIC)模块余弦相似性通道重采样(CSCR)模块。所提出的方法解决了模态不平衡问题，并在特征级别高效地融合了RGB和IR图像。引入了多光谱互补对象加权重采样(MCOR)模块，它使用。

2025-09-26 18:30:34 1059

原创【论文阅读 | TGRS 2025 | DHANet：用于多模态无人机目标检测的双流分层交互网络】

基于无人机的遥感已成为高分辨率动态监测的关键技术。然而，日间和夜间模式之间的差异会在极端光照条件下引发多尺度目标特征的失配。本文提出了一种用于多模态无人机目标检测的双流分层交互网络（DHANet），该网络增强了每种模态下多尺度目标与背景之间的可区分性。具体来说，DHANet设计了一个模态自适应非对称注意力模块（M-AAM），通过全局和局部注意力机制增强目标级语义表示。M-AAM采用全局上下文注意力和局部位置注意力来替代传统的多尺度上下文提取，从而有效整合对象的空间-通道信息。此外，该网络配备了一个。

2025-09-26 17:53:59 1739

原创【论文阅读 | ICCV 2025 | M-SpecGene：面向 RGBT 多光谱视觉的通用基础模型】

RGB - 热成像（RGBT）多光谱视觉对于复杂环境下的稳健感知至关重要。大多数 RGBT 任务遵循 “逐个案例” 的研究范式，依赖人工定制模型来学习面向任务的表征。然而，这种范式本质上受到人工归纳偏差、模态偏差和数据瓶颈的限制。为解决这些局限，首次尝试构建通用RGBT 多光谱基础模型（M-SpecGene），该模型旨在通过自监督方式从大规模广泛数据中学习模态不变表征。M-SpecGene为多光谱融合提供了新视角，并将以往 “逐个案例” 的研究整合到统一范式中。

2025-09-26 17:02:18 2249

原创【论文阅读 | IF 2025 | LFDT-Fusion：潜在特征引导的扩散 Transformer 模型在通用图像融合中的应用】

在图像融合任务中，扩散模型在原始分辨率图像上多次迭代以进行特征映射的效率较低。为解决这一问题，本文提出了一种用于通用图像融合的高效潜在特征引导扩散模型。该模型由像素空间自动编码器和紧凑的基于 Transformer 的扩散网络组成。具体而言，像素空间自动编码器是一种新颖的基于 UNet 的潜在扩散策略，通过下采样将输入压缩到低分辨率潜在空间。同时，跳跃连接将多尺度中间特征从编码器传递到解码器以进行解码，从而保留原始输入的高分辨率信息。

2025-09-26 13:00:55 1374

原创【论文阅读 | IF 2025 | IF-USOD：用于水下显著目标检测的多模态信息融合交互式特征增强架构】

水下显著目标检测（USOD）因其在各种水下视觉任务中的优越性能而受到越来越多的关注。尽管兴趣日益增长，但USOD的研究仍处于起步阶段，现有方法通常难以捕捉显著目标的远程上下文特征。此外，这些方法经常忽略多模态信息的互补性。多模态信息融合可以使先前难以辨别的目标变得更容易检测，因为从不同源图像中捕获互补特征能够更准确地描述目标。在这项工作中，我们探索了一种创新方法IF-USOD，该方法整合RGB和深度信息，并结合交互式特征增强，以推进水下显著目标的检测。我们的方法首先利用。

2025-09-19 22:39:11 1653

原创【论文阅读 | AAAI 2025 | Mamba YOLO: 基于状态空间模型的目标检测简单基线】

在深度学习技术的快速发展推动下，YOLO系列为实时目标检测器设立了新基准。此外，基于Transformer的结构已成为该领域最强大的解决方案，极大地扩展了模型的感受野并实现了显著的性能提升。然而，这种改进是有代价的，因为自注意力机制的二次复杂度增加了模型的计算负担。为了解决这个问题，我们引入了一种简单而有效的基线方法，称为Mamba YOLO。我们提出ODMamba主干网络引入具有线性复杂度的状态空间模型(SSM)来解决自注意力的二次复杂度问题。与其他基于Transformer和基于SSM的方法不同，

2025-09-19 18:44:44 1558

原创【论文阅读 | arXiv 2025 | WaveMamba：面向RGB-红外目标检测的小波驱动Mamba融合方法】

利用可见光（RGB）和红外（IR）图像的互补特性，对于提升目标检测性能具有显著潜力。本文提出WaveMamba，一种跨模态融合方法，它有效地整合了通过离散小波变换（DWT）分解出的RGB和IR独特且互补的频率特征。同时提出了一种融合逆离散小波变换（IDWT）的改进检测头，以减少信息损失并生成最终的检测结果。我们方法的核心是引入了WaveMamba融合块WMFB），它促进了跨低/高频子带的全面融合。在WMFB内部，基于Mamba框架构建的低频Mamba融合块LMFB。

2025-08-24 19:02:00 1985 1

原创【论文阅读 | TCSVT 2025 | CFMW：面向恶劣天气下鲁棒目标检测的跨模态融合Mamba模型】

可见光-红外图像对提供了互补信息，增强了目标检测应用在真实场景中的可靠性和鲁棒性。然而，大多数现有方法在复杂天气条件下保持鲁棒性方面面临挑战，这限制了它们的适用性。同时，模态融合中对注意力机制的依赖引入了显著的计算复杂度和存储开销，尤其是在处理高分辨率图像时。为了应对这些挑战，我们提出了带有天气去除的跨模态融合 Mamba，以增强在恶劣天气条件下的稳定性和成本效益。利用提出的扰动自适应扩散模型）和跨模态融合 Mamba）模块，CFMW 能够重建受恶劣天气影响的视觉特征，丰富图像细节的表示。

2025-08-21 19:28:41 1821

原创【论文阅读 | CVPR 2024 | UniRGB-IR：通过适配器调优实现可见光-红外语义任务的统一框架】

由于可见光(RGB)和红外(IR)图像在低光照和恶劣天气等挑战性条件下能提供更高的准确性和鲁棒性，对它们的语义分析已受到广泛关注。然而，由于缺乏在大规模红外图像数据集上预训练的基础模型，现有方法倾向于设计特定于任务的框架，并直接在它们的RGB-IR语义相关数据集上使用预训练的基础模型进行微调，这导致了可扩展性差和泛化能力有限的问题。为了克服这些限制，我们提出了UniRGB-IR。

2025-08-14 18:05:21 1343 1

原创【论文阅读 | TIV 2024 | CDC-YOLOFusion：利用跨尺度动态卷积融合实现可见光-红外目标检测】

题目：CDC-YOLOFusion: Leveraging Cross-scale Dynamic Convolution Fusion for Visible-Infrared Object Detection期刊：IEEE Transactions on Intelligent Vehicles （TIV）论文：paper代码：code年份：2024由于能够深入挖掘可见光和红外特征，特征级融合方法在可见光 - 红外目标检测中表现出优异的性能。然而，大多数现有的特征级融合方法利用多个具有固定参数的卷积层来

2025-07-22 17:59:31 2164

原创【论文阅读 | IF 2025 | COMO：用于多模态目标检测的跨 Mamba 交互与偏移引导融合】

单模态目标检测任务在面对多样场景时往往会出现性能下降。相比之下，多模态目标检测任务通过融合不同模态的数据，能够提供更全面的目标特征信息。在本文中，我们提出了一种名为跨 Mamba 交互与偏移引导融合（COMO）的新框架，用于多模态目标检测任务。COMO 框架采用跨 Mamba 技术构建特征交互方程，实现多模态序列化状态计算。这在产生交互融合输出的同时，减少了计算开销并提高了效率。此外，COMO 利用受错位影响较小的高层特征，促进模态间的交互和互补信息传递。

2025-07-16 20:13:44 1690

原创【论文阅读 | CVPR 2023 |CDDFuse：基于相关性驱动的双分支特征分解的多模态图像融合】

多模态图像融合旨在生成兼具不同模态优势的融合图像，例如功能性高亮信息和细节纹理。为解决跨模态特征建模以及分解理想的模态特异性特征和模态共享特征这一挑战，我们提出了一种新颖的相关性驱动特征分解融合（CDDFuse）网络。首先，CDDFuse采用Restormer 块提取跨模态浅层特征。随后，我们引入双分支 Transformer-CNN 特征提取器，其中轻量级 Transformer（LT）块利用长程注意力处理低频全局特征可逆神经网络（INN）块专注于提取高频局部信息。我们进一步提出一种相关性驱动损失。

2025-07-16 17:15:38 1835

原创【论文阅读 | PR 2024 |ITFuse：一种用于红外与可见光图像融合的交互式 Transformer】

红外与可见光图像融合IVIF）因其在下游应用中令人满意的结果而受到学术界越来越多的关注。然而，大多数现有的深度融合模型要么是特征级融合，要么是图像级融合，导致信息丢失。在本文中，我们提出了一种用于 IVIF的交互式 Transformer，称为ITFuse。与以往算法不同，ITFuse 由特征交互模块FIMs）和特征重建模块FRM）组成，交替提取和整合重要特征。具体而言，为了充分利用不同源图像的共同属性，我们设计了残差注意力块RAB）用于 mutual 特征表示。

2025-07-15 21:05:55 853

原创【论文阅读 | TITS 2023 |FMPT : Multi-Modal Feature Pyramid Transformer for RGB-Infrared Object Detection】

RGB - 红外多模态目标检测利用多样化且互补的信息，在智能交通领域展现出一定优势。RGB - 红外目标检测的主要挑战在于如何融合这两种模态。模态间存在较大的视觉差异，难以学习到有效的互补特征；一些未对齐的 RGB - 红外图像增加了融合的难度。为此，基于目标检测中常用的特征金字塔，我们提出了多模态特征金字塔 Transformer（MFPT）来融合这两种模态。

2025-07-01 18:34:43 909 1

原创【论文阅读 | CVPR 2025 |MambaVision：一种混合 Mamba-Transformer 视觉骨干网络】

我们提出了一种新颖的混合 Mamba-Transformer 骨干网络 MambaVision，专为视觉应用量身设计。我们的核心贡献包括重新设计 Mamba 公式，以增强其对视觉特征的高效建模能力。通过全面的消融研究，我们证明了将视觉 Transformer（ViT）与 Mamba 集成的可行性。研究结果表明，在Mamba 架构的最后几层配备自注意力块，能显著提升其捕捉长距离空间依赖关系的能力。基于这些发现，我们推出了一系列 MambaVision 模型，它们采用层次化架构，可满足不同的设计需求。

2025-06-27 17:57:17 4466 2

原创【论文阅读 | CVPRW 2023 |CSSA ：基于通道切换和空间注意力的多模态目标检测】

近年来，多模态目标检测备受关注，因为不同模态的特定信息可以相互补充，有效提高检测模型的准确性和稳定性。然而，与处理单模态输入相比，融合多模态信息会显著增加模型的计算复杂度，进而降低其效率。因此，多模态融合模块需要精心设计，以在保持低计算消耗的同时提升检测模型的性能。本文提出了一种新颖的轻量级融合模块（CSSA），该模块通过通道切换和空间注意力机制高效融合不同模态的输入。

2025-06-24 20:34:31 1182 1

原创【论文阅读 | CVPR 2024 |Fusion-Mamba ：用于跨模态目标检测】

跨模态融合通过有效整合不同模态的互补信息，显著提升了目标检测性能，使其在更广泛的应用场景中更具实用性和鲁棒性。现有融合策略通常通过精心设计的神经网络模块来结合不同类型的图像或融合不同主干特征。然而，这些方法忽视了模态差异对跨模态融合性能的影响 —— 由于不同模态的相机焦距、位置和角度差异，其特征难以有效融合。本文中，基于改进的 Mamba 与门控机制，通过在隐藏状态空间中关联跨模态特征来研究跨模态融合。我们设计了Fusion-Mamba 模块FMB。

2025-06-22 20:59:21 3891 2

原创【论文阅读 | PR 2024 |ICAFusion：迭代交叉注意力引导的多光谱目标检测特征融合】

多光谱图像的有效特征融合在多光谱目标检测中起着至关重要的作用。以往研究表明，使用卷积神经网络进行特征融合是有效的，但由于其在局部范围特征交互方面的固有缺陷，这些方法对图像错位敏感，导致性能下降。为解决这一问题，本文提出了一种新型的双交叉注意力 Transformer 特征融合框架，用于建模全局特征交互并同时捕获跨模态的互补信息。该框架通过查询引导的交叉注意力机制增强目标特征的判别力，从而提升性能。然而，堆叠多个 Transformer 块进行特征增强会导致大量参数和高空间复杂度。

2025-06-01 16:03:59 2170 1

原创【论文阅读 | CVPR 2024 |RSDet:去除再选择：一种用于 RGB - 红外目标检测的由粗到精融合视角】

近年来，利用可见光（RGB）和热红外（IR）图像的目标检测技术已受到广泛关注，并在众多领域得到广泛应用。通过利用 RGB 和 IR 图像之间的互补特性，目标检测任务能够在从白天到夜间的各种光照条件下实现可靠且鲁棒的目标定位。大多数现有的多模态目标检测方法直接将 RGB 和 IR 图像输入深度神经网络，导致检测性能较差。我们认为，这一问题不仅源于有效融合多模态信息的挑战，还源于 RGB 和 IR 模态中均存在冗余特征。每种模态的冗余信息会在传播过程中加剧融合不精确的问题。

2025-05-21 23:12:13 2617 2

原创【论文阅读 | AAAI 2025 | FD2-Net：用于红外 - 可见光目标检测的频率驱动特征分解网络】

红外 - 可见光目标检测（IVOD）旨在利用红外和可见光图像中的互补信息，从而提升复杂环境下检测器的性能。然而，现有方法往往忽略互补信息的频率特性，例如可见光图像中丰富的高频细节和红外图像中有价值的低频热信息，这制约了检测性能。为解决这一问题，提出了一种新的用于 IVOD 的频率驱动特征分解网络 FD2-Net，该网络能有效捕捉跨多模态视觉空间的互补信息所具有的独特频率表示。

2025-05-18 17:32:43 2870 1

原创【论文阅读 | PR 2025 | D3Fuse:基于三维特征的红外与可见光图像融合策略】

现有融合方法因缺乏对场景本质特征的关注，存在场景失真问题，且由于缺乏真实标签，关键信息表征不充分。为此，提出了一种基于三维特征融合策略的新型红外与可见光图像融合网络（D3Fuse）。该方法考虑源图像中的场景语义信息，将两幅图像的共同内容作为第三维特征提取，扩展了融合任务的特征空间。具体而言，设计了共同特征提取模块（CFEM）来提取场景共同特征，随后将场景共同特征与模态特征结合构建融合图像。

2025-05-15 23:16:35 1724 1

原创【论文阅读 | TCSVT 2025 | T2EA：用于红外与可见光图像融合的目标感知泰勒展开近似网络】

在图像融合任务中，关键是生成高质量图像，以突出关键目标，同时增强场景的可理解性。为了完成这一任务，并在生成适合视觉任务（如目标检测和分割）的融合结果时，提供强大的可解释性和泛化能力，我们提出了一种新颖的可解释分解方案，并开发了一种用于红外和可见光图像融合的目标感知泰勒展开近似T2EAT^{2}EAT2EA网络。T2EAT^{2}EAT2EA包括以下关键步骤：首先，通过设计的泰勒展开近似（TEA）网络，将可见光和红外图像都分解为特征图。

2025-05-11 13:26:38 1923 2

原创【论文阅读 | CVPR 2022 | 用于小目标检测的归一化高斯瓦瑟斯坦距离（Wasserstein Distance）】

检测小目标是一个极具挑战性的问题，因为小目标在尺寸上仅包含少数像素。我们证明，由于缺乏外观信息，当前最先进的检测器在小目标上无法产生令人满意的结果。我们的关键观察发现，基于交并比IoU）的度量标准，如IoU本身及其扩展，对小目标的位置偏差非常敏感，在基于锚框的检测器中使用时，会严重降低检测性能。为缓解这一问题，我们提出一种新的使用瓦瑟斯坦距离）的评估指标，用于小目标检测。具体而言，我们首先将边界框建模为二维高斯分布，然后提出一种名为归一化瓦瑟斯坦距离NWD。

2025-05-10 20:21:49 1554 1

原创红外与可见光图片数据集整理（持续更新）

本文会将近年来最常用的一些红外与可见光图像的数据集进行整理。之后会整理为网盘链接供下载。

2025-04-08 23:53:06 3982

原创【论文阅读| TPAMI 2020 | U2Fusion：一种统一的无监督图像融合网络】

本研究提出了一种新颖的统一无监督端到端图像融合网络，称为U2Fusion，它能够解决不同的融合问题，包括多模态、多曝光和多聚焦情况。在信息保留方面，首先采用特征提取器从源图像中提取丰富全面的特征，然后度量特征中的信息丰富度，以定义这些特征的相对重要性，这反映了源图像与融合结果之间的相似关系。相似度越高，意味着该源图像在结果中保留的信息越多，信息保留程度也就越高。基于这些策略，训练一个 DenseNet 模块来生成融合结果，且无需真实标签。

2025-04-07 23:31:47 1255 1

原创【论文阅读 | TPAMI 2025 | 可见光 - 热红外微小目标检测（RGBT SOD）：一个基准数据集和基线方法】

*可见光 - 热红外小目标检测（RGBT SOD）**是一项意义重大但颇具挑战的任务，在视频监控、交通监测、搜索救援等领域有着广泛应用。小目标检测（通常指尺寸小于32×32像素的目标）因其固有的挑战性，在视频监控、自动驾驶和水上救援等领域具有重要应用价值，已成为目标检测领域一个独特且具有挑战性的研究方向。当前小目标检测面临三大核心挑战特征表示限制：小目标尺寸极小，外观特征有限，难以有效学习特征表示；同时复杂背景杂波易导致误检数据集匮乏。

2025-04-05 17:41:22 4896 2

原创【论文阅读| CVPR 2023 |MetaFusion：通过对象检测的元特征嵌入进行红外和可见光图像融合】

题目：MetaFusion: Infrared and Visible Image Fusion via Meta-Feature Embeddingfrom Object Detection会议：Computer Vision and Pattern Recognition（CVPR）论文：链接代码：https://github.com/wdzhao123/MetaFusion年份：2023融合红外图像和可见光图像能够为后续的目标检测任务提供更多的纹理细节。反过来，目标检测任务则提供目标的语义信息，以提

2025-03-29 21:50:03 3148 1

原创【论文阅读 | TPAMI 2024 | IVIF任务进展和应用概述：从数据兼容性到任务适配性】

在无监督红外和可见光图像融合领域，损失函数的设计和选择至关重要。这些函数通常可从像素级别、评估指标和数据特征三个主要维度进行理解和分类。（本节不讨论 GAN 和扩散模型等生成模型。）在像素级别，L1 和 MSE 损失函数通过直接比较像素来评估图像相似性。SSIM 作为关键的评估指标，通过考虑图像结构和质量扩展了这一概念，反映了人类视觉感知。针对数据特征的损失函数（如图像梯度）则侧重于在融合过程中保留详细纹理。在此基础上，出现了更复杂的损失函数变体来解决图像融合中的特定挑战。

2025-03-21 16:31:58 1851 1

原创【论文阅读 | CVPR2025 | GIFNet：适用于所有任务的模型：底层任务交互是实现任务无关图像融合的关键】

目前的图像融合方法大多优先考虑高级任务，然而，这种高级监督在一定程度上与底层图像融合问题脱节。相比之下，我们建议从数字摄影融合中利用底层视觉任务，通过像素级监督实现有效的特征交互。这种新范式为无监督多模态融合提供了有力指导，而无需依赖抽象语义，增强了任务共享特征学习，从而具有更广泛的适用性。由于混合图像特征和增强的通用表示，所提出的GIFNet 支持多种融合任务，在已见和未见场景中，单个模型都能实现高性能。总结：应更注重底层的融合任务来提供监督信号，专注于细节保留和像素级特征对齐。

2025-03-19 17:51:43 2189 2

berling00的博客