多模态融合论文学习（五）：2025《nature》-A dual-stream feature decomposition network with weight transformation论文详解

aminghhhh

已于 2025-04-03 22:38:32 修改

阅读量1.5k

点赞数 14

CC 4.0 BY-SA版权

文章标签：人工智能 python 多模态深度学习计算机视觉超分辨率重建

于 2025-03-27 17:38:42 首次发布

本文链接：https://blog.csdn.net/aminghhhh/article/details/146541299

论文链接：https://www.nature.com/articles/s41598-025-92054-0

1. 基于深度学习的多模态图像融合（MMIF）

一.摘要

1.1 摘要翻译

作为一种图像增强技术，多模态图像融合主要旨在从多源图像对中保留显著信息，在单一图像中生成包含互补特征的成像信息，从而便于下游视觉任务。然而，以卷积神经网络（CNN）作为骨干网络的双流方法通常具有有限的感受野，而基于Transformer的方法则耗时较长，且两者都缺乏对跨域信息的探索。本研究提出了一种创新的多模态图像融合模型，适用于红外与可见光图像对以及多源医学图像对。我们的模型结合了Transformer和CNN的优势，有效建模各种特征类型，解决了短程和长程学习以及低频和高频特征提取的问题。首先，我们基于Transformer构建了共享编码器，用于长程学习，包括模态内特征提取块、模态间特征提取块以及一个处理轻微错位的新颖特征对齐块。我们用于提取低频和高频特征的私有编码器采用基于CNN的双流架构，包括双域选择机制和可逆神经网络。其次，我们开发了基于交叉注意力的Swin Transformer块，以探索跨域信息。特别地，我们引入了一种嵌入到Transformer块中的权重变换，以提高效率。第三，我们制定了一种包含动态加权因子的统一损失函数，以捕捉多模态图像的固有共性。对图像融合和目标检测实验结果的全面定性和定量分析表明，所提出的方法有效保留了热目标和背景纹理细节，在实现高质量图像融合和提升后续视觉任务性能方面超越了最先进的替代方案。

1.1 摘要解析

1. 多模态图像融合的目标与挑战

目标：多模态图像融合（multi-modal image fusion）是一种图像增强技术，旨在将来自不同传感器或模态（如红外和可见光、医学图像的不同成像方式）的图像信息整合到一张图像中。这张融合图像需要保留原始图像对中的关键信息（salient information），并生成具有互补特征（complementary features）的结果，以支持下游任务（如目标检测、分割等）。
挑战：
- CNN的局限：传统的双流CNN方法（dual-stream CNN）依赖卷积操作，其感受野（receptive field）有限，无法捕捉图像中的长距离依赖关系（long-range dependencies）。
- Transformer的不足：基于Transformer的方法虽然擅长长距离建模，但计算复杂度高（time-consuming），且对跨模态（cross-domain）信息的挖掘不足。
- 跨域信息：不同模态图像（如红外和可见光）具有异构特性，如何有效融合这些跨域信息是一个难点。

2. 提出的模型架构

该研究提出了一种创新的融合模型，结合CNN和Transformer的优势，分为以下几个核心部分：

(1) 共享编码器（Shared Encoder）

基础：基于Transformer，用于长程学习（long-range learning）。Transformer通过自注意力机制（self-attention）捕捉全局依赖关系，弥补CNN感受野的局限。
组成：
- 模态内特征提取块（Intra-modal Feature Extraction Block）：针对单一模态（如红外或可见光）提取特征，关注模态内部的细节。
- 模态间特征提取块（Inter-modal Feature Extraction Block）：分析不同模态之间的关系，挖掘互补信息。
- 特征对齐块（Feature Alignment Block）：处理图像对之间的轻微错位（slight misalignments），可能是由于拍摄角度或传感器差异导致的。这是一个新颖设计，可能通过几何变换或特征匹配实现对齐。

(2) 私有编码器（Private Encoder）

基础：基于CNN的双流架构（dual-stream architecture），分别处理低频和高频特征。
功能：
- 低频特征：如图像的整体结构、背景信息，通常由较大的卷积核或池化层提取。
- 高频特征：如边缘、纹理细节，通常由较小的卷积核捕捉。
创新点：
- 双域选择机制（Dual-domain Selection Mechanism）：可能是一种自适应方法，根据输入图像特性动态选择低频或高频分支的贡献。
- 可逆神经网络（Invertible Neural Network）：一种先进的网络设计，保证信息无损传递，可能用于特征分解或重建，提升融合质量。

(3) 交叉注意力Swin Transformer块

基础：基于Swin Transformer（一种高效的Transformer变体），引入交叉注意力（cross-attention）机制。
作用：探索跨域信息（cross-domain information），即不同模态之间的关系。交叉注意力允许模型关注一个模态中对另一个模态有意义的区域。
创新点：嵌入权重变换（weight transformation），优化注意力计算，可能通过动态调整权重分布减少计算开销，提高效率。

3. 统一损失函数

设计：包含动态加权因子（dynamic weighting factor）的损失函数，用于平衡多模态图像的固有共性（inherent commonalities）。
解释：
- 多模态图像可能在某些特征（如结构）上相似，但在其他特征（如亮度、热信息）上差异明显。
- 动态加权因子可能通过自适应调整（如基于特征显著性或任务需求），确保融合图像同时保留各模态的关键信息。
实现：可能是L1/L2损失、感知损失或任务特定损失的组合，具体细节需参考原文公式。

二. Introduction

2.1 Introduction翻译

图像融合通过提取和组合来自不同源图像的最相关信息来增强图像质量，生成单一的、更健壮且信息丰富的图像，这对后续应用具有优势。这一领域已成为图像处理的重要研究焦点。根据具体的融合场景，图像融合技术可分为数字摄影图像融合、多模态图像融合（MMIF）和锐化融合。红外与可见光图像融合（IVF）和医学图像融合（MIF）是多模态图像任务中两个具有挑战性的子类别。

MMIF技术在多任务场景中的进步主要由不同设备捕获信息的显著差异驱动。在IVF中，红外和可见光图像分别由红外和光学传感器获取，分别捕获场景的热辐射和光谱信息。红外图像对具有明显红外热特征的对象和区域特别敏感，这些特征在人类视觉中难以察觉，尤其是在夜间或雾天等具有挑战性的条件下。相比之下，可见光图像呈现具有可见反射特性的对象，包含丰富的边缘和细节，从而提供符合人类视觉感知的信息。在MIF中，源图像通过人体与各种介质（如X射线、电磁场和超声波）的相互作用生成。根据源图像的显著信息，可将其分为强调空间纹理的结构图像和强调强度分布的功能图像。结构图像主要包括计算机断层扫描（CT）和磁共振成像（MRI），而功能图像主要包括正电子发射断层扫描（PET）和单光子发射计算机断层扫描（SPECT）。多源图像的组合产生了准确的场景和可靠的互补描述。近年来，许多方法被开发出来以应对MMIF的挑战。MMIF技术作为低级视觉任务服务于高级视觉任务，如目标检测、行人识别、语义分割和场景感知，使其在军事监控、医学成像、工业等领域具有广泛应用。不同传感器的成像原理各异，导致它们捕获的多模态图像在场景描述上的侧重点不同。

现有的图像融合方法可分为较早实现的传统图像融合技术和基于深度学习的图像融合方法。传统图像融合技术通常采用相关的数学逻辑，包括多尺度变换、稀疏表示、子空间和基于显著性的理论。随后，在空间域或变换域中手动分析活动水平以设计融合规则。随着对卷积神经网络（CNN）和Transformer的深入研究，研究人员将深度学习应用于图像融合，开发了基于CNN、自动编码器（AE）、生成对抗网络（GAN）和Transformer的方法。基于AE的方法广泛用于学习层次表示。编码器负责特征提取，随后通过设计算法（如加权平均）融合特征图，最后解码器重建结果。基于CNN的方法专注于设计复杂的集成网络架构和相应的损失函数，以实现特征提取、特征融合和图像重建。基于GAN的方法通过判别器和生成器之间的对抗博弈生成融合结果，使生成的融合结果在概率分布上与目标分布趋于一致，从而隐式实现特征提取、融合和重建。基于Transformer的方法通过归纳捕获人类视觉感知模式引入自注意力机制，允许对人类视觉更感兴趣的区域的特征进行自适应加权融合。自2020年去噪扩散概率模型（DDPM）向公众推出以来，越来越多的研究人员开始将扩散模型应用于计算机视觉（CV）任务，如低光增强、超分辨率、语义分割、阴影移除和图像融合。与基于深度学习的方法相比，传统框架通常在空间域或变换域中聚合互补信息。然而，它们无法在非相邻像素之间交换信息，这导致对不同模态特征固有差异的考虑不足。此外，它们的近似手动测量和日益复杂的要求限制了相关实际应用的发展。基于CNN的模块长期以来一直是CV任务的骨干网络。它们基于局部处理的原则操作，使用均匀的卷积核在感知场内提取特征。整个过程的感受野有限，无法有效考虑全局上下文。相比之下，引入低级视觉任务的Transformer利用注意力机制建模长距离依赖关系，并提供有前景的性能。然而，在处理多源图像的图像融合任务中仍需解决几个问题。首先，基于Transformer的融合模型通常具有大量参数，这限制了它们在内存有限的设备上的适用性。其次，尽管标准Transformer及其变体具有全局上下文感知的自注意力机制，但它们缺乏探索来自不同设备源图像之间的跨域信息的能力，这影响了它们之间的互补集成。因此，我们充分考虑CNN和Transformer类的优势和劣势，设计了一个全面的融合网络。另一个重要问题是融合网络整体架构的谨慎选择。目前，常见且有效的融合网络架构包括残差连接、密集连接和双流架构。双流架构有效地提取不同模态的特征，并为涉及多个领域的多模态源图像的统一融合提供了更好的适应性。我们基于CNN和Transformer的组合开发了一个基于双分支AE的MMIF框架，以促使模型关注上述挑战。

首先，我们将Transformer的全局自注意力机制和长距离依赖建模与CNN的局部视角和计算效率相结合。我们使用基于Transformer的块进行模态内和模态间特征提取以构建共享编码器，而基于CNN的块用于构建私有编码器。我们引入了带有权重变换的Swin Transformer，以高效、低复杂度地整合模态内和模态间特征，通过对齐块确保模态间交互的质量。模态间特征提取由交叉注意力引导。此外，私有编码器采用双流架构以更好地细化特征类型。我们进一步引入双域选择机制（DSM）和可逆神经网络（INN）以针对性地提取高频和低频特征。其次，基于统一标准的多模态场景建模被设计为两阶段网络学习的目标函数，包括结构维护、纹理保留和强度控制。结构维护利用带有动态加权因子（DWF）的结构相似性指数测量（SSIM）损失。所提出的模型可推广到MMIF中的MIF领域，融合不同模态的医学图像（如PET-MRI和SPECT-MRI），为临床诊断提供信息丰富且互补的融合图像。

本研究的主要贡献总结如下：

我们提出了一个适用于多模态图像的图像融合模型，包括红外与可见光图像对和医学图像对。
我们的模型集成了Transformer和CNN的优点，考虑了不同的特征类型，降低了模型复杂度，并制定了针对多模态图像固有共性的带有DWF的统一损失函数。
我们引入了权重变换以增强模型中Transformer块的效率。
此外，我们创建了一个基于交叉注意力的带有权重变换的Swin Transformer块。
我们的共享编码器包含一个用于轻微错位的特征对齐块，私有编码器是一个由DSM和INN组成的双流架构。
所提出的方法在低级和高级视觉任务中均取得了优越的性能。

本文的其余部分组织如下：相关工作部分概述了MMIF的相关工作。方法部分介绍了所提出的方法。实验部分验证了所提出模型的定性视觉效果和定量评估指标，并描述了消融实验和效率分析。结论部分总结了研究。

2.2 Introduction解析

1. 图像融合的定义与分类

定义：图像融合是一种图像增强技术，通过整合多源图像（multi-source images）的关键信息，生成单一图像，提升其鲁棒性和信息量。这种技术广泛应用于后续任务，如目标检测、语义分割等。
分类：
- 数字摄影图像融合：如HDR（高动态范围）成像，融合多曝光图像。
- 多模态图像融合（MMIF）：处理不同传感器（如红外、可见光）或成像方式（如医学图像）的图像对。
- 锐化融合：增强图像清晰度，通常用于单一模态。
MMIF的子类别：
- 红外与可见光融合（IVF）：红外图像捕捉热辐射，可见光图像提供光谱细节，二者互补。
- 医学图像融合（MIF）：如CT（结构信息）与PET（功能信息）的融合，用于诊断。

2. 多模态图像的特性与挑战

IVF特性：
- 红外图像：对热特征敏感，适合夜间或恶劣条件。
- 可见光图像：提供边缘和纹理，符合人类视觉。
MIF特性：
- 结构图像（如CT、MRI）：强调空间纹理。
- 功能图像（如PET、SPECT）：强调强度分布。
挑战：不同模态的成像原理差异导致信息异构，如何有效融合是关键。

3. 传统与深度学习方法的对比

传统方法：
- 技术：多尺度变换（如小波变换）、稀疏表示、子空间、显著性理论。
- 流程：手动分析活动水平（activity level），设计融合规则。
- 局限：无法处理非相邻像素间的关系，忽视模态间特征差异，手动设计复杂且不灵活。
深度学习方法：
- CNN：通过卷积核提取局部特征，感受野有限。
- AE（自动编码器）：编码器提取特征，融合后解码重建。
- GAN：通过对抗学习生成融合图像，隐式完成特征融合。
- Transformer：自注意力机制建模全局依赖，适应人类视觉。
- 扩散模型（DDPM）：新兴方法，适用于多种CV任务，包括融合。

4. 提出的模型架构

该研究提出了一种基于CNN和Transformer的MMIF框架，解决传统和现有深度学习方法的不足：

(1) 共享编码器

基础：基于Transformer，建模长距离依赖。
组成：
- 模态内特征提取：关注单一模态特征。
- 模态间特征提取：挖掘跨模态关系，使用交叉注意力引导。
- 特征对齐块：处理轻微错位，可能基于几何变换或特征匹配。
创新：Swin Transformer（高效变体）结合权重变换，降低复杂度。

(2) 私有编码器

基础：基于CNN的双流架构。
功能：
- 双域选择机制（DSM）：动态选择低频（结构）或高频（细节）特征。
- 可逆神经网络（INN）：无损特征处理，提升提取精度。

(3) 损失函数

设计：统一标准，包括结构维护（SSIM损失+动态加权因子）、纹理保留和强度控制。
作用：平衡多模态图像的共性和差异。

5. 主要贡献与优势

贡献：
- 结合CNN和Transformer，降低复杂度，优化跨域融合。
- 引入权重变换和交叉注意力Swin Transformer块。
- 特征对齐和双流架构（DSM+INN）提升融合质量。
优势：在IVF和MIF中均表现出色，支持低级（融合质量）和高级（目标检测等）任务。

6. 技术细节与展望

架构选择：双流架构适应多模态特性，优于残差或密集连接。
应用：军事、医学、工业等领域。
未来方向：解决Transformer参数量大、跨域信息挖掘不足的问题。

1. 基于深度学习的多模态图像融合（MMIF）

研究现状：基于深度学习的方法通过优化损失函数自适应学习特征融合，已成为MMIF的主流。这些方法超越传统技术（如多尺度变换、稀疏表示），因其能够根据数据自动调整融合规则。
主要方法：
- AE-based（自动编码器）：
  - 特点：对数据集要求低，结果稳定，融合图像中两种模态信息更平衡。
  - 代表性工作：
    - Densefuse：通过密集块增强特征提取，适用于IVF。
    - AUIF：基于算法展开的双流架构，实现双尺度分解。
    - CDDFuse：结合Restormer、Lite Transformer和INN，提升MMIF性能。
- GAN-based（生成对抗网络）：
  - 特点：通过对抗训练生成融合图像，但训练不稳定。
  - 代表性工作：
    - GANMcC：引入多分类约束，缓解不平衡融合。
    - DDcGAN：密集连接和下采样约束优化生成器。
- 双流架构：
  - 假设：不同模态图像需分别提取低频（前景目标）和高频（背景细节）特征，而非简单区分红外基本特征和可见光纹理。
  - 代表性工作：
    - PSTLFusion：全向RNN并行学习场景和纹理。
    - MDLatLRR：低秩表示分解+核范数融合。
- 嵌套连接架构：
  - 代表性工作：NestFuse、Rfn-Nest。
  - 缺点：生成大量特征图和滤波器核，内存需求高。
- 通用MMIF方法：
  - IFCNN：端到端全卷积网络，依赖大数据集。
  - SDNet：梯度和强度提取与重建。
  - RFNet：配准与融合互助，梯度注意力保留纹理。
  - U2Fusion：无监督网络，解决存储和效率问题。
解读：
- 双流架构因其模块化设计和对多模态特征的针对性提取，在MMIF中表现出色，相较于嵌套连接更高效。
- GAN方法虽创新，但不稳定性限制了其广泛应用。
- MMIF需兼顾跨模态特征建模和泛化能力，尤其在IVF和MIF场景中。

2. 视觉任务中的Transformer

发展历程：
- 起源：Vaswani等人提出Transformer，用于NLP的自注意力机制。
- 视觉领域：
  - ViT（Dosovitskiy等人）：将图像分块处理，引入Transformer到CV。
  - Swin Transformer（Liu等人）：移窗机制降低复杂度，提升分辨率，挑战CNN骨干地位。
应用到图像融合：
- IFT：空间-Transformer融合策略。
- SwinFusion：域内和跨域融合块，解决结构、细节和强度控制。
- SwinFuse：残差Swin Transformer+l1范数融合。
- STFNet：特征对齐+Transformer捕捉细节和上下文。
- DATFuse：双注意力+Transformer保留长距离互补信息。
挑战与优化：
- 问题：ViT参数量大，内存和计算需求高，不适合实时或资源受限场景。
- 解决方案：
  - MiniViT：权重复用（变换+蒸馏），压缩参数。
  - TinyViT：快速预训练蒸馏，解决大模型迁移问题。
  - FLatten Transformer：聚焦线性注意力，减少复杂度并提升效率。
解读：
- Transformer优势：自注意力机制建模全局依赖，超越CNN的局部感受野，适合融合任务中的长距离特征整合。
- 优化方向：
  - 权重共享/蒸馏：MiniViT和TinyViT通过知识蒸馏压缩模型，保留性能。
  - 线性注意力：FLatten Transformer聚焦权重分布，降低计算开销。
- 应用前景：Transformer在MMIF中的跨模态建模能力仍有提升空间，尤其需增强跨域信息挖掘。

MMIF现状：深度学习方法（AE、GAN、双流架构）主导，解决特征融合的自适应性问题。双流架构因其灵活性和高效性脱颖而出。
Transformer发展：从ViT到Swin Transformer，再到优化版本（如MiniViT、TinyViT），逐步适应CV需求，在图像融合中展现潜力。
技术趋势：未来需平衡Transformer的性能与效率，同时增强跨模态信息整合能力，以应对MMIF的多样化需求。

四. 方法

4.1 方法翻译

在本节中，我们全面描述了所提出的多模态图像融合（MMIF）框架。首先，我们介绍整体框架。接下来，我们重点介绍带有权重变换技术的Swin Transformer和详细的网络架构。最后，我们展示包含动态加权因子（DWF）的损失函数设计。

整体框架
整体框架如图1所示。我们设计了一个双流结构的特征提取网络，而不是完全依赖Transformer的复杂盲学习来提取所需特征。双流结构的主路径包括共享编码器、私有编码器和解码器。训练采用两阶段策略，并结合基于结构维护、纹理保留和强度控制规则重新设计的损失函数，以提高融合图像质量并增强特征保留。

基于Transformer的共享编码器有效地构建了长距离依赖关系。然而，它局限于模态内的上下文信息，无法整合对MMIF任务中多个源图像至关重要的跨模态上下文信息。受SwinFusion的启发，我们的共享编码器除了模态内特征提取块（intra-FEB）外，还加入了模态间特征提取块（inter-FEB）。

融合结果的另一个关键因素是配准对齐。为了处理从对齐设备获取的图像，通常假设源图像是严格对齐的。然而，设备测量误差导致数据集中存在若干轻微错位的图像对，如图2所示。这些有缺陷的图像对无疑会通过图像融合网络引入伪影，从而影响融合质量。因此，我们在模态间交互之前引入了特征对齐块（FAB），以避免这一问题。此外，双流架构需要为高频和低频特征分别设计适当的网络。为了突出重要区域的响应，我们选择双域选择机制（DSM）来提取纹理细节，而可逆神经网络（INN）负责基本结构。基于CNN的私有编码器为两个模态的特征提供独立的基本和细节提取器，以适应来自不同领域的源图像输入。

权重变换
图像融合研究应专注于任务本身，而不是盲目考虑神经网络规模和模型参数的冗余。标准Transformer旨在捕获单一图像中所有标记之间的长距离自相似依赖。由于共享编码器需要尽可能全面地学习全局信息并整合两个模态之间的互补信息，直接应用标准Transformer结构到MMIF需要更多信息。我们使用MiniViT中的权重复用权重变换技术创建基于Swin Transformer的编码器，包括模态内和模态间交互特征提取。我们为共享特征提取建立了跨域多头自注意力机制，同时保留不同模态的固有特征。权重复用是一种用于压缩ViT的技术，通过跨多层共享权重来减少模型参数数量，同时努力维持模型性能。然而，简单的权重共享会导致训练不稳定和性能下降。因此，需要权重管理策略来优化ViT的性能和效率。权重变换通过线性或其他形式的变换确保共享权重的多样性，使共享权重适应不同层。权重变换被施加于我们模型的Swin Transformer块和基于交叉注意力的Swin Transformer块。交叉注意力的输入是两个维度相同的不同序列，即本研究中的不同模态。它们相互提供Key和Value，并结合自身特征的Query，以交叉方式计算注意力矩阵。

图3展示了一个基于交叉注意力并带有权重变换块的Swin Transformer示例图。图3中的Transform1指的是在常规/移窗配置（W-/SW-MSA）的多头自注意力模块的softmax模块前后应用的线性变换。Transform2在MLP之前使用，具体步骤包括：(1)调整向量维度后进行卷积处理，(2)将维度恢复到原始状态。

网络架构
在MMIF中有效整合输入图像对于增强图像质量和信息可用性具有重要意义。在所提出的网络中，基于Swin Transformer的块均结合权重变换以优化空间复杂度。共享编码器（包括intra-FEB、inter-FEB和FAB）用于编码多模态输入的共同特征。Intra-FEB高效提取输入的细粒度特征，inter-FEB采用交叉注意力机制增强特征相关性，可表述为：

$\left \{F^{1}_A, F^{2}_A \right \}=\left \{S_A(I_1)), S_A(I_2)) \right \}$ (1)
$\left \{F^{1}_E, F^{2}_E \right \}=\left \{S_E(F^{1}_A)), S_E(F^{2}_A)) \right \}$ (2)

其中， $I_{1}\in R^{H\times W\times C_{in}}$ 和 $I_{2}\in R^{H\times W\times C_{in}}$ 来自不同模态。 $S_{A}=(\bullet )$ 表示共享编码器的intra-FEB，包括两个3×3卷积层和深度为2的带有权重变换的Swin Transformer。 $S_{E}=(\bullet )$ 表示配置为基于交叉注意力的模态间融合块的inter-FEB。 $F_{A}$ 和 $F_{E}$ 分别表示经过intra-FEB提取的特征图和经过intra-FEB及inter-FEB后获取的特征图。为了避免轻微错位源图像对网络学习的不利影响并实现特征对齐，我们在intra-FEB和inter-FEB之间基于可变形卷积建立了FAB A(·)。与几何固定的普通3×3卷积核相比，可变形卷积允许卷积核在空间上变形以适应特征图的几何变化。因此，可变形卷积可以通过在正常采样的坐标上添加位移来获得对齐后的新特征图。具体来说，intra-FEB提取的特征被级联，并通过针对 $F_{A}^1$ 的多次卷积获得 $F_{A}^2$ 在X轴和Y轴方向上的一系列偏移量。最后，利用此偏移量构建可变形卷积以实现与 $F_{A}^1$ 的对齐。因此，共享编码器的公式(2)表述如下，其中 $\hat{F}_{A}^2$ 是与 $F_{A}^1$ 对齐后的特征图：

$\hat{F}_{A}^2=A\left \{ {F}_{A}^1{F}_{A}^2\right \}$

$\left \{F^{1}_E, F^{2}_E \right \}=\left \{S_E(F^{1}_A)), S_E(F^{2}_A)) \right \}$

私有编码器在共同特征 $F_{E}^1$ 和 $F_{E}^2$ 的基础上进一步考虑高频和低频特征的分别提取和处理。如图1c所示，DSM利用空间域和频域的互补特性，根据不同模态动态选择并强调空间域和频域特征。这些特征用于后续重建过程。空间域处理像素信息，更好地处理细节和边缘，而频域关注频率分量，在去除不必要噪声和恢复模糊方面表现良好。因此，DSM被选中用于背景细节特征，INN用于前景目标特征。与纯卷积层不同，INN确保特征信息的无损传输；计算细节如图1e所示。我们INN块的输入是 $F_{0}$ [1:c]和 $F_{0}$ [c+1:C]，分别表示输入特征 $F_{0}\in R^{H\times W\times C}$ 的第1到c通道和第c+1到C通道。在每个可逆层中，变换为：

$F_{1}\left [ c+1:C\right ]=F_{0}\left [ c+1:C\right ]+A(F_{0}\left [ 1:c\right ])$ (5)
$F_{1}\left [ 1:c\right ]=F_{0}\left [ 1:c\right ]\bigodot exp(N(F_{1}\left [ 1:c\right ]))+B(F_{1}\left [ c+1:C\right ])$ , (6)

其中A(·)、N(·)和B(·)是从MobileNetV2的瓶颈残差块（BRB）中获得的映射函数，分别表示线性变换、每通道非线性变换和线性变换。私有编码器的完整过程可表示为：

$\left \{F^{1}_B, F^{2}_B \right \}=\left \{P_B(F^{1}_E)), P_B(F^{2}_E)) \right \}$

$\left \{F^{1}_D, F^{2}_D \right \}=\left \{P_D(F^{1}_E)), P_D(F^{2}_E)) \right \}$

其中 $P_{B}=(\bullet )$ 和 $P_{D}=(\bullet )$ 分别是高频和低频特征处理器，即INN和DSM。 $F_{B}$ 和 $F_{D}$ 分别表示两个特征处理器获得的基本特征和细节特征。解码器D(·)包括两层Swin Transformer和三个3×3 CNN。在训练阶段I中，生成和重建 $\hat{I}_1$ 和 $\hat{I}_2$ 的公式如下：

$\hat{I}_1=D(Concat(F^1_{B},F^1_{D}))$ , (9)
$\hat{I}_2=D(Concat(F^2_{B},F^2_{D}))$ (10)

训练阶段II的目的是生成融合图像If。由于特征融合涉及跨模态和多频特征，解码器合并由DSM和INN分别处理的基本和细节特征，可写为：

$F_B = FP_B(F^1_B, F^2_B)$ , (11)
$F_D = FP_D(F^1_D, F^2_D)$ , (12)
$I_f= D(Concat(F_B, F_D))$ , (13)

其中 $FP_B(\bullet )$ 和 $FP_D(\bullet )$ 分别表示基本融合处理器和细节融合处理器。

损失函数
由于MMIF任务缺乏真实标签，训练阶段I通过约束重建图像与源图像之间的相似性来获得特征提取和重建的最优网络参数。在此基础上，训练阶段II引入融合块，并通过适当的结构维护、纹理保留和强度控制约束网络学习。
阶段I：

$L^I_{total} = \lambda L^I_{ssim} +\lambda_1L^I_{int}= \lambda(1-ssim(\hat{I}_1, I_1)+ 1- ssim(\hat{I}_2, I_2)),+\lambda_1(\left | \right |\hat{I}_1-{I}_1\left | \right |_2^2+\left | \right |\hat{I}_2-{I}_2\left | \right |_2^2)$ (14)

阶段II：

$L^{II}_{total} = \lambda_2 L^{II}_{ssim} +\lambda_3L^{II}_{text}+\lambda_4L^{II}_{int}$ (15)

其中λ、λ1、λ2、λ3和λ4是调整参数。结构维护、纹理保留和强度控制分别对应损失部分 $L^{II}_{ssim}$ 、 $L^{II}_{text}$ 和 $L^{II}_{int}$ ，表示为：

$L^{II}_{ssim}=w_1(1-ssim(I_f, I_1))+w_2(1-ssim(I_f, I_2))$ , (16)

$L^{II}_{text}=\frac{1}{HW}\left | \left | \left | \bigtriangledown f \right |-max(\left | \bigtriangledown I_1 \right |,\left | \bigtriangledown I_2 \right |) \right | \right |_1$ (17)
$L^{II}_{int}=\frac{1}{HW}\left | \left | I_f-max(I_1,I_2) \right | \right |_1$ (18)

其中ssim(·)表示结构相似性操作，∇是梯度操作，max(·)是最大操作。H和W分别是图像的高度和宽度。w1和w2控制两个输入的结构保留程度，通常设为0.5或其他固定值。我们希望损失函数根据源图像的特征表示能力自动调整，因此提出了DWF。DWF通过拉普拉斯算子∆计算的梯度值测量边缘和细节，并根据特征测量确定w1和w2。较高的权重表示更高的相应信息保留程度，描述为：

$m_1 = \frac{1}{HW}\left | \left | \bigtriangleup I_1 \right | \right |^2_F$ , (19)
$m_2 = \frac{1}{HW}\left | \left | \bigtriangleup I_2 \right | \right |^2_F$ (20)
$[w_1,w_2]=[\frac{e^{m1}}{e^{m1}+e^{m2}},\frac{e^{m2}}{e^{m1}+e^{m2}}]$ . (21)

4.2 方法解析

1. 整体框架

设计理念：提出了一种双流结构的MMIF框架，避免依赖Transformer的复杂盲学习。双流结构分为共享编码器（提取跨模态共同特征）、私有编码器（分离高低频特征）和解码器（重建融合图像）。
训练策略：
- 两阶段训练：
  - 阶段I：特征提取和重建，优化网络参数。
  - 阶段II：特征融合，生成最终图像。
- 损失函数：基于结构维护、纹理保留和强度控制，提升融合质量。
共享编码器：
- Transformer优势：建模长距离依赖，适合全局信息提取。
- 局限：仅限于模态内上下文，缺乏跨模态整合。
- 改进：
  - Intra-FEB：模态内特征提取。
  - Inter-FEB：跨模态特征提取，借鉴SwinFusion。
  - FAB（特征对齐块）：解决轻微错位问题，使用可变形卷积（deformable convolution）对齐特征。
私有编码器：
- 双流设计：
  - DSM（双域选择机制）：动态选择空间域（细节）和频域（结构）特征。
  - INN（可逆神经网络）：无损提取前景目标特征。
- 作用：分离高频（细节）和低频（基本结构）特征，适应多领域输入。
解读：
- 双流架构结合Transformer和CNN优点，分别处理全局和局部特征，提升了MMIF的适应性。
- FAB通过可变形卷积解决实际场景中的错位问题，是对齐多模态图像的关键创新。
- （可以思考一下这个创新点的局限性在哪）

2. 权重变换

背景：标准Transformer参数量大，直接应用到MMIF效率低。MiniViT提出权重复用（weight multiplexing）压缩模型。
实现：
- 权重复用：跨层共享权重，减少参数量。
- 权重变换：通过线性变换确保共享权重的多样性，避免训练崩溃。
- 应用：
  - Swin Transformer块：模态内提取。
  - 交叉注意力Swin Transformer块：跨模态交互，输入为两模态序列，交叉计算注意力。
细节：
- Transform1：在多头自注意力（W-/SW-MSA）的softmax前后应用线性变换。
- Transform2：在MLP前调整维度+卷积处理，再恢复维度。
解读：
- 权重变换优化了Transformer的效率，适合资源受限场景。
- 交叉注意力机制增强跨模态信息整合，是MMIF的核心创新。

3. 网络架构

共享编码器：
- 可变形卷积：通过偏移量调整卷积核形状，适应几何变化。
私有编码器：
- DSM：动态选择空间/频域特征，处理细节和噪声。
- INN：基于MobileNetV2的BRB映射，确保信息无损。
- 输出：基本特征和细节特征。
解码器：
- 阶段I：重建I1和I2。
- 阶段II：融合FB和FD，生成If。
解读：
- 架构层次清晰，共享编码器聚焦跨模态共性，私有编码器分离频率特征，解码器整合结果。
- 可变形卷积和INN是技术亮点，提升了对齐和特征提取精度。

4. 损失函数

两阶段设计：
- 阶段I：重建损失（SSIM+L2范数），优化特征提取。
- 阶段II：融合损失（结构、纹理、强度），约束最终图像。
细节：
- LII ssim：结构相似性，使用DWF调整权重w1和w2。
- LII text：梯度差，保留纹理细节。
- LII int：强度差，确保亮度一致性。
DWF（动态加权因子）：
- 计算：基于拉普拉斯算子∆的梯度值m1和m2。
- 权重：w1和w2自适应调整，反映模态特征能力。
解读：
- 两阶段损失分离了重建和融合目标，保证了训练稳定性。
- DWF通过梯度动态平衡模态贡献，提升了融合的自适应性。

五.实验

5.1 实验翻译

在本节中，我们详细阐述实验中使用的数据集、实现细节、比较方法和评估指标。随后，为了展示我们方法的优越性，我们从定性和定量两个角度比较了12种方法。比较内容包括图像融合和高级视觉任务。此外，还提供了消融研究和效率分析，以验证每个模块的合理性。

1.实验配置和实现细节

1.1数据集和实现细节

所提出的方法在NVIDIA TITAN RTX GPU和Intel(R) Xeon(R) E5-2678 v3 CPU（主频2.50 GHz）上使用PyTorch框架实现和训练。我们在M3FD数据集上训练用于红外与可见光融合（IVF）任务的模型，该数据集包含分辨率为1024×768的高分辨率图像对。我们从该数据集中选取了2700对来自城市道路场景的图像对作为训练集。该数据集包括监控和自动驾驶应用中常见的物体，如人、汽车、公交车、摩托车、路灯和卡车。此外，该数据集还可用于评估高级计算机视觉任务，如目标检测。除了M3FD数据集外，我们还在FMB和RoadScene数据集上全面验证了模型的融合性能。FMB数据集包括1500对分辨率为800×600的图像对。RoadScene数据集包含221对红外和可见光图像对，描绘了涉及道路、车辆和行人的场景。测试数据集包括从M3FD数据集中随机选取的200张图像、RoadScene数据集中的20张图像以及FWB数据集中的100张图像。这些数据集涵盖了白天和夜间场景，以模拟现实应用中的各种挑战，从而增强实验的说服力。融合网络的参数通过经验设定为 λ=λ1=λ3=5和 λ2=λ4=10，以平衡各部分之间的数量级差异。批量大小设为12，训练步数设为20000。Adam优化器的初始学习率为2e-5，随后呈指数衰减。类似地，为了训练医学成像模型，我们使用了公开的哈佛医学数据集，该数据集包括正常和病理大脑图像。我们选取249张图像用于训练PET-MRI模型，337张图像用于训练SPECT-MRI模型。每个测试数据集包含来自相应数据集的20张图像。

1.2比较方法和评估指标

为了评估IVF的融合效果，我们将模型与九种先进方法进行了比较：IFCNN31、U2Fusion34、SeAFusion7、SwinFusion19、SuperFusion47、TarDAl4、SDDGAN48、CoCoNet49和Diff-IF50。其中，IFCNN、U2Fusion、SwinFusion和CoCoNet是通用的MMIF模型。对于医学图像融合（MIF），我们比较了以下方法：CSMCA51、IFCNN、U2Fusion、EMFusion52、DSAGAN53、SwinFusion和CoCoNet。上述比较方法的代码均公开可用，参数设置采用对应论文中指定的默认值。我们选取了五个评估指标用于定量比较融合图像的质量，以展示我们融合方法的有效性：互信息（MI）、空间频率（SF）、视觉信息保真度（VIF）、基于梯度的融合性能（QAB/F）和结构相似性指数（SSIM）。MI是基于信息论的指标，通过指示不同分布之间的相互依赖性来评估源图像之间的变换。SF通过测量融合图像的梯度来反映边缘和纹理等细节，基于图像特征。VIF根据自然场景统计和人类视觉系统量化输出与输入之间共享的信息量。QAB/F计算从源图像传输到融合图像的边缘信息。SSIM通过评估亮度、对比度和结构元素来捕获图像失真。

2.结果与分析 - 红外与可见光融合（IVF）

定性比较
在视觉比较中，我们从M3FD测试数据集的夜间和白天场景中各选取了两张图像，以展示我们结果的优越性，如图4所示。为了全面分析融合方法在提取前景物体和背景细节信息以及避免冗余方面的能力，我们用绿色框突出物体部分，并用红色框强调并放大细节区域。我们的方法在突出物体、保留颜色和保持融合结果自然性方面表现更好。特别是，没有出现颜色失真，如图像00670(c)和01728(c)所示；没有严重伪影，如图像00619(j)和00719(h)所示；没有细节丢失，如图像00619(g)(k)、00670(i)和01728(d)(i)(j)所示；也没有过曝，如图像00719(e)(f)和01728(e)(f)所示。总体而言，IFCNN无法保留原始颜色信息，TarDAL场景边缘存在伪影。SDDGAN过度平滑，导致可见成分不够突出，检测效果不佳。CoCoNet存在图像失真，无法突出这些目标。为了验证模型的泛化能力，我们将训练好的模型应用于FMB和RoadScene数据集，如图5所示。在00167中，只有我们的结果能够平衡对比度并完全保留有用信息；在00208中，只有我们的融合结果最大限度地减少了过曝和平滑；在193中，我们的结果确保了场景自然性并保留了树干和车辆的细节。除了我们的方法外，TarDAL和CoCoNet也能区分树干和车辆，但它们的天空区域不自然。在243中，CoCoNet的放大区域与我们的结果一样清晰，但其结果在视觉上偏暗。

定量比较
在直观的视觉比较之后，我们建立了更精确的指标来实验性地比较各种方法的融合效果，如表1所示。对于M3FD数据集，所提方法在三个指标（即MI、VIF和QAB/F）上取得了最佳值，在一个指标（即SSIM）上取得了次优值。这表明我们的结果在对比度、视觉效果以及结构和边缘纹理的保真度方面表现更好。表1还列出了FMB和RoadScene数据集上的测量结果，其中五个指标的更高值表明图像质量更好。与M3FD数据集上相似的优异数据性能进一步证明了所提模型的广泛且稳定的适用性。

3.结果与分析 - 医学图像融合（MIF）

定性比较
我们的工作专注于开发统一的MMIF模型，并展示了在医学图像上的比较，如图6和图7所示。在MRI和PET中，MRI提供结构信息，而PET提供功能信息；在MRI和SPECT中，SPECT提供功能信息。融合模型必须保留并合理整合两种模态的信息。展示了六组实验结果。受益于模态间特征交互和高低频信息的针对性提取，所提方法有效地保留了高价值信息并增强了颜色恢复。在六个可视化结果中，我们的结果在结构、细节和颜色的重建与可视化方面明显达到了最优。IFCNN和DSGAN表现出严重的颜色失真。U2Fusion和CoCoNet未能保留足够的细节信息。SwinFusion的MRI细节模糊。CSMCA和EMFusion在边缘保留方面不如我们的方法。

定量比较
在MRI-PET和MRI-SPECT实验中，如表2所示，我们的方法在四个指标（MI、VIF、QAB/F和SSIM）上排名靠前。尽管IFCNN和CoCoNet具有更高的SF值，表明梯度分布更好，但这也导致功能区域过亮而结构区域过暗。这种不合理的操作导致颜色失真和结构细节丢失。在边缘强度和方向方面，最佳QAB/F值证明了我们融合方法的有效性。

目标检测评估
我们进行了目标检测实验，作为补充评估，以评估所有模型的图像理解能力。实验使用流行的YOLOv7模型测试检测性能，并计算了从IoU 0.5到0.95的平均精度均值（mAP），针对人与真实标签的检测结果，包括人、汽车、公交车、摩托车、路灯和卡车。检测的视觉比较如图8所示。

显然，我们能够更全面地识别人、汽车和卡车，并具有高置信度。在00226中，SeAFusion、SwinFusion、CoCoNet和Diff-IF由于对比度差而未能识别人；在00484中，只有我们的方法能够完全正确识别汽车；在03603中，IFCNN、SeAFusion、SwinFusion和Diff-IF将卡车错误识别为汽车，而CoCoNet将垃圾桶误认为汽车。目标检测的定量比较如表3所示。我们模型的平均值最佳，能够比其他方法更有效地检测互补目标信息，即汽车、摩托车、路灯和卡车。上述实验表明，我们的融合方法能够保留引人注目的特征，并有助于提升下游目标检测任务。

4.消融实验与效率分析

4.1关于权重变换的研究

应用于Transformer块的权重变换技术用于缓解参数过多的问题，同时保持性能。如表4所示，没有权重变换的模型表现出更大的模型尺寸和更长的运行时间。

4.2关于特征对齐块（FAB）的研究

由于捕捉严格对齐图像所需的昂贵设备和配准方法的缺点，数据集中存在许多轻微错位的图像对。因此，FAB更适合这种情况。为了验证FAB的有效性，我们比较了有无FAB的模型性能。图像质量指标、目标检测准确性和模型复杂性列于表4。轻微错位会影响特征提取和融合，从而降低图像质量和检测准确性。FAB在对齐特征图时不会显著增加模型复杂性。

4.3关于模态间特征提取块（inter-FEB）的研究

inter-FEB由基于交叉注意力的Swin Transformer块组成，能够有效地聚合长距离依赖关系和模态间的上下文交互。没有inter-FEB，模型无法充分表示源图像对的互补强度，从而影响后续高级CV任务。

4.4关于动态加权因子（DWF）的研究

权重系数可以根据图像对包含的信息量自适应变化，更好的目标函数可以帮助网络学习最优参数。这反映在表4列出的优异图像质量和目标检测指标中。

我们在表5中展示了所有方法的模型大小以及在M3FD数据集推理阶段的平均处理时间。基于扩散模型的方法具有最大的尺寸和最长的运行时间。由于我们模型中存在Transformer块，其参数数量和推理时间比纯CNN模型更长。然而，我们通过考虑Transformer和CNN的各自优势设计了联合CNN-Transformer框架，并优化了Transformer的缺点。与同样采用联合模型的SwinFusion相比，这一点尤为明显。我们的方法在基于Transformer的比较方法中耗时最少。

5.2 实验解析

1. IVF结果与分析

定性比较
- 实验设计：从M3FD测试集中选取4张图像（2张白天，2张夜间），通过绿色框（前景物体）和红色框（背景细节）直观展示融合效果。这种设计聚焦于多模态融合的核心需求：前景突出和细节保留。
- 优势分析：
  - 颜色自然性：避免了颜色失真（如00670(c)），表明模型在整合红外热信息和可见光颜色时表现均衡。
  - 伪影抑制：无严重伪影（如00619(j)），反映了特征对齐块（FAB）的有效性。
  - 细节保持：无细节丢失（如00619(g)(k)），得益于DSM的高频特征提取。
  - 过曝控制：无过曝（如00719(e)(f)），显示了DWF在强度控制上的作用。
- 对比方法不足：
  - IFCNN：颜色失真，边缘伪影，表明传统CNN在跨模态融合上的局限。
  - SDDGAN：过度平滑，可能是GAN生成过程缺乏细节约束。
  - CoCoNet：图像失真，目标不突出，可能因缺乏针对性特征提取。
- 泛化验证：在FMB和RoadScene数据集上的测试（如00167、00208）进一步证明模型的鲁棒性，尤其在对比度平衡和细节保留方面优于其他方法。
定量比较
- 指标结果：在M3FD上，MI、VIF、QAB/F最佳，SSIM次优，表明模型在信息传递、视觉保真度和边缘保持上占优。SF稍逊可能因不过分强调梯度分布，避免了过亮问题。
- 跨数据集表现：FMB和RoadScene的高指标值验证了模型的泛化能力，表明其对不同场景的适应性强。
- 解读：指标选择合理，但SF的次优可能暗示模型在细节增强上有所取舍，需结合任务需求权衡。

2. MIF结果与分析

定性比较
- 实验设计：6组MRI-PET和MRI-SPECT图像比较，关注结构（MRI）和功能（PET/SPECT）信息的整合。
- 优势分析：
  - 高价值信息保留：得益于inter-FEB的跨模态交互。
  - 颜色恢复：INN和DSM分别提取低频结构和高频细节，确保色彩和结构的自然融合。
- 对比方法不足：
  - IFCNN/DSGAN：颜色失真，可能是缺乏针对性模态处理。
  - U2Fusion/CoCoNet：细节不足，表明通用模型在医学场景的局限。
  - SwinFusion：MRI细节模糊，可能因Transformer过度依赖全局特征。
- 解读：医学图像融合对结构和功能信息的双重保留要求极高，作者方法的模块化设计（FAB、inter-FEB）很好地应对了这一挑战。
定量比较
- 指标结果：在MI、VIF、QAB/F、SSIM上排名靠前，SF稍逊但避免了颜色失真，显示了模型在信息整合和边缘保持上的优势。
- 解读：SF高但失真的现象（如IFCNN）表明指标需结合视觉效果综合评估，作者方法在平衡性上更优。

3. 目标检测评估

实验设计：使用YOLOv7测试融合图像的检测性能，mAP覆盖多种物体类别。
定性结果：如00226中正确识别人，00484中识别汽车，表明融合图像保留了关键特征。
定量结果：mAP最佳，尤其在汽车、摩托车等类别上，证明融合图像对下游任务的支持。
解读：目标检测结果验证了融合方法的实用性，但测试场景有限（仅M3FD），需扩展验证。

4. 消融实验与效率分析

权重变换（Weight Transformation）
- 作用：减少Transformer参数量，降低运行时间（如表4），保持性能。
- 解读：优化了计算效率，是Transformer实用化的关键改进。
特征对齐块（FAB）
- 作用：提升图像质量和检测准确性，无显著复杂性增加。
- 解读：FAB对轻微错位的处理能力是实际应用中的亮点。
模态间特征提取块（inter-FEB）
- 作用：增强跨模态信息整合，改善下游任务表现。
- 解读：交叉注意力机制是MMIF的核心竞争力。
动态加权因子（DWF）
- 作用：自适应优化损失函数，提升图像质量。
- 解读：增加了模型的灵活性，但可能对噪声敏感。
效率分析
- 结果：虽比纯CNN慢，但优于其他Transformer方法（如SwinFusion）。
- 解读：联合CNN-Transformer框架平衡了性能与效率。

5. 总体评价

优势：在IVF和MIF上均表现出色，跨模态特征整合、细节保留和下游任务支持能力强。
不足：
- 测试场景有限：M3FD为主，FMB和RoadScene样本较少，泛化性需进一步验证。
- 效率仍待优化：虽优于Transformer基线，但仍慢于CNN。
- 指标解读不足：SF次优未深入分析，可能掩盖细节处理能力的局限。

六.结论

6.1 结论翻译

在本文中，我们提出了一种新颖的联合CNN-Transformer框架，用于多模态图像融合（MMIF）任务。该框架由模态内和模态间交互模块组成，并设计了一个双流架构，用于多样化的特征提取。我们模型中基于Swin Transformer的模块通过权重变换得以增强，双流架构由DSM和INN管理。我们的模型设计有效整合了CNN和Transformer的优点，充分考虑了短距离和长距离依赖关系的建模，以及低频和高频特征的提取。采用包含动态加权因子（DWF）的统一损失函数来指导网络学习参数的优化。

我们在M3FD和哈佛医学数据集上训练了模型。我们的实验涵盖了图像融合和扩展的目标检测，进行了定性和定量评估。所提出的方法在图像质量指标（如MI、SF、VIF、QAB/F和SSIM）以及通过mAP测量的检测准确性上始终表现出优越性能。这些结果表明，我们的方法能够提取全面的特征，并有效融合源图像对中的有用信息。研究结果还突显了我们方法不仅在图像融合方面，而且在其他计算机视觉任务中的潜力。

6.2 结论解析

1. 核心贡献

联合CNN-Transformer框架
- 设计理念：结合CNN的局部特征提取能力和Transformer的全局依赖建模能力，解决传统单一模型在多模态融合中的局限性。
- 模块组成：
  - 模态内交互（intra-modal interaction）：通过Swin Transformer提取单一模态的长距离特征，增强上下文感知。
  - 模态间交互（inter-modal interaction）：利用交叉注意力机制整合跨模态信息，提升融合效果。
  - 双流架构：分为高频（DSM）和低频（INN）特征提取路径，分别处理细节和结构信息。
- 解读：这种联合设计在MMIF领域具有创新性，能够适应红外-可见光（IVF）和医学图像（MIF）等多种场景的需求。
权重变换（Weight Transformation）
- 作用：优化Swin Transformer的参数效率，减少计算复杂度和内存占用。
- 意义：在保持性能的前提下降低了Transformer的部署门槛，使其更适合实际应用。
DSM与INN
- DSM（双域选择机制）：动态选择空间和频域特征，增强细节提取的适应性。
- INN（可逆神经网络）：无损提取低频结构信息，确保信息的完整性。
- 解读：双流架构针对多模态图像的异质性进行了精细化处理，是模型成功的关键。
统一损失函数与DWF
- 设计：结合结构维护（SSIM）、纹理保留（梯度）和强度控制（最大值），通过DWF自适应调整权重。
- 优势：在无监督条件下指导网络优化，提升融合图像的感知质量。

2. 实验验证

数据集
- M3FD：用于IVF任务，覆盖城市道路场景，验证了模型在现实监控和自动驾驶场景的应用能力。
- 哈佛医学数据集：用于MIF任务，测试了模型在医学成像中的泛化性。
评估内容
- 图像融合：通过MI（互信息）、SF（空间频率）、VIF（视觉信息保真度）、QAB/F（边缘性能）和SSIM（结构相似性）五个指标，证明了融合质量的优越性。
- 目标检测：通过YOLOv7的mAP评估，验证了融合图像对下游任务的支持能力。
- 解读：实验覆盖定性和定量分析，指标选择全面，充分展示了模型的性能优势。
结果
- 图像质量：在大多数指标上表现最佳，表明模型在信息整合、细节保留和视觉自然性上领先。
- 检测准确性：mAP最高，证明融合图像保留了关键特征，支持高级视觉任务。
- 泛化性：在IVF和MIF任务中的一致表现，显示了模型的广泛适用性。

3. 技术意义与潜力

特征提取能力
- 模型通过短距离（CNN）和长距离（Transformer）依赖建模，以及高低频特征的分离提取，实现了对源图像信息的全面捕捉。
- 解读：这种多层次特征处理策略在MMIF中具有重要价值，尤其适用于异构数据融合。
融合效果
- 有效整合多模态信息，避免了颜色失真、伪影和细节丢失等问题。
- 解读：结果的自然性和高质量表明模型在实际应用（如监控、医学诊断）中具有竞争力。
扩展潜力
- 除了图像融合，模型对目标检测的支持表明其可扩展到其他计算机视觉任务（如分割、分类）。
- 解读：框架的模块化设计和泛化能力为其在更广泛领域的研究和应用奠定了基础。

4. 评价

优势
- 创新性：联合CNN-Transformer框架结合权重变换和双流架构，是MMIF领域的新颖尝试。
- 实用性：在IVF和MIF任务中的优异表现，以及对下游任务的支持，显示了模型的实际价值。
- 科学性：实验设计严谨，指标全面，结果可信度高。
最致命缺陷
- 计算复杂度：尽管比其他Transformer方法快，但仍无法与轻量级CNN竞争，在资源受限场景（如嵌入式设备）中应用受限。这是当前深度学习融合模型的普遍挑战，也是未来优化的重点。