多模态融合【十七】——CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-CSDN博客

红外与可见光图像融合旨在通过融合不同传感器的互补信息，提供一幅信息丰富的图像。现有的基于学习的融合方法尝试构建各种损失函数来保留互补特征，但忽略了两种模态之间的相互关系，导致融合结果中出现冗余甚至无效信息。此外，大多数方法专注于通过增加网络深度来增强网络，而忽视了特征传输的重要性，导致关键信息退化。为了解决这些问题，我们提出了一种耦合对比学习网络，称为CoCoNet，以端到端的方式实现红外与可见光图像融合。具体而言，为了同时保留两种模态的典型特征并避免融合结果中出现伪影，我们在损失函数中开发了一种耦合对比约束。在融合图像中，其前景目标/背景细节部分在表示空间中被拉近红外/可见光源，并推远可见光/红外源。我们进一步利用图像特性提供数据敏感权重，使我们的损失函数与源图像建立更可靠的关系。我们建立了一个多级注意力模块，以学习丰富的层次特征表示，并在融合过程中全面传输特征。我们还将所提出的CoCoNet应用于不同类型的医学图像融合，例如磁共振图像、正电子发射断层扫描图像和单光子发射计算机断层扫描图像。大量实验表明，我们的方法在主观和客观评估下均取得了最先进的（SOTA）性能，特别是在保留显著目标和恢复关键纹理细节方面。

CoCoNet（Coupled Contrastive Learning Network）是一种基于对比学习的端到端融合网络，针对上述问题提出了以下创新点：

(1) 耦合对比约束（Coupled Contrastive Constraint）

原理：通过对比学习（Contrastive Learning）在特征表示空间中对融合图像的前景目标和背景细节进行约束。具体而言：
- 前景目标（通常来自红外图像）在表示空间中被拉近红外源特征，远离可见光源特征。
- 背景细节（通常来自可见光图像）被拉近可见光源特征，远离红外源特征。
作用：这种“拉近-推远”的机制确保融合图像既保留红外图像的显著目标，又保留可见光图像的纹理细节，同时避免两种模态信息的混淆或伪影生成。
技术优势：相比传统损失函数（如L1、L2或感知损失），对比约束更注重模态间的语义区分和互补性，能够更好地建模模态间的关系。

(2) 数据敏感权重（Data-Sensitive Weights）

原理：利用图像的固有特性（例如纹理复杂度、亮度分布等）生成权重，使损失函数的自适应性更强。
作用：权重根据源图像特性动态调整，确保损失函数在不同场景下都能与输入图像建立可靠的关系。例如，纹理丰富的可见光图像可能获得更高的细节保留权重，而红外图像可能在目标区域获得更高权重。
技术优势：这种自适应机制提高了模型对不同输入数据的鲁棒性和融合质量，特别是在复杂场景下。

(3) 多级注意力模块（Multi-Level Attention Module）

原理：设计一个多层次的注意力机制，捕获从低级到高级的特征表示，并在融合过程中实现特征的全面传输。
作用：
- 层次特征表示：通过多尺度特征提取，捕捉从边缘细节到语义目标的全面信息。
- 特征传输：注意力机制确保重要特征在网络层间有效传递，减少信息退化。
技术优势：相比传统的卷积或全连接层，注意力机制能够动态聚焦于关键区域（如目标或纹理），提高融合图像的质量。

(4) 医学图像融合的扩展

CoCoNet不仅限于红外与可见光图像，还扩展到医学图像融合（如MRI、PET、SPECT）。这些模态同样具有互补性（例如，MRI提供解剖结构，PET提供功能信息），CoCoNet的对比约束和注意力机制能够有效处理这些任务。
意义：医学图像融合对诊断和治疗规划至关重要，CoCoNet的通用性展示了其在跨领域应用的潜力。

二.Introduction

多传感器图像可以从同一场景中获取互补且全面的信息，以实现更好的视觉理解和场景感知，突破了单一传感器成像的局限性（Li等，2018b）。通过组合不同传感器的重要信息，生成一幅复合图像，用于后续图像处理或决策。特别是红外与可见光图像融合（IVIF）是计算机视觉领域中一个不可或缺的分支。生成的融合结果广泛应用于后续任务，包括目标检测（Wong等，2017；Wang等，2023；Liu等，2023c）、行人重识别（Duan等，2017）、语义分割（Pu等，2018；Liu等，2023a,d）以及军事监控。可见光传感器通过反射光成像，提供高空间分辨率的背景细节。然而，在光照不足或伪装条件下，目标难以被清晰看见。相比之下，红外传感器通过物体发射的独特热辐射成像，不受苛刻条件的限制，且能全天候工作。因此，将红外与可见光图像融合成一幅同时保留双方关键信息的单一图像具有重要价值。

在过去几年中，提出了大量实现IVIF的方法。根据其采用的理论，这些方法可分为五类：基于多尺度变换的方法（Li等，2013）、基于稀疏表示的方法（Zhang等，2013, 2018）、基于子空间分解的方法（Lu等，2014）、基于混合的方法（Ma等，2017；Liu等，2015）、基于优化模型的方法（Ma等，2016；Zhao等，2020b）以及其他方法。其中一些方法致力于设计各种特征变换以学习更好的特征表示（Li等，2013；Yan等，2015），而其他方法则尝试发现合适的融合规则（Ma等，2017；Zhang等，2018）。然而，这些方法依赖手工设计，通常耗时较长。最近，研究人员将卷积神经网络（CNN）引入IVIF领域，取得了最先进的性能（Li和Wu，2018；Li等，2018a；Ma等，2019b；Xu等，2019）。通常，基于深度学习的方法可分为三类：基于自编码器的方法（Li和Wu，2018；Liu等，2021a；Zhao等，2020a）、端到端CNN方法（Li等，2021；Xu等，2020；Zhang等，2020a）和基于生成对抗网络的方法（Ma等，2019b, 2020b）。这些基于学习的方法取得了先进性能，但仍有一些未解决的问题需要进一步关注（见图1）。

（FIG.1 红外与可见光图像融合中现有问题的视觉说明。观察到标有黄色箭头的区域表示冗余信息，而标有蓝色箭头的区域表示信息退化。例如，DIDFuse容易保留冗余信息，如吉普车前挡风玻璃及其周围的光晕所示。另一方面，MFEIF在融合过程中可能导致关键信息的丢失，例如天空中的云朵可见度降低以及杆子上指示器的模糊。）

首先，在IVIF中使用CNN具有挑战性，因为缺乏用于监督的标记融合图像。现有的方法通过设计各种损失函数来惩罚输入图像与融合图像之间的差异，导致融合结果中出现大量冗余信息（Zhao等，2020a）。其次，为了融合双方的对应特征，现有方法依赖于调整损失函数中的权衡参数。这导致融合性能不平衡且劳动密集（Li和Wu，2018；Zhang等，2020a）。第三，基于学习的方法引入了跳跃连接以减少融合过程中的梯度消失和特征退化。然而，融合结果仍遭受关键信息丢失（Liu等，2021a）。

在本文中，为解决上述问题，我们提出了一种耦合对比学习网络，结合多级特征集成，用于以端到端方式融合红外与可见光图像，称为CoCoNet。首先，我们开发了一种耦合对比学习方案，指导模型区分显著的互补特征，即独特的目标和纹理细节。这使模型能够仅提取和融合每种模态的所需特征。其次，应用了一种测量机制来计算源图像的比例重要性，生成数据驱动的权重。随后，这些生成权重应用于我们的损失函数，取代了手工设计的权衡参数。在这种设计下，模型可以生成适应特定源图像的融合图像。此外，设计了一个多级注意力模块，以学习丰富的层次特征表示，并确保这些特征得到充分利用。实验表明，CoCoNet可以泛化用于融合不同类型的医学图像，例如磁共振图像（MRI）和单光子发射计算机断层扫描（SPECT）图像，旨在同时保留MRI图像的解剖信息和SPECT图像的功能信息。

我们的贡献包括以下三点：

针对IVIF的主要基石——保留互补信息同时消除两种模态之间的冗余，我们引入了耦合对比约束来实现这一目标，并将其无缝集成到损失函数中。
我们提出了一种数据驱动机制，计算信息保留度，以增强源图像与融合结果之间的强度和细节一致性。这种方法减轻了损失函数中劳动密集的手动参数化需求，并有助于适应源图像特性。
通过设计多级注意力模块（MAM），我们的网络能够学习丰富的层次特征表示，并有效避免融合过程中的特征退化。

在多个数据集上的广泛定性和定量实验证明了我们方法的优越性，大幅超越了九种最先进的IVIF方法。此外，CoCoNet能够扩展到医学图像并实现优异性能。

三. Related Work

在本节中，我们简要概述了基于传统方法的融合方法和基于深度学习的方法。此外，还介绍了深度学习中注意力机制和对比学习的运用。

3.1 多模态图像融合方法

3.1.1 红外与可见光图像融合

传统融合方法

在过去几十年中，提出了大量传统红外与可见光图像融合方法，并得到了很好的应用。通常，根据其采用的理论，这些基于传统的方法可以分为六类代表性方法：基于多尺度变换（MST）的方法（Li等，2013；Ma等，2017）、基于稀疏表示（SR）的方法（Cui等，2015；Zhang等，2018）、基于显著性（Saliency）的方法（Ma等，2017）、基于子空间的方法、基于模型的方法（Zhao等，2018；Liu等，2021；Zhao等，2020b）、混合模型以及其他方法（Gangapure等，2017）。MST在IVIF领域被广泛使用，取得了出色的融合性能。这些MST方法旨在设计各种变换工具，例如小波变换（Petrovic和Xydeas，2004；Lewis等，2007）、非下采样轮廓变换（Bhatnagar等，2013）、轮廓变换（Da Cunha等，2006）、基于边缘保持滤波的变换（Ma等，2017）以及基于Retinex理论的变换，以在不同尺度上提取特征。然后，通过特定的融合规则合并这些变换特征。最后，通过逆变换生成融合结果。Li等（2013）在处理IVIF任务时应用了引导滤波器，提供了视觉上令人满意的融合结果，噪声干扰较少。为了在融合结果中保留丰富的细节，Meng等（2017）提出了一种基于NSCT和目标区域检测的IVIF方法。

与使用固定基函数的MST方法不同，SR方法（Yin等，2017；Kim等，2016；Zhang等，2018）旨在从高质量自然图像中构建超完备字典。学习到的字典可以稀疏表示红外和可见光图像，从而潜在地增强最终融合结果的表示能力。例如，Kim等（2016）提出了一种基于图像块聚类的方法，实现了吸引人的融合性能，并消除了学习字典的冗余。

显著性方法旨在计算比邻居像素更显著的像素，以自下而上的方式吸引视觉注意力。为此，研究人员将显著性方法应用于IVIF任务。Ma等（2017）设计了一种滚动引导滤波器，将源图像分解为基本层和细节层。然后，他们使用视觉显著性图和加权最小二乘优化分别合并基本层和细节层。

子空间方法的核心思想是将高维源图像投影到低维子空间，便于捕获内在结构。主成分分析（PCA）（Abdi和Williams，2010）、独立成分分析（ICA）（Hyvärinen和Oja，2000）和强度-色调-饱和度（IHS）（Tu等，2004）属于这一类别。Bavirisetti（2017）使用四阶偏微分方程分解图像，然后通过PCA合并分解的细节信息，从而将丰富的细节传递到融合结果中。

基于模型的方法也为IVIF带来了新的思路（Ma等，2016；Liu等，2021）。基于全变差（Total Variation），Ma等（2016）首次提出了一种IVIF方法，同时保留了红外图像的强度信息和可见光图像的细节信息。最近，Liu等（2021）提出了一种基于双层优化的方法来解决IVIF和医学图像融合问题。此外，模型中采用了数据驱动权重来取代手工设计的参数，进一步提升了融合性能。

上述IVIF方法各有优缺点，值得结合其优势以提高融合性能。为此，Liu等（2015）通过结合MST和改进的SR引入了一个统一的融合框架；MST用于分解源图像，SR用于获取融合系数。尽管这些基于传统的方法在IVIF任务中发挥了作用，取得了有意义的性能，但手工特征提取器和手动设计的融合规则使这些方法越来越复杂，导致耗时且在各种场景下的融合性能有限。

基于深度学习的融合方法

由于深度学习技术在大量数据上强大的非线性拟合能力，其在众多任务中取得了显著进展（Li和Wu，2018；Liu等，2021；Ma等，2019b；Liu等，2021a；Xu等，2020；Li等，2021；Ma等，2020b；Zhao等，2020a；Wang等，2022；Jiang等，2022b,a；Liu等，2022d, 2021；Ma等，2022c；Fan等，2023；Liu等，2022f；Ma等，2023, 2022b）。早期IVIF方法仅使用深度学习进行特征提取或生成权重图。例如，Liu等（2021）采用了两个预训练CNN生成两个权重图，分别用于合并基本层和细节层。然而，整个过程仍基于传统优化模型，限制了融合性能。

最近，提出了基于自编码器架构的学习方法（Li和Wu，2018；Liu等，2021a；Zhao等，2020a；Li等，2021；Zhao等，2023a）。预训练自编码器用于实现特征提取和特征重构，其中融合规则由手动设计完成。Li和Wu（2018）首次引入了用于IVIF的自编码器网络。通过在编码器部分集成稠密块，可以全面提取特征。然后，他们在融合层中使用加法和L1范数规则生成融合结果。考虑到关键信息常在网络中退化，Liu等（2021a）采用了不同接收域的扩张卷积，从多尺度视角提取特征，然后通过边缘注意力机制合并这些提取的特征。最近，Zhao等（2020a）提出了一种基于自编码器的融合网络，其中编码器将图像分解为包含低频/高频信息的背景和细节特征图。然后通过解码器部分生成融合结果。

此外，基于生成对抗网络（GAN）的融合方法（Ma等，2019b, 2020a,b）因其强大的无监督分布估计能力而被广泛提出。Ma等（2019b）首次在可见光图像与融合结果之间建立了对抗游戏，以增强纹理细节。然而，他们仅使用了可见光图像的信息，因此融合结果丢失了目标的对比度或轮廓。为了改善这一问题，他们随后引入了双判别器GAN（Ma等，2020a），其中红外和可见光图像均参与网络，从而显著提升了融合性能。作为更多尝试，Li等（2021）引入了一个端到端的GAN模型，集成了多分类约束。Liu等（2022a）设计了一个具有一个生成器和双判别器的融合网络。通过在判别过程中引入显著性掩码，可以保留红外图像目标的结构信息和可见光图像的纹理细节。

此外，越来越多的研究人员专注于设计通用图像融合网络（Zhang等，2020b,a；Xu等，2020；Lei等，2023；Li等，2022；Liu等，2022b；Li等，2023a；Liu等，2022c）。Zhang等（2020b）引入了一个统一的融合网络，以高效率实现各种图像融合任务。该网络仅需在一种融合数据集上训练，并调整融合规则以应对其他类型的融合任务。Zhang和Ma（2021）将挤压和分解的思想引入图像融合领域，结合梯度和强度信息构建了一个通用损失函数，并提出了一个通用融合网络。为了将多个融合任务集成到一个模型中，Xu等（2020）提出了一个新颖的融合网络，克服了训练阶段的存储和计算问题或灾难性遗忘问题。

最近，变换器（Transformer）（Vaswani等，2017a）自从在自然语言处理领域提出以来，受到了广泛关注。后来，Dosovitskiy等（2020）提出了用于图像分类的视觉变换器（ViT）。这些在计算机视觉其他领域的成功案例激发了基于变换器的图像融合方法的广泛发展。VS等（2021）率先提出了一个图像融合变换器模型，可以同时利用局部信息和长距离信息，弥补了CNN模型提取全局上下文信息能力的不足。变换器更有效地融合了不同模态的互补信息。Ma等（2022a）提出了一种通用融合方法，可以保留源模态中具有最大强度的像素，实际上旨在保留热成像的前景目标和可见光图像的背景纹理，因为这些正是每种模态中像素强度较高的区域。此外，扩散模型的最新进展也为IVIF提供了新的视角（Zhao等，2023b）。

3.1.2 医学图像融合

与IVIF类似，现有传统医学图像融合（MIF）方法大致可分为两类：基于多尺度变换和基于稀疏表示的医学图像融合。MST也是医学图像融合领域常用的方法。与IVIF中的MST相比，它们的处理流程相似，但在细节上有所不同（Li等，2023b）。在医学领域，常见的多尺度变换方法通常使用不同的波形进行域转换。Yang等（2008）使用轮廓域进行医学图像融合，提出了一种基于轮廓波特性的对比度测量方法，选择适合人类视觉系统的部分，并通过结合各种融合规则进一步提高了融合图像的质量。

在医学图像的稀疏表示领域，Liu和Wang（2015）提出了一种自适应稀疏表示模型，丢弃冗余字典以学习一个紧凑的子字典。源图像块从子字典中自适应选择特征，以降低计算成本并有效减少伪影。Liu等（2019）将形态主成分分析和卷积稀疏表示集成到一个统一的优化框架中，实现了稳定的可视化效果。

随着深度学习在其他图像融合领域的广泛应用（Liu等，2022c），一些通用融合框架（Zhang和Ma，2021；Ma等，2022a；Xu等，2020）也将医学图像融合作为其分支任务。Xu和Ma（2021）提出了一个无监督增强医学图像融合网络，以保留表面和深层约束信息。

3.2 深度学习中的注意力机制

注意力机制源自自然语言处理（NLP）（Parikh等，2016），并在基于CNN的计算机视觉任务中成功应用（Huang等，2019；Vaswani等，2017b），例如显著性目标检测（Zhang等，2021b）、语义分割（Huang等，2019；Li等，2019）、图像增强（Lv等，2019）和图像恢复（Zhang等，2019）。注意力机制通过模拟人类生物视觉系统，允许人类更容易捕获感兴趣区域（ROI）信息并忽略其他不重要信息。为了探索前景和背景区域中的显著信息，Zhang等（2021b）提出了一个双边注意力网络（BiANet），用于RGB-D显著性目标检测任务，其中互补注意力机制可以协调细化前景/背景区域之间的不确定细节。Liu等（2021b）提出了一个层次注意力引导模块，用于多曝光图像融合，使网络能够捕获极端曝光区域中最重要的信息。

3.3 对比学习

对比学习在自监督学习领域获得了广泛关注（He等，2020；Henaff，2020）。与其他使用固定目标的技术相比，对比学习旨在通过使用正样本和负样本最大化互信息。更具体地说，学习的模型需要将锚点拉近正样本，同时推远负样本。先前的工作将对比学习应用于高级和低级视觉任务（He等，2020；Wu等，2021；Xie等，2021a），例如目标检测（Xie等，2021a）、图像去雾（Wu等，2021）、图像超分辨率（Zhang等，2021a）和多曝光图像融合（Liu等，2023b），实现了最先进的性能。在本研究中，我们展示了对比学习可用于学习显著目标和纹理细节的表示，以实现有效的融合。

四.方法

在本节中，我们首先描述CoCoNet的动机，然后介绍设计的损失函数，即耦合对比约束和自适应学习损失。接着，展示详细的网络架构和多级特征集成模块。最后，描述将CoCoNet扩展到医学图像融合的细节。

4.1 动机

我们认为红外与可见光图像融合（IVIF）的目标是保留两种模态的互补信息，同时消除冗余（Ma等，2022a；Liu等，2022a）。然而，IVIF任务缺乏明确的监督信号作为指导。为解决这一问题，现有工作仅在损失函数中设计结构或像素级项，这无法确保模型通过有效特征进行优化，例如红外图像中的模糊纹理或可见光图像中的暗目标不应作为有效的监督信号。因此，融合结果的目标/细节常包含不美观的伪影。本研究认为，源图像对中存在内在的特征指导，即红外图像中的显著热目标和可见光图像中的丰富纹理细节。通过引入人工先验，我们基于对比学习设计了两个损失项，以对显著目标和生动纹理施加明确约束。此外，大多数融合方法使用跳跃连接以避免融合过程中的信息丢失。然而，这些直接跳跃连接可能引入未过滤的信息，为融合图像带来噪声。此外，损失函数中手工设计的权衡超参数通常难以调整，对模型针对特定数据的灵活性构成潜在威胁。因此，我们引入了耦合对比学习网络以缓解这些问题。通过在损失函数中精心构建耦合对比约束和自适应权重，我们能够融合最重要的信息并自动确定其在损失函数中的权重。同时，引入多级注意力模块以学习全面的特征表示。

4.2 提出的CoCoNet

4.2.1 耦合对比学习

受对比学习先前工作的启发，我们为IVIF提出了一种耦合对比正则化，基于两组约束，即目标约束和细节约束。与具有明确参考图像指导的监督学习不同，红外与可见光图像融合没有明确的正负样本指示。因此，应用对比学习的核心在于确定如何构建正负样本对。本文认为，源图像中包含作为正负样本的理想特征。具体而言，对于红外图像，其前景显著热目标比其他部分更受关注。类似地，对于可见光图像，其背景生动的纹理细节比暗前景部分需求更高。我们利用这一先验构建对比对，使模型能够学习区分具有高像素强度的显著目标和背景纹理细节。最终，模型能够识别源图像的典型特征，实现互补融合。

我们基于两组约束为融合结果实现两个目标：为提高前景对象的显著性，红外图像中的对应目标作为正样本，而可见光图像中的对应区域作为负样本。同时，当需要保留融合结果中清晰的背景细节时，我们将可见光图像设为正样本，红外图像设为负样本。为了引入人工先验以最大化上述目标，我们基于TNO数据集捕获的典型红外图像为对应图像对手动生成掩码。

如图2 所示，设 M 表示前景的显著掩码， $\overline{M}$ 表示背景的显著掩码（ $\overline{M} = 1 - M$ ）。这种明确指导迫使模型区分显著性和纹理细节，并能够从可见光和热传感器中提取和融合这些特征。为此，用于提高前景显著性的正负样本（称为目标约束）应为 $IR \odot M$ 和 $IV \odot M$ 。对于潜在特征空间，我们选择常用的预训练VGG-19（Simonyan和Zisserman，2014），记为 G。我们将此目标的损失函数公式化如下：

$L_{ir} = \sum_{i=1}^{N} w_i \frac{\| \mu_i - \mu_i^+ \|_1}{\sum^M_{m} \| \mu_i - \mu_{i}^{m-} \|_1}$

其中， 𝑁 和 𝑀 分别是VGG层数和每个正样本的负样本数。 $u_i$ 表示融合图像的前景特征，定义为 $G_i(I_F \odot M)$ 。 $\mu_i^+$ 和 $\mu_{i}^{m-}$ 分别是正样本和负样本，公式化为 $u^+_i=G_i(I_R\odot M),u^{m-}_i=G_i(I^m_V \odot M)$ 。 𝑚 表示第 𝑚 个负样本。 $\left | \left | . \right | \right |_1$ 表示 ℓ 1 范数。

类似地，对于背景部分，我们希望保留来自可见光图像的更生动细节，将红外图像的背景视为负样本，可见光图像的背景视为正样本。因此，细节约束的目标函数可表示为：

$L_{vis} = \sum_{i=1}^{N} w_i \frac{\| \nu_i - \nu_i ^+ \|_1}{\sum^M_{m} \| \nu_i - \nu_{i}^{m-} \|_1}$

其中， $v_i$ 表示融合图像的背景特征，定义为 $G_i(I_F \odot \overline M)$ 。 $v_i^+$ 和 $v_{i}^{m-}$ 分别是正样本和负样本，公式化为 $v^+_i=G_i(IV_m\overline M),v^{m-}_i=G_i(IR \odot \overline M)$ 。 𝑚 表示第 𝑚 m 个负样本。对比学习过程的说明如图3所示。

4.2.2 自适应学习权重

图像融合旨在通过组合源图像的有利特征，提供信息丰富的图像，具备充足的细节和平衡的强度。对于红外与可见光融合任务，我们学习最小化源图像与融合图像的相似性。损失函数主要由两部分组成，即结构相似性损失和强度相似性损失，可定义为：

$L_P = \alpha L_S + L_N$

其中， 𝛼 是调谐参数， $L_S$ 和 $L_N$ 分别表示结构相似性损失和强度相似性损失。 $L_S$ 通过结构相似性指数（SSIM，Wang等，2004）测量，广泛用于基于对比度、光照和结构的图像差异表示，公式如下：

$L_S = \sigma_a (1 - S(I_V, I_F)) + \sigma_b (1 - S(I_R, I_F))$

其中， 𝑆 ( ⋅ ) 表示SSIM值。 $L_N$ 用于加强强度分布差异的约束，公式化为：

$L_N = \gamma_a \| I_V - I_F \|_2 + \gamma_b \| I_R - I_F \|_2$

其中， $\| \cdot \|_2$ 是均方误差（MSE）。在公式（4）和公式（5）中， $\sigma$ 和 $\gamma$ 是两对比例权重，用于平衡可见光图像和红外图像的比例。 $\sigma$ 和 $\gamma$ 分别由 $\{\sigma_a, \sigma_b\}$ 和 $\{\gamma_a, \gamma_b\}$ } 组成。在现有方法中，它们通常被经验性地设置为固定值（Zhang等，2020a）。然而，固定方式不足以充分利用源图像特征。因此，我们设计了一种自适应损失，通过优化特定于图像的权重 $\sigma$ 和 $\gamma$ 来考虑数据特性。

一方面，我们希望融合图像保留显著纹理（例如结构信息）。平均梯度（AG）用于优化SSIM损失的权重参数 $\sigma$ 。AG的公式如下：

$AG = G(I_F) = \frac{1}{HW} (\| \nabla_h I_F \|_1 + \| \nabla_v I_F \|_1)$

其中， $\bigtriangledown _hI_F$ 和 $\bigtriangledown _vI_F$ 分别表示融合图像在水平和垂直方向的一阶差分。 𝐻 和 𝑊 是高度和宽度。 $\left | \left | . \right | \right |$ 表示 ℓ 1 范数。由于AG反映了图像的基本强度变化，被认为与SSIM损失的目标（即从结构相似性约束融合图像）高度匹配。因此， 𝜎 可通过以下公式确定：

$\sigma_a, \sigma_b = \frac{e^{G(I_V)}}{e^{G(I_V)} + e^{G(I_R)}}, \frac{e^{G(I_R)}}{e^{G(I_V)} + e^{G(I_R)}}$

另一方面，为了融合高对比度的图像，图像熵（EN）用于更新MSE损失的权重参数 𝛾 。EN的公式如下：

$EN = E(I_F) = - \sum_{x=0}^{L-1} p_x \log_2 p_x$

其中，L 表示给定图像的灰度级， $p_x$ 是像素位于对应灰度级的概率。如公式（8）所示，EN测量图像的信息量，并在像素级计算，与MSE约束密切相关，MSE约束也是像素级约束。因此，信息量较高（即EN较高）的模态应获得更高的权重，以最大化有意义的特征。因此， $\gamma$ 可按以下规则更新：

$\gamma_a, \gamma_b = \frac{e^{E(I_V)}}{e^{E(I_V)} + e^{E(I_R)}}, \frac{e^{E(I_R)}}{e^{E(I_V)} + e^{E(I_R)}}$

因此，结合上述所有约束，我们给出以下损失函数以指导学习过程：

$L_{total} = L_P + L_{ir} + L_{vis}$

其中， $L_P$ 是自适应损失， $L_{ir}$ 和 $L_{vis}$ 分别是两组对比损失。

4.3 网络架构

如图3所示，每个卷积块包含两组3×3卷积层，后接批量归一化和LeakyReLU。从各深度层获得的特征图可表示为：来自32、64、128、256通道层的 $f_{U0}, f_{U1}, f_{U2}, f_{U3}$ 。对于多级注意力模块，我们选择两个预训练权重的VGG-19作为骨干网络。它分别以可见光图像和红外图像作为输入，试图充分利用源图像的高级特征。从骨干网络获得的红外特征表示为来自64、128和256通道层的 $f_{R1}, f_{R2}, f_{R3}$ 。类似地，从骨干网络提取的可见光特征表示为来自对应层的 $f_{V1}, f_{V2}, f_{V3}$ 。

为了将更多高级特征融入融合图像，我们提出了一种多级注意力模块（MAM），以实现源图像的全面特征表示。同时，我们期望这种注意力通过全局增强来强化提取的特征。基于上述获得的特征 $f_U, f_R, f_V$ ，首先执行通道注意力：

$f^C_U = CA(f_U), \quad f^C_R = CA(f_R), \quad f^C_V = CA(f_V)$

其中， CA 表示通道注意力，将在后续部分描述。为了融合这些特征，我们对每组特征应用卷积操作：

$f^A_1 = \text{Conv}(\text{Concate}(f^C_{U1}, f^C_{R1}, f^C_{V1})) \dots f^A_n = \text{Conv}(\text{Concate}(f^C_{Un}, f^C_{Rn}, f^C_{Vn}))$

其中， Conv 表示3×3核的卷积层， Concate表示拼接。通道注意力的详细架构如图4所示。给定维度为 $R^{C\times H \times W}$ 的特征 𝑓 ，我们首先使用卷积层生成三个组件 P(f),Q(f),H(f)，并将 P(f),Q(f) 从 $R^{C\times H \times W}$ 重塑为 $R^{C\times HW}$ ，得到 $M_P,M_Q$ 。然后，在 $M_P,M_Q$ 的转置上应用矩阵乘法，后接softmax层，计算注意力特征图 $M\in R^{C\times C}$ 。此后，在 H(f) 的转置和 𝑀之间执行矩阵乘法。结果最终被重塑并加回到源图像 $H_f$ 。

4.4 医学图像融合扩展

在本节中，我们将CoCoNet扩展到医学图像融合，例如MRI和PET图像融合、MRI和SPECT图像融合。PET和SPECT图像被视为伪彩色图像。我们首先将它们转换为彩色图像，然后应用CoCoNet分别融合MRI图像与PET和SPECT图像的强度分量。

4.4.1 医学图像融合背景

随着临床需求的快速发展，过去几十年引入了一系列医学成像技术，例如X射线、计算机断层扫描（CT）、MRI、PET和SPECT。然而，每种成像技术都有其优势和局限性。例如，X射线是频率极高、波长短、能量高的电磁波，具有很强的穿透力，广泛用于诊断或手术前的透视。与传统X射线摄影相比，CT可以高分辨率地检测骨密度的细微差异，但其在组织表征方面的能力有限。此外，MRI不仅可以显示组织器官的形态结构，还可以显示某些器官的功能状况和生化信息。然而，MRI缺乏对软组织活动的描述。相比之下，PET和SPECT是功能成像，根据聚集浓度的差异呈现人体组织活动的强度差异。显然，每种成像模态都有其固有的特点和局限性。值得将不同模态图像的优势结合起来，提供信息丰富且互补的融合图像，用于临床诊断。

近年来，引入了一系列混合成像技术，例如CT-MRI、MRI-PET和MRI-SPECT。本文以两种典型的医学图像融合（MRI-PET和MRI-SPECT）为例，应用CoCoNet解决这一问题。如上所述，PET和SPECT图像可以提供功能和代谢信息，广泛用于分析各器官的功能或代谢状况。这些图像颜色丰富但分辨率较低。相比之下，MRI图像可以更好地描绘器官中的软组织结构，通常具有高空间分辨率。因此，通过整合每种模态图像的优势，我们可以在单一图像中获得互补且全面的信息。在大多数情况下，如图5(a)所示，PET和SPECT以伪彩色显示，其中颜色表示功能信息。对于融合图像，颜色信息应与PET或SPECT图像一致。为此，我们将PET和SPECT图像解耦为YCbCr颜色空间，包含三个通道。然后，我们使用Y通道（亮度通道，如图5(b)所示）与MRI图像融合。PET和SPECT使用Y通道的强度信息表示特征分布，类似于红外图像，而MRI图像（如图5(c)所示）具有丰富的纹理组织细节，类似于可见光图像。因此，MIF和IVIF具有相似的任务目标，即减少融合图像及其对应模态的空间细节失真和颜色强度失真。在通过Y通道和MRI图像获得融合图像（如图5(d)）后，其他两个通道保持不变以恢复颜色信息，如图5(e)所示。

4.4.2 CoCoNet用于医学图像融合

基于上述MRI序列和功能序列（即PET和SPECT）的独特特性，我们也可以应用提出的耦合对比学习来整合不同医学模态的理想特征。我们首先需要分别定义MRI和功能（即PET/SPECT）模态的感兴趣特征。MRI序列富含软组织结构，为脑骨骼提供了清晰的指示。另一方面，为了更好地保留MRI图像的显著结构信息，同时融合反映器官或组织代谢活动、以及受体功能和分布的功能信息。因此，我们能够明确两种模态的有用特征为MRI序列的显著结构信息和功能序列的功能指示。

具体而言，为了组合双方的有用特征，我们提出在MRI序列和功能序列上分别施加MRI分割掩码及其反转版本，以更好地约束我们希望提取的特征。对于融合图像，我们希望其显著区域类似于对应的MRI图像，但与功能序列的同一区域的相似性较低。同样，我们期望融合图像的其他区域在潜在特征空间中更接近功能序列，而远离MRI序列。实际上，融合MRI和功能序列的一个常见问题是MRI中的纹理细节在与功能序列融合后往往被覆盖，从而被削弱。为了部分缓解这一问题，我们首先根据Li和Chi（2005）的研究分割MRI图像生成显著掩码，记为 $M_m = M$ ，如图6所示。我们期望融合图像在 $M_m = M$ 掩码区域下类似于MRI序列，以保留软组织纹理。同时，根据对比学习，同一区域的功能序列作为负样本，有助于强调MRI特征。此过程可描述如下：

$L_{mri} = \sum_{i=1}^{N} w_i \frac{\| \mu_i - \mu_i^+ \|_1}{\sum^M_{m} \| \mu_i - \mu_{i}^{m}- \|_1}$

其中，N 和 M 分别是VGG层数和每个正样本的负样本数。 $\mu_i$ 表示融合图像的MRI结构特征，定义为 $G_i(I_F \odot M_m)$ 。 $u^+_i,u^{m-}_i$ 分别是正样本和负样本，公式化为 $u^+_i=G_i(I_{MRI}\odot M_m),u^{m-}_i=G_i(I^m_{fun} \odot M_m)$ 。上标 m 表示第 m个负样本。

相反，功能序列可以提供受试者功能活动（例如血流）的丰富强度信息。为了保留功能序列中最有利的特征，我们首先反转MRI分割掩码 $M_m$ ，得到 $M_f = 1 - M_m$ 。然后，将 $M_f$ 施加在功能序列上以提取最有信息的特征，包括受试者的代谢信息。融合图像在掩码 $M_f$ 下的区域应与功能图像一致，而与MRI图像的相似性较低。整个过程可以使用基于双对比学习的损失函数建模，如下所示：

$L_{fun} = \sum_{i=1}^{N} w_i \frac{\| \nu_i - \nu_i^+ \|_1}{\sum^M_{m} \| \nu_i - \nu_{i}^{m-} \|_1}$

其中， $v_i$ 表示融合图像的功能特征，定义为 $G_i(I_F \odot M_f)$ 。 $v^+_i,v^{m-}_i$ 分别是正样本和负样本，公式化为 $v^+_i=G_i(I_{fun}\odot M_f),v^{m-}_i=G_i(I^m_{MRI} \odot M_f)$ 。上标 𝑚 m 表示第 𝑚 m 个负样本。

红外与可见光图像融合（IVIF）和医学图像融合（MIF）旨在整合多模态图像的互补信息，生成信息丰富的单一图像。然而，IVIF任务面临以下挑战：

缺乏监督信号：无标记的融合图像导致传统损失函数（如像素级或结构级损失）难以优化有效特征，可能引入模糊纹理或暗目标等无效信息。
冗余与伪影：融合结果常包含不必要的冗余信息或伪影，影响视觉质量。
跳跃连接问题：传统跳跃连接虽能减少信息丢失，但可能引入未过滤的噪声。
超参数调整：手工设计的权衡参数难以适配不同数据，限制模型灵活性。

CoCoNet通过以下创新点解决这些问题：

耦合对比学习：利用源图像的内在特征（红外目标和可见光纹理）构建正负样本对，增强特征区分。
自适应权重：根据图像特性动态调整损失函数权重，提高模型适应性。
多级注意力模块（MAM）：捕获多尺度特征，防止信息退化。
医学图像扩展：将IVIF的对比学习框架适配到MRI-PET和MRI-SPECT融合。

五.实验

5.1 实验设置

5.1.1 数据集

我们用于评估方法的红外与可见光图像对来自公开的 TNO 数据集和 RoadScene 数据集（Xu 等，2020）。以下对上述数据集进行说明：

TNO 数据集
TNO 是红外与可见光图像融合的常用数据集。我们选择 TNO 作为训练网络的基准数据集，因为其图像质量高且包含多样化的场景。
RoadScene 数据集
RoadScene 包含真实的驾驶场景（如车辆、行人和道路标志）。它包含 221 对代表性图像对，分辨率不统一，采集自真实驾驶视频。

5.1.2 训练细节

我们的整个融合框架在 TNO 数据集上通过两个阶段进行训练：训练阶段和微调阶段。总体训练策略见算法 1。 在训练阶段，仅使用自适应损失更新网络参数（即此阶段不涉及对比约束）。具体来说，首先通过测量图像对的平均梯度和熵计算自适应因子 $\sigma_{a,b}$ 和 $\gamma_{a,b}$ ，注意这不会影响网络参数。之后，网络通过自适应损失进行惩罚。至于数据预处理和其他超参数，我们选择了 46 对图像并将其转换为灰度图像。为了充分利用每张图像的梯度和熵进行自适应训练损失，从源图像中裁剪出 1410 个 64×64 的图像块，这使网络能够更好地感知细微的梯度和熵。然后，训练块被归一化为 [-1, 1] 并输入网络。优化器选择 Adam，学习率设为 0.0001，批量大小为 30。在微调阶段，自适应损失和对比约束共同参与更新网络权重，如算法 1 所示。此步骤使用的数据仅包括 TNO 数据集中的 18 张带有显著掩码的图像。与前一阶段相同，裁剪出 1410 张 64×64 的图像。对于对比约束损失，我们使用一个正样本和三个负样本（一个与正样本对应的负样本，两个从其他负样本中随机选择）。网络更新 5 个周期，优化器、学习率和批量大小设置与第一阶段相同。调谐参数 α 设为经验值 20。训练周期的融合性能视觉展示如图 7 所示。

同样，为训练医学成像模型，需要两个阶段：训练和微调。从 Atlas2 数据集中选择 2662 个 PET 块和 4114 个 SPECT 块图像。所有图像裁剪为 64×64 大小并归一化为 [-1, 1] 作为训练集。我们选择 Adam 作为优化器，学习率在两个阶段均设为 0.0001。在训练阶段，模型训练 3 个周期，批量大小为 30。在微调阶段，模型训练 1 个周期，批量大小为 10。自适应损失和对比损失设置与 IVIF 任务相同。调谐参数 α设为 20。

5.1.3 评估指标

为定量评估融合性能，本文选择六种常用的图像质量测量指标，包括熵（EN，Roberts 等，2008）、平均梯度（AG，Eskicioglu 和 Fisher，1995）、空间频率（SF，Eskicioglu 和 Fisher，1995）、标准差（SD，Aslantas 和 Bendes，2015）、差值相关和（SCD，Ma 等，2019a）和视觉信息保真度（VIF，Han 等，2013）。其细节如下：

熵（EN）
EN 测量图像包含的信息量，值越大表示融合策略表现越好。其公式如公式 8 所示。
平均梯度（AG）
AG 测量融合图像的梯度信息，可反映融合图像的细节。其公式如公式 6 所示。
空间频率（SF）
SF 反映图像灰度级变化的准则。SF 值越高的图像拥有更多纹理细节。它基于水平和垂直梯度信息计算，数学表达式如下：

$SF = \sqrt{H^2 + V^2}$

其中 𝐻 和 𝑉 为：

$H = \sqrt{\frac{1}{MN} \sum_{i=1}^{M} \sum_{j=2}^{N} |I_F(i,j) - I_F(i,j-1)|^2}$

$V = \sqrt{\frac{1}{MN} \sum_{i=2}^{M} \sum_{j=1}^{N} |I_F(i,j) - I_F(i-1,j)|^2}$

其中 𝑀 和 𝑁 分别为图像的宽度和高度。

标准差（SD）

SD 用于测量图像是否具有丰富信息和高对比度。SD 值越大表明图像包含更多特征。其公式如下：

$SD = \frac{1}{MN} \sum_{i=1}^{M} \sum_{j=1}^{N} |I_F(i,j) - \mu|^2$

其中 𝜇为像素平均值， 𝑀 和 𝑁 为图像的宽度和高度。

差值相关和（SCD）

SCD 是一种基于图像相关的指标。首先，定义源图像 𝐼 𝑋 和融合图像 𝐼 𝐹 的相关性如下：

$r(I_X, I_F) = \frac{\sum_{i=1}^{M} \sum_{j=1}^{N} (I_X(i,j) - \overline{I_X})(I_F(i,j) - \overline{I_F})}{\sqrt{\sum_{i=1}^{M} \sum_{j=1}^{N} (I_X(i,j) - \overline{I_X})^2 \sum_{i=1}^{M} \sum_{j=1}^{N} (I_F(i,j) - \overline{I_F})^2}}$

融合图像与源图像的差值定义为 $D_{V,F}$ 和 $D_{R,F}$ ，分别对应源图像与差值图像的相关性。SCD 定义如下：

$SCD = r(I_V, D_{V,F}) + r(I_R, D_{R,F})$

视觉信息保真度（VIF）

VIF 基于图像保真度评估图像质量，判断图像是否视觉友好。它评估从源图像融合的有效信息量。值越大表示质量越好。VIF 定义如下：

$VIF(I_V, I_R, I_F) = \sum_{k} p_k \frac{\sum_{b} FVID_{s,b}(I_V, I_R, I_F)}{\sum_{b} FVIND_{s,b}(I_V, I_R, I_F)}$

其中 $FVID_{s,b}$ 为带失真的融合视觉信息， $FVIND_{s,b}$ 为无失真的融合视觉信息，在第 𝑏 个块、第 𝑠 个子带中。

5.2 IVIF 结果与分析

TNO 数据集上的定性比较

在图 8 中，我们将 CoCoNet 与多种最先进方法进行比较，包括 DenseFuse（Li 和 Wu，2018）、FusionGAN（Ma 等，2019b）、PMGI（Zhang 等，2020a）、DIDFuse（Zhao 等，2020a）、GANMcC（Ma 等，2020b）、RFN（Li 等，2021）、MFEIF（Liu 等，2021a）、U2Fusion（Xu 等，2020）、SwinFusion（Ma 等，2022a）、SDNet（Zhang 和 Ma，2021）、SMoA（Liu 等，2021c）和 TarDAL（Liu 等，2022a），使用 TNO 数据集的样本。由于提出的对比学习，总体而言，我们的结果具有更高对比度，前景目标更亮（如树木、树叶和红绿框中的前景对象）。如第一张图片所示，显著对象（红框）更锐利、更清晰，这得益于红外对比度和多级注意力提取的语义特征。DenseFuse 和 DIDFuse 也能提供清晰的热特征，但其图像不够亮，导致最终视觉效果下降。FusionGAN 和 RFN 无法提供清晰目标（其结果中的人显得模糊）。另一方面，我们还能保留可见光图像的生动纹理细节。如第二张比较图片所示，红框显示出树叶的丰富且清晰细节，而 FusionGAN、DIDFuse 和 SMoA 几乎没有提供详细纹理。从综合角度看，提出的方法在红外目标和可见光特征的质量上获得最高水平，并以自然方式融合两种模态。尽管 DenseFuse 和 FusionGAN 也能产生相对理想的前景目标，但它们无法提供清晰的背景信息，其图像往往较暗或模糊。总之，CoCoNet 在显著性和生动细节的平衡上取得最佳表现。

RoadScene 数据集上的定性比较

我们还在图 9 中展示了方法与最先进技术在典型真实驾驶场景（道路、标志和行人）上的视觉比较。

一般来说，所有方法都能在一定程度上融合源图像的热辐射和纹理结构细节。然而，RFN 和 FusionGAN 倾向于边缘模糊。我们的方法、TarDAL 和 SDNet 均产生视觉友好的融合图像，其中我们的显著目标（红框中的行人）更亮、更显眼。遗憾的是，RFN 无法融合与其他方法一样多的红外信息，导致其对象不够清晰。另一方面，CoCoNet 在生动结构细节方面也表现最佳。在第二张比较图片中，绿框中的卡车在相对低光场景下呈现出更好的纹理。然而，FusionGAN 和 PMGI 无法处理此类问题，其框内区域显得暗且模糊。我们将此归功于提出的多级注意力，通过融合更多高级特征并重新排列不同特征通道的重要性，我们的图像更锐利、更清晰。尽管 TarDAL 也能提供高质量的融合结果，但其输出容易受到光晕影响，从而降低可见性。总体而言，我们在道路场景中达到一流水平，方法在各种场景中更稳健。

TNO 数据集上的定量比较

我们在上述部分讨论的几个重要指标上提供了所有方法的评估，结果如图 10 所示。显然，在 TNO 数据集上，我们在所有六项指标上取得最高结果，证明提出的 CoCoNet 能够充分利用源图像的重要特征。此外，在表 1 中，我们还展示了每项指标的平均值和标准差，以证明我们的整体性能。在 TNO 数据集上，值得注意的是，在 SF 和 AG 上，我们比第二好的方法（如 SwinFuse 和 DIDFuse）高出 58%，这进一步证明由于自适应学习，我们能够生成具有更多灰度级的图像，从而包含更多信息特征。DIDFuse 在 SD 和 SCD 上也取得相对优异的结果。TarDAL 在 EN 上产生令人满意的结果。

RoadScene 数据集上的定量比较

我们不仅能处理军事场景，还能处理复杂的驾驶场景。得益于对比学习，融合图像包含具有高对比度的独特灰度级。图 10 还在第二行展示了在 RoadScene 数据集上的定量比较。一般来说，我们在 EN、SF、AG、SCD 和 VIF 上取得最佳结果，在 SD 上达到最先进结果。表 1 列出了所有方法的评估，显示我们的方法能融合源图像中最有效的信息，可见性和锐度也处于顶尖水平。值得一提的是，CoCoNet 在 SF 上比第二好的 SDNet 高出 58%，表明即使在复杂的现实场景中，我们的结果也包含更多具有丰富特征的信息，这归功于自适应学习策略。

5.3 消融研究

在本部分，我们讨论 CoCoNet 中不同模块的必要性。

MAM 的有效性

为消融多级注意力机制（MAM）的使用，我们分别移除预训练 VGG 骨干特征、通道注意力或两者，生成 MAM 的三种变体。图 11 展示了这些变体及完整 MAM，其中 (a) 移除通道注意力和预训练 VGG 骨干，(b) 仅移除预训练骨干，(c) 仅移除 MAM 的通道注意力，(d) 为完整 MAM。数值结果如表 2 所示，其中 w/o ca&vgg、w/o vgg、w/o ca 和 ours 分别对应上述 (a)、(b)、(c) 和 (d)。值得注意的是，移除预训练 VGG 特征在 TNO 和 RoadScene 数据集上的指标显著下降，证明了从预训练骨干提取的互补高级特征的重要性。为证明通道注意力的重要性，我们还注意到从 w/o ca&vgg 到 w/o vgg 以及从 w/o ca 到 ours 在 EN、SF、SD 和 VIF 上的性能提升。这表明通道注意力重新排列了来自两种模态的不同通道权重，有利于融合图像的整体纹理细节。此外，图 12 提供了从 w/o ca&vgg 到 ours 的视觉比较。显然，通过添加预训练 VGG 特征，融合图像的锐度显著提高。因此，列 (d) 和列 (c) 比 (b) 和 (a) 更锐利，例如绿框中的字母在列 (c) 和 (d) 中更清晰，全局结构信息更明显。通过重新组织特征通道，通道注意力使网络能够进一步去除不需要的噪声并保留更丰富的细节，这反映在列 (c) 和 (d) 之间的差异。

VGG 特征的消融

考虑到 VGG 提取的低/中/高级特征（64/128/256 通道）具有不同特性，我们通过单独使用这三种特征创建了六个新变体进行实验，包括仅包含低/中/高级特征的变体，以及不包含它们的变体。图 13 提供了视觉比较图像。可以观察到，特征在两个数据集中表现出相似趋势。低级特征通常对图像的边缘和颜色信息有强烈响应。没有低级特征的变体丢失了大量细节信息并产生颜色偏差。没有中级和高级特征的变体与完整模型相比表现出一定程度的退化。在仅包含一种特征的变体中，仅低级特征的变体实现了相对良好的可视化效果，而仅高级特征的变体具有出色的整体对比度。完整模型的融合结果保持了丰富的细节信息（如上场景中的树枝和下场景中的灌木），同时为显著个体实现突出高光并为场景提供高对比度。在表 3 中，我们提供了两个数据集上的定量比较结果。仅最低级特征的变体在大多数指标上获得第二名，而没有最低级特征的变体表现最差。这表明低级特征提供了更多边缘和颜色信息，从而更好地描述图像。在低级特征的基础上，添加中/高级特征实际上产生了负面影响。提出的完整方法整合了所有级别的特征，在所有指标上实现了最佳性能。

自适应学习的有效性

我们在 TNO 和 RoadScene 数据集上进行了额外实验，以验证自适应学习的有效性。在图 14 中，我们可视化了手工设计的几种训练权重和基于源图像内部特性测量的自适应权重的性能。具体来说， $\sigma$ 和 $\gamma$ 分别是 SSIM 和 MSE 的权重。我们展示了采用几种可能的固定权重组合（例如 $\sigma_a$ 从 0 到 1，同时确保 $\sigma_a$ 和 $\sigma_b$ 之和为 1）的融合结果，与自适应策略（最后一列）进行比较。如图 14 所示，自适应方式通过使用平均梯度和熵信息，实现了更高的对比度，强调红外图像的显著热目标和可见光图像的生动细节，如绿框和红框所示。草地细节更清晰，像素更亮，建筑结构保留了精细边缘。总体而言，自动学习的权重可以生成具有更好全局对比度的图像。此外，我们在图 15 中绘制了定量结果，以进一步证明我们的有效性。第一行的结果报告了 $\sigma$ 固定在 0 到 1 之间的某个值，而 $\gamma$ 为自适应时的六项指标性能。同样，在第二行， $\gamma$ 为手工设计，而 $\sigma$ 基于源图像学习。我们注意到，对于 SSIM 和 MSE 权重，手工设计方式无法适应各种图像的特性，因此在大多数情况下六项评估指标得分较低。在 TNO 数据集上，我们的策略在 SCD 上比固定 SSIM 权重高出约 0.2 分，高于最佳手工设计权重。尽管手工设计权重在某些点上优于我们（例如当 $\sigma$ 设为 0.8 时，固定权重在 VIF 上略好），但通过使用图像自身的特征，我们生成更高质量的图像，对具有不同特性的源图像具有鲁棒性。在图 16 中，我们可视化了从 TNO 和 MRI-PET 数据集中随机选择的 50 个图像对的特定权重值。结果显示 $\sigma$ 和 $\gamma$ 在两个数据集上波动，表明模态间独特结构的动态特性。这进一步证明在我们的损失设置下，固定的 $\sigma$ 和 $\gamma$ 权重无法充分利用源图像的结构信息/像素分布进行融合。

对比学习的有效性

我们进一步进行了实验以验证提出的对比正则化的有效性，视觉比较如图 17 所示，

其中 (a) 表示既无目标约束也无细节约束的结果，(b) 表示仅具有目标约束的结果，(c) 表示仅具有细节约束的结果。为了更好地展示对比正则化中样本选择的重要性，在 (d) 中，我们使用不对应的样本（即从整个数据集中随机选择的图像块）进行对比。完整对比学习在 (e) 中给出。显然，缺少红外和可见光对比会给融合结果带来不需要的噪声，导致边缘模糊（例如在 (a) 中，红框中的树木细节不够清晰，带有噪声像素）。在 (b) 中，我们展示了仅红外正则化的结果。尽管显著热目标得到增强，我们仍注意到可见光细节的图像质量下降，难以呈现生动的纹理信息。这证明移除可见光部分的正则化可能损害融合过程中的纹理细节。在 (c) 中，我们展示了仅通过移除红外增强的可见光约束的结果。显然，由于缺乏足够的红外特征指导，显著目标不够亮。基于 (d) 的结果，我们认为样本选择在对比正则化中最为重要。在缺乏正确指导的情况下，融合图像质量下降，像素更暗且不够清晰，例如人不够亮，图像整体显得模糊。总之，目标和细节约束对于实现我们的初始目标（即结合红外图像的显著热目标和可见光图像的生动背景细节）都不可或缺。

不同掩码的分析

我们以不同方式生成掩码 M ，以研究掩码如何影响提出的方法。图 18 第一行展示了三种掩码。TM 是通过显著性机制（Montabone 和 Soto，2010）引导的人体检测算法生成的特征权重图。在实践中，我们设置阈值将其转换为 0-1 掩码，因为其原始形式不是二值掩码。UM 来自无监督显著性检测器（Nguyen 等，2019），它还标记了红外图像中由室温突出的门。我们使用这三种不同掩码进行融合，结果如图 18 第二行所示。从视觉角度看，不同掩码不影响所提方法的视觉特征（如真实细节和高对比度）。所提方法的性能几乎独立于掩码的获取方式。

5.4 计算复杂度

我们验证了所提模型在内存消耗和计算效率方面的表现，以评估其在实际应用中的潜力。需要注意的是，由于运行平台、超参数等设置的不同，本部分的实验结果可能与原始论文略有差异。具体来说，FLOPs（浮点运算次数）和训练参数的计算基于输入尺寸为 64×64。对于运行时间，我们从 TNO 数据集中选取 10 张 64×64 的图像，计算平均时间。表 4 展示了与几种最先进方法的模型大小、FLOPs 和运行时间的定量比较。我们的模型速度快于除 SDNet 和 MFEIF 外的所有方法。尽管由于这些框架的简单性，我们的速度稍慢，但运行时间仍低于 0.1 秒，比 DenseFuse 和 U2Fusion 快两倍，比 PMGI 快三倍，比 FusionGAN、GANMcC 和 RFN 快四倍。此外，尽管 CoCoNet 比 FusionGAN 更复杂，我们仍享有更快的速度，证明了所提架构的优越性。特别地，多级注意力模块（MAM）需要大量参数来计算和整合多级特征，以实现更好的特征提取和传递。尽管移除 MAM 模块可以在一定程度上减轻计算复杂度，但可能在融合过程中丢失重要信息，导致融合结果细节丢失或目标模糊。

5.5 局限性

在大多数现实场景中，获取像素级对齐的红外与可见光图像对是一项重大挑战。现有工作（Tang 等，2022；Huang 等，2022）通过引入额外的配准模块（Ma 等，2019c；Liu 等，2020, 2022e）缓解了这一问题。为探讨融合轻微未对齐图像对的影响，我们首先通过在 TNO 和 RoadScene 数据集上分别进行不同程度（即轻微、中等和极端）的随机仿射和弹性变换，合成了这些轻微未对齐的源图像。然后，我们使用所提方法融合这些未对齐的源图像。视觉结果如图 19 所示，注意我们的方法可以处理轻微未对齐的图像，保留了大部分重要信息。然而，当像素偏差显著时，融合结果会出现光晕和伪影。

5.6 MIF 结果与分析

我们将所提方法与一些最先进方法进行比较，包括三种传统方法（即基于自适应稀疏表示的 ASR（Liu 和 Wang，2015）、基于卷积稀疏表示和形态学主成分分析的 CSMCA（Liu 等，2019）以及基于轮廓波变换的 Curvelet（Yang 等，2008））、三种基于 CNN 的方法（即 EMFusion（Xu 和 Ma，2021）、SDNet（Zhang 和 Ma，2021）和 U2Fusion（Xu 等，2020））以及基于 Transformer 的 SwinFusion（Ma 等，2022a）。由于 SwinFusion 仅能处理 MRI-PET 图像对，因此其结果仅参与 MRI-PET 融合任务的比较。

5.6.1 MRI-PET 融合任务

定性比较

典型 MRI-PET 图像的视觉比较如图 20 所示。得益于多尺度注意力机制，所提方法能够准确保留不同模态的高价值信息。此外，使用 MRI 分割掩码的对比学习成功解决了 MRI 图像信息被其他模态强度信息覆盖的问题，防止了有效细节的丢失。三种传统方法性能相似，专注于保留 MRI 的细节，但忽略了另一模态颜色信息的恢复（前两组图像的框选部分）。SDNet 和 U2Fusion 难以有效提取和保存信息，导致细节和颜色严重丢失，而 EMFusion 导致严重的颜色失真（最后一组图像的框选部分）。SwinFusion 很好地保留了颜色信息，但未解决 MRI 细节被覆盖的问题。总之，所提方法在保留颜色和细节信息之间实现了平衡，达到了最佳视觉效果。

定量比较

为更好地展示 CoCoNet 在 MIF 任务中的性能，我们在上述部分讨论的指标上提供了所有方法的评估。结果如表 5 左侧所示。显然，所提方法在 EN、SD、SF、AG 上取得最高结果，在 SCD 上达到最先进水平。SwinFusion 在 VIF 和 SCD 上取得最高结果，凸显了其可视化特性。

5.6.2 MRI-SPECT 融合任务

定性比较

典型 MRI-SPECT 图像的视觉比较如图 21 所示。与 PET 不同，SPECT 图像的强度信息更为稀疏。使用的 MRI 分割掩码对比学习能够更好地保留 MRI 图像的细节，减少干扰。其他深度学习方法在不同程度和模态上遭受信息丢失：SDNet 和 U2Fusion 能够保存 MRI 图像的细节，而 EMFusion 在颜色信息上存在严重缺陷（第一组和最后一组图像的框选部分）。传统方法保留了强度信息，但 MRI 部分变暗（前两组图像的框选部分）。

定量比较

所有方法的指标评估如表 5 右侧所示。所有深度学习方法在六项指标上的表现都很差，但我们在所有深度学习方法中实现了最先进性能。基于实际分析，原因如下：由于 SPECT 图像的原始分辨率低，参与融合前需要上采样。在此过程中，引入了许多非均匀像素噪声，而卷积神经网络能够更好地处理这些噪声，产生平滑结果。在指标计算中，噪声干扰对深度学习方法不利，例如 EN、SF 和 AG。我们的方法更好地保留了两种模态的信息，因此在指标上优于其他深度学习方法。

5.7 任务驱动评估

融合图像的用途不仅包括增强基本视觉观察，还在提升其后续高级视觉任务的性能中发挥关键作用。遗憾的是，现有评估方法主要集中在评估这些图像的视觉质量和相关统计指标。本节中，我们倡导一种任务驱动的评估，超越传统评估范式的局限性。为实现这一目标，我们采用双重方法，涉及对融合图像应用目标检测和语义分割任务。这种方法能够比较各种红外与可见光图像融合技术在其后续高级视觉任务中的表现。

5.7.1 目标检测评估

目标检测是一项传统且广泛研究的高级计算机视觉任务。随着多模态数据集的不断改进，其在评估多模态图像融合技术时反映语义信息的能力日益突出。本小节重点讨论图像融合对目标检测的影响。

实现细节

我们在最新的 M3FD 数据集上使用最先进检测器 YOLOv5s 进行实验。为确保公平比较，我们使用 YOLOv5s 模型，将各种方法的融合结果直接输入检测器进行重新训练。然后在相同的随机划分测试集上测试重新训练的模型。检测器的所有设置遵循其原始配置，定量结果由其测试代码直接输出。

定量比较

实验获得的定量结果如表 6 所示。mAP@.5 表示当 mIoU 为 0.5 时的平均精度均值（mAP），mAP@.5:.95 表示在不同 IoU 阈值（从 0.5 到 0.95，步长 0.05）的所有 mAP 值的平均值，其他值表示对应类别的平均精度（AP）。我们与之前部分的相同基准方法进行了横向比较。在最受关注的指标 mAP@.5 上，所提方法未进入前两名，但仍表现良好（排名第三）。TarDAL 针对目标检测进行了优化，取得了最佳结果，而能够生成良好融合图像的 DIDFuse 排名第二。在更全面的指标 mAP@.5:.95 上，反映不同 IoU 下的性能，CoCoNet 排名第二，显示其在常见融合方法中的检测优势。此外，不同方法在各自类别 AP 上表现出偏好性。

定性比较

为展示所提方法在促进下游检测任务中的优势，我们在图 22 中提供了两个视觉示例，均突出显示置信度大于 0.6 的检测结果。场景 1 描述了阴天下的行人检测场景。所提方法的融合结果突出显示行人，创造出高对比度的视觉效果，非常适合检测网络，实现了最佳检测性能。相反，FusionGAN 和 U2Fusion 等方法产生模糊的人物轮廓，导致检测置信度低。场景 2 显示了驾驶检测场景，更好地反映了融合方法保留和利用可见光信息的程度。我们的融合结果保留了丰富的可见光信息，同时实现了最佳检测性能，满足了这一特殊场景的要求。

对比学习的消融

为进一步研究采用的对比学习对目标检测任务的影响，我们还在三种消融变体上进行了目标检测实验（w/o CL：无对比正则化，w/ Lir：仅目标约束，w/ Lvis：仅细节约束），定量结果如表 7 所示。在 mAP 方面，所提方法具有明显优势，其次是无对比学习的变体。同时，单独为对象或细节添加约束对整体检测结果产生负面影响。此外，值得注意的是，仅具有对象约束的变体对场景中的显著对象确实表现出更强的敏感性，导致人物和公交车等类别的 AP 表现出色。然而，仅具有细节约束的变体无法适应后续检测任务。具有目标-细节耦合的完整方法实现了两种约束的出色整合和利用。

5.7.2 语义分割评估

在评估图像融合技术时，语义分割能够更准确地评估其反映不同语义类别信息的能力。其像素级分类方法更加强调语义信息的丰富性和准确性。本节重点讨论图像融合对语义分割的影响。

实现细节

我们在 MFNet 数据集上使用最先进的语义分割模型 SegFormer（Xie 等，2021b）进行实验。为公平比较，我们加载预训练权重 mb1，并在所有融合结果上进行相同迭代的微调。MFNet 的训练/验证/测试集划分遵循源数据集的惯例。

定量比较

我们使用像素交并比（IoU）和准确率（Acc）反映分割表达。表 8 报告了具体评估结果。可以看到，所提方法在主要对象类别（即汽车和人物）上实现了最高的 IoU，并在 mIoU 和 mAcc 上排名第一。我们将这一优势归因于两点。一方面，我们的融合网络在对比约束下移除不同模态间的冗余信息，保留有用的互补信息，支持对整体场景的更好理解。另一方面，所提 MAM 有效地将高级网络的语义特征整合到融合过程中，使我们的融合图像包含丰富的语义信息。

定性比较

我们在图 23 中提供了白天和夜间场景的可视化分割结果。可见光图像在白天能更好地描述显著的大型目标，但忽略了与背景颜色相似的远距离行人。相比之下，红外图像在夜间有效区分行人，支持出色结果。分割模型在所提方法产生的融合图像上生成更准确的结果，涵盖主要目标和背景对象，例如白天场景中红框内的行人和夜间场景中绿框内的停车汽车。

对比学习的消融

类似地，我们还在三种变体（w/o CL、w/ Lir 和 w/ Lvis）上进行了语义分割实验，IoU 的定量结果如表 9 所示。可以看到，无对比约束的变体整体性能较差。在具有单侧约束的两个变体中，w/ Lir 的目标约束比 w/ Lvis 的细节约束更能提升整体分割质量，因为它在处理数据集中的更多夜间场景时更有利于红外显著内容的提取、学习和逼近。所提的完整对比约束在多个类别和两个平均指标上实现了最佳性能，证明了并行使用两种约束的出色表现。

5.8 扩展到其他融合任务

为展示我们方法的广泛适用性，我们将 CoCoNet 扩展到处理其他多模态图像融合相关问题。例如，我们将其应用于绿色荧光蛋白（GFP）和相位对比（PC）图像的融合，以及近红外（NIR）和可见光（VIS）图像的融合。在 GFP 和 PC 图像融合中，GFP 表示强度和颜色信息，类似于 PET/SPECT 图像的作用，而 PC 表示结构和细节信息，类似于 MRI 图像。类似地，NIR 图像提供丰富的背景信息，而 VIS 图像提供清晰的前景内容。因此，所提方法能够胜任这些任务。定性结果如图 24 所示，表明所提 CoCoNet 生成的融合图像具有令人满意的视觉效果。具体来说，CoCoNet 在保留相位对比图像的边缘信息的同时，引入绿色荧光蛋白的颜色信息，劣化程度低。在第二个任务中，CoCoNet 实现高对比度，同时保留 NIR 图像中的丰富纹理信息（详见红框区域）。

进一步讨论通用性

值得注意的是，我们在所有上述任务中直接在预训练模块上进行测试，未进行微调，因为它们尚未适用于所提的耦合对比学习策略。如上所述，GFP 和 PC 图像融合类似于 MRI 和 PET 图像融合，但 PC 图像缺乏可提供 MRI 分割掩码的信息内容，因为它们主要捕获线条上的梯度细节，而不是稍大的像素区域。同时，NIR 和 VIS 图像是从不同但接近的波段获取的自然图像，具有近似的整体场景特征和纹理信息。它们的模态差异幅度较小，为设计符合耦合对比学习约束的适当掩码带来了挑战。我们认为，为了将 CCL 适当转移并应用于其他图像融合任务，需要考虑目标多模态图像是否足以生成可解释且有意义的对比学习掩码。这不仅是其通用性的关键障碍，也是确保其有效性的基本前提。我们计划在未来工作中深入探讨这一主题，旨在改进 CCL 并可能提出新方法。

两阶段训练的合理性：先通过自适应损失学习通用特征，再通过对比约束强化模态特定特征（如红外前景和可见光背景），有效平衡了模型的泛化性和针对性。
数据裁剪：64×64 块增加训练样本多样性，增强模型对局部特征（如梯度和熵）的感知能力，适合自适应权重计算。
负样本选择：1 个对应负样本和 2 个随机负样本的组合提高了对比学习的鲁棒性，但随机负样本可能引入噪声，需谨慎设计。
医学成像训练：PET/SPECT 数据量较大（2662+4114），但训练周期较短（3+1），可能限制模型在医学场景中的充分优化。
六项指标全面覆盖了融合图像的信息量（EN）、细节（AG、SF）、对比度（SD）、模态互补性（SCD）和视觉质量（VIF），适合评估 CoCoNet 的综合性能。
SF 和 AG 与 CoCoNet 的自适应权重（基于梯度和熵）高度相关，适合验证其纹理和细节保留能力。
SCD 和 VIF 强调模态互补性和视觉友好性，适合评估对比学习对前景/背景区分的效果。
对比学习的贡献：通过前景（红外）和背景（可见光）的对比约束，CoCoNet 增强了目标显著性和纹理细节，适合 TNO 的高对比度场景。
MAM 的作用：多级注意力融合高级特征，增强了低光场景（如 RoadScene）的纹理表现，减少了光晕干扰。
局限性：CoCoNet 的区域划分策略可能在前景/背景边界处产生轻微不连续性，需进一步优化平滑过渡。
自适应学习的贡献：通过动态调整 σ和 γ ，CoCoNet 生成了更多灰度级和细节信息，SF 和 AG 的高分直接验证了这一点。
对比学习的鲁棒性：在复杂驾驶场景中，CoCoNet 保持高对比度和清晰度，表明其前景/背景区分策略对非标准化场景有效。
潜在改进：虽然 CoCoNet 在指标上领先，但在 SD 上仅达到最先进水平，可能因前景/背景区域权重分配不均，需优化模态平衡。
VGG 骨干提供语义丰富的特征，增强了前景目标的显著性和背景纹理的清晰度。
通道注意力优化了模态特征的融合，减少了噪声，适合复杂场景。
局限性：VGG 骨干增加计算复杂度，可能不适合实时应用。
低级特征对细节和边缘至关重要，适合 CoCoNet 的纹理保留目标。
中高级特征补充语义信息，增强对比度和目标显著性。
完整模型的多级融合实现了细节和整体对比度的平衡，验证了 MAM 的设计合理性。
自适应权重通过 AG 和 EN 捕获图像特性，动态平衡 SSIM 和 MSE，适应不同场景。
固定权重的局限性在于无法处理图像多样性，导致细节或对比度损失。
局限性：自适应权重计算增加开销，可能影响实时性。
目标和细节约束共同作用，确保红外前景和可见光背景的互补融合。
随机样本的失败证明了正负样本选择的至关重要性，需与源图像对应。
局限性：对比学习依赖掩码，可能在复杂场景中引入区域边界伪影。
CoCoNet 对掩码生成方式不敏感，表明其对比学习框架鲁棒。
可能原因：对比学习的正负样本设计更依赖特征空间的区分，而非掩码的具体形式。
局限性：掩码生成仍需人工或算法干预，自动化掩码生成可进一步提高效率。

CoCoNet 的优势：
- 通过自适应学习和对比约束，CoCoNet 在 TNO 和 RoadScene 数据集上实现了高对比度、清晰细节和模态互补性，在六项指标上领先。
- MAM 和 VGG 特征整合多级信息，增强了纹理和目标显著性。
- 两阶段训练和动态权重提高了模型的适应性和鲁棒性。
局限性：
- 对比学习的区域划分可能导致前景/背景边界不连续，需优化平滑融合。
- VGG 骨干和掩码生成增加计算复杂度和人工干预。
- 医学成像训练周期较短，可能未充分挖掘 PET/SPECT 的潜力。

六.结论

本文提出了一种新颖的对比学习网络，集成了多级特征，用于融合红外与可见光图像。我们开发了双重对比约束，以保留典型特征并避免融合过程中的冗余特征。因此，双重对比约束能够以柔和的方式实现更好的视觉效果，即显著的热目标和丰富的真实细节。我们还在网络中设计了多级注意力机制，以学习丰富的层次特征表示并实现更好的特征传递。此外，我们设计了自适应权重，以克服损失函数中人工设计权衡权重的局限性。定性和定量结果表明，所提方法实现了最先进的性能，并具有高效率。此外，消融实验验证了我们方法的有效性。さらに，我们将 CoCoNet 扩展到医学图像融合中，与其他最先进方法相比，也能实现优越的性能。

(1) 双重对比约束（Twin Contrastive Constraints）

(2) 多级注意力机制（Multi-level Attention, MAM）

(3) 自适应权重（Self-adaptation Weight）