多模态论文学习(七)：DenseFuse: A Fusion Approach to Infrared and Visible Images

aminghhhh

已于 2025-04-01 20:28:04 修改

阅读量1.1k

点赞数 28

文章标签：学习人工智能深度学习 python 算法计算机视觉图像处理

于 2025-04-01 20:19:55 首次发布

本文链接：https://blog.csdn.net/aminghhhh/article/details/146901349

版权

论文链接：IEEE Xplore Full-Text PDF:

一.摘要

1.1 摘要翻译

在本文中，我们提出了一种新颖的深度学习架构，用于红外与可见光图像融合问题。与传统的卷积网络不同，我们的编码网络由卷积层、融合层和密集块组合而成，其中每一层的输出都与所有其他层相连。我们尝试使用这种架构在编码过程中从源图像中提取更多有用的特征。同时，我们设计了两个融合层（融合策略）来融合这些特征。最后，通过解码器重建融合图像。与现有的融合方法相比，所提出的融合方法在客观和主观评估中实现了最先进的性能。

1.2 摘要解析

研究背景与问题定义
红外图像和可见光图像融合是一个重要的计算机视觉任务，广泛应用于夜视、安防监控、目标检测等领域。红外图像能捕捉热辐射信息，适合低光照或遮挡场景，但细节较少；可见光图像则提供丰富的纹理和色彩信息，但受限于光照条件。融合的目标是将两者的互补信息整合，生成一幅既有细节又有目标显著性的图像。

提出的方法：新型深度学习架构

作者提出了一种不同于传统卷积神经网络（CNN）的编码网络结构，具体包括：

1. 卷积层：用于提取图像的低级特征（如边缘、纹理）。

2. 密集块（Dense Block）：这是从DenseNet（密集连接网络）中借鉴的概念。密集块的特点是每一层的输出都直接连接到后续所有层，形成“密集连接”。这种设计的好处在于：

增强特征复用，避免信息丢失。
缓解梯度消失问题，便于训练较深的网络。
从源图像（红外和可见光）中提取更丰富、多层次的特征。

3.融合层：在编码阶段加入融合层，可能是为了在特征提取过程中提前整合红外和可见光的特征，而不是等到最后才融合。

融合策略
文中提到设计了“两个融合层（融合策略）”，这表明作者尝试了多种特征融合方式
解码器
融合后的特征通过解码器重建为最终的融合图像。
技术优势

特征提取能力提升：密集块的使用使得网络能从红外和可见光图像中捕获更多有用信息（如红外的热目标和可见光的细节），这比传统CNN更高效。
融合灵活性：两个融合层的设置可能允许网络在不同阶段或不同特征尺度上进行融合，增强了鲁棒性。
端到端训练：从编码到解码的完整架构表明这是一个端到端的深度学习模型，避免了传统方法中手动设计融合规则的复杂性。

性能评估

客观评估：可能包括定量指标，这些指标衡量融合图像的信息保留和质量。
主观评估：通过人类观察者评估融合图像的视觉效果（如清晰度、目标显著性）。
最先进性能（State-of-the-Art）：表明该方法在实验中超越了现有方法

二. Introduction

2.1 Introduction翻译

红外与可见光图像融合任务是图像处理领域中的一个重要问题。它试图从源图像中提取显著特征，然后通过适当的融合方法将这些特征整合成一幅图像[1]。几十年来，这些融合方法取得了卓越的融合性能，并被广泛应用于许多领域，如视频监控和军事应用。众所周知，许多信号处理方法已被应用于图像融合任务以提取图像的显著特征，例如基于多尺度分解的方法[2]–[7]。首先，通过图像分解方法提取显著特征。然后，利用适当的融合策略获得最终的融合图像。近年来，基于表示学习的方法也引起了广泛关注。在稀疏域中，提出了许多融合方法，如稀疏表示（SR）和基于方向梯度直方图（HOG）的融合方法[8]、联合稀疏表示（JSR）[9]和协同稀疏表示[10]。在低秩域中，李等人[11]提出了一种基于低秩表示（LRR）的融合方法。他们使用LRR代替SR来提取特征，然后使用l1范数和最大选择策略重建融合图像。

随着深度学习的兴起，提出了许多基于深度学习的融合方法。卷积神经网络（CNN）被用来获取图像特征并重建融合图像[12]、[13]。在这些基于CNN的融合方法中，仅使用最后一层的输出作为图像特征，这种操作会丢失中间层获得的许多有用信息。我们认为这些信息对融合方法很重要。为了解决这个问题，在我们的论文中，我们提出了一种新颖的深度学习架构，该架构由编码网络和解码网络构成。我们使用编码网络提取图像特征，并通过解码网络获得融合图像。编码网络由卷积层和密集块[14]构成，其中每一层的输出都用作下一层的输入。因此，在我们的深度学习架构中，编码网络中每一层的结果都被用来构建特征图。最后，通过融合策略和包含四个CNN层的解码网络重建融合图像。本文的结构如下。第II节简要回顾相关工作。第III节详细介绍所提出的融合方法。第IV节展示实验结果。第V节提出本文的结论与讨论。

2.2 Introduction解析

这篇论文的引言部分概述了红外与可见光图像融合的研究背景、传统方法、表示学习方法以及深度学习方法的演进，并提出了作者的新方法。

1. 研究背景与意义

问题重要性：红外与可见光图像融合旨在整合两种模态的互补信息（红外的热信息与可见光的细节信息），是图像处理领域的经典任务。它在视频监控、军事侦察、目标检测等应用中具有关键作用。
挑战：如何有效提取显著特征并设计合理的融合策略一直是研究的难点。传统方法依赖信号处理技术，而新兴的深度学习方法则试图通过数据驱动的方式提升性能。

2. 传统方法：信号处理与多尺度分解

多尺度分解：文献[2]–[7]提到的方法（如小波变换、金字塔分解）通过将图像分解为不同尺度的子带，分别提取低频（整体结构）和高频（细节）特征，再通过融合规则（如加权平均、最大值选择）整合。
优点：计算复杂度相对较低，易于实现。
局限性：分解和融合规则多为手动设计，缺乏自适应性，可能无法充分利用图像的深层语义信息。

3. 表示学习方法

稀疏域方法：
- 稀疏表示（SR）：通过字典学习将图像分解为稀疏系数，融合时选择显著系数（如文献[8]）。
- HOG融合：基于方向梯度直方图提取特征，强调边缘信息。
- 联合稀疏表示（JSR）与协同稀疏表示：考虑多模态图像间的相关性，增强特征一致性（文献[9]、[10]）。
低秩域方法：
- 低秩表示（LRR）：文献[11]用LRR替代SR，提取全局结构信息，再用l1范数和最大选择策略重建图像。低秩方法擅长捕捉图像的低维结构，但细节保留可能不足。
优点：相比传统信号处理，稀疏与低秩方法引入了更强的数学建模能力。
局限性：依赖预定义的字典或假设，对复杂场景的适应性有限。

4. 深度学习方法的兴起

CNN-based方法：文献[12]、[13]使用卷积神经网络提取特征并重建图像。CNN通过多层卷积自动学习特征，摆脱了手动设计的束缚。
问题：传统CNN融合方法仅利用最后一层特征，忽略了中间层的丰富信息（如纹理、边缘等），导致信息丢失。

5. 作者提出的方法

核心创新：
- 编码-解码架构：采用编码网络提取特征，解码网络重建图像
- 密集块（Dense Block）：借鉴DenseNet思想，每一层输出都连接到后续层。这种设计：
  - 保留中间层信息，避免传统CNN的信息丢失。
  - 增强特征复用，提升特征提取能力。
- 融合策略与解码：编码网络生成特征图后，通过融合策略整合特征，最终由四层CNN解码器重建图像。
改进点：相比传统CNN仅用最后一层，作者充分利用每一层特征，理论上能生成更高质量的融合图像。

3.1 related work翻译

在过去两年中，提出了许多融合算法，尤其是基于深度学习的算法。与基于多尺度分解的方法和基于表示学习的方法不同，基于深度学习的算法使用大量图像来训练网络，并利用这些网络提取显著特征。2016年，刘宇等人[12]提出了一种基于卷积稀疏表示（CSR）的融合方法。CSR与基于CNN的方法不同，但该算法仍属于基于深度学习的算法，因为它也提取深层特征。在该方法中，作者使用源图像学习具有不同尺度的多个字典，并利用CSR提取多层特征，然后通过这些特征生成融合图像。2017年，刘宇等人[13]还提出了一种基于CNN的融合方法，用于多焦点图像融合任务。他们使用包含输入图像不同模糊版本的图像块来训练网络，并利用该网络生成决策图。然后，通过决策图和源图像获得融合图像。然而，这种方法仅适用于多焦点图像融合。在2017年的ICCV会议上，Prabhakar等人[15]提出了一种基于CNN的方法来解决曝光融合问题。他们提出了一个简单的CNN架构，其中编码网络包含两层CNN，解码网络包含三层CNN。编码网络采用孪生网络架构，权重共享。两个输入图像通过该网络编码，得到两个特征图序列，然后通过加法策略进行融合。最终的融合图像通过称为解码网络的三层CNN重建。虽然该方法取得了较好的性能，但仍存在两个主要缺点：1）网络架构过于简单，可能无法正确提取显著特征；2）这些方法仅使用编码网络最后一层计算的结果，中间层获得的有用信息会丢失，当网络更深时，这一现象会加剧。为了克服这些缺点，我们提出了一种基于CNN层和密集块的新颖深度学习架构。在我们的网络中，我们使用红外和可见光图像对作为输入。在密集块中，编码网络中每一层获得的特征图被级联作为下一层的输入。在传统的基于CNN的网络中，随着网络深度的增加，暴露出了退化问题[15]，中间层提取的信息未被充分利用。为了解决退化问题，何凯明等人[16]引入了深度残差学习框架。为了进一步改善层间的信息流动，黄高等人[14]提出了一种带有密集块的新颖架构，其中任意层与所有后续层之间都有直接连接。

密集块架构有三个优点：1）该架构能尽可能保留信息；2）该模型能改善网络中信息和梯度的流动，使网络更易于训练；3）密集连接具有正则化效应，能减少任务中的过拟合。基于这些观察，我们在编码网络中引入了密集块，这就是我们提出的方法命名为“Densefuse”的由来。通过这一操作，我们的网络能保留更多中间层的有用信息，并且易于训练。我们将在第III节详细介绍我们的融合算法。

3.2 related work解析

1.相关工作回顾

卷积稀疏表示（CSR）：
刘宇等人[12]在2016年提出了一种基于CSR的融合方法，通过学习多尺度字典提取深层特征。尽管不同于传统CNN，但仍属深度学习范畴。

优点：结合稀疏表示的数学建模与深度特征提取。
局限：依赖字典学习，计算复杂且不够灵活。

CNN-based多焦点融合：
刘宇等人[13]在2017年提出了一种CNN方法，利用模糊图像块训练网络生成决策图，再融合图像。

局限：仅适用于多焦点图像融合，缺乏通用性。

曝光融合（ICCV 2017）：
Prabhakar等人[15]提出了一种简单CNN架构，采用孪生网络编码两个输入图像，加法融合特征，再用解码器重建。

优点：结构简单，性能优于传统方法。
缺点：网络过于浅显，可能无法充分提取复杂特征。仅利用最后一层特征，丢失中间层信息，尤其在深层网络中问题更严重。

2.现有方法的普遍问题

信息丢失：传统CNN仅使用编码网络的最后一层输出，忽略中间层提取的丰富信息（如边缘、纹理等），这在深层网络中导致“退化问题”（性能随深度增加反而下降）。
退化问题：何凯明等人[16]通过残差学习（ResNet）解决梯度消失和退化问题。黄高等人[14]提出密集块（DenseNet），通过层间密集连接进一步优化信息流动。

3. 提出的Densefuse方法

核心创新：

密集块（Dense Block）：在编码网络中引入密集连接，每一层输出都级联（concatenate）到后续层，确保中间层信息不丢失。
输入：红外与可见光图像对。
架构：编码网络（CNN+密集块）提取特征，解码网络重建融合图像。

与传统CNN的区别：

传统CNN逐层传递信息，中间层特征未被充分利用。
Densefuse通过密集连接保留所有层特征，增强特征复用。
命名由来：Densefuse结合“Dense”（密集连接）和“Fuse”（融合），反映其技术特点。

4. 密集块的三大优势

信息保留：密集连接确保每一层特征都能传递到后续层，避免信息丢失。
训练效率：改善梯度和信息流动，使深层网络更容易优化。
正则化效应：密集连接增加网络鲁棒性，减少过拟合。这些特性直接解决传统CNN融合方法中信息丢失和训练困难的问题。

四. 方法

4.1 方法翻译

在本节中，我们详细介绍所提出的基于深度学习的融合方法。在过去五年中，卷积神经网络（CNN）在图像处理领域取得了巨大成功，它也是我们网络的基础。在我们的融合框架中，彩色图像（RGB）的融合策略与灰度图像相同，因此在本文中，我们仅考虑灰度图像融合任务。彩色图像的融合结果将在第IV-D节展示。

输入的红外和可见光图像（灰度图像）表示为 $I_1, \cdots, I_k$ ，且 $k \geq 2$ 。注意，输入图像已预先配准。索引 $(1, \cdots, k)$ 与输入图像的类型无关，这意味着 $I_i (i = 1, \cdots, k)$ 可以是红外图像或可见光图像。我们假设输入图像已使用现有算法[29][30][31]进行配准，在本文中，如果输入图像未配准，我们使用[29]中的方法对其进行预处理。我们的网络架构分为三部分：编码器、融合层和解码器。所提议网络的架构如图1所示。

如图1所示，编码器包含两部分（C1和密集块），用于提取深层特征。第一层（C1）包含 $3 \times 3$ 滤波器，用于提取粗略特征；密集块（DenseBlock）包含三层卷积层（每层的输出级联作为下一层的输入），同样使用 $3 \times 3$ 滤波器。在我们的网络中，采用反射模式填充输入图像。编码网络中每个卷积层的输入通道数为16。编码器的架构有两个优点。首先，卷积操作的滤波器大小和步幅分别为 $3 \times 3$ 和1，采用这种策略，输入图像可以是任意大小。其次，密集块架构能在编码网络中尽可能保留深层特征，确保所有显著特征在融合策略中得到利用。我们在融合层中选择不同的融合策略，这些将在第III-B节介绍。解码器包含四层卷积层（ $3 \times 3$ 滤波器）。融合层的输出将作为解码器的输入。我们使用这种简单有效的架构重建最终的融合图像。

A. 训练

在训练阶段，我们仅考虑编码器和解码器网络（融合层被丢弃），试图训练编码器和解码器网络以重建输入图像。在编码器和解码器权重固定后，我们使用自适应融合策略融合由编码器获得的深层特征。

训练阶段的详细框架如图2所示，网络架构在表I中概述。这种训练策略的明显优势在于，我们可以为特定融合任务设计合适的融合层。此外，它为融合层的进一步开发留下了更多空间。在图2和表I中，C1是编码网络中的卷积层，包含 $3 \times 3$ 滤波器。DC1、DC2和DC3是密集块中的卷积层，每层的输出通过级联操作连接到其他层。解码器由C2、C3、C4和C5组成，用于重建输入图像。

为了更精确地重建输入图像，我们最小化损失函数 L 来训练编码器和解码器， $L = \lambda L_{ssim} + L_p$ （公式1）

这是像素损失 $L_p$ 和结构相似性（SSIM）损失 $L_{ssim}$ 的加权组合，权重为 $\lambda$ 。像素损失 $L_p$ 计算为

$L_p = ||O - I||_2$ （公式2），

其中 O 和 I 分别表示输出和输入图像，是输出 O 和输入 I 之间的欧几里得距离。SSIM损失 $L_{ssim}$ 通过公式3获得，

$L_{ssim} = 1 - SSIM(O, I)$ （公式3），

其中 $SSIM(\cdot)$ 表示结构相似性操作[17]，表示两图像的结构相似性。由于像素损失和SSIM损失之间存在三个数量级的差异，在训练阶段， $\lambda$ 分别设置为1、10、100和1000。训练阶段的目标是训练一个具有更好特征提取和重建能力的自编码器网络（编码器、解码器）。由于红外和可见光图像的训练数据不足，我们使用MS-COCO[18]的灰度图像训练模型。

在训练阶段，我们使用可见光图像训练编码器和解码器的权重。我们使用MS-COCO[18]作为输入图像进行训练，该数据集包含80000张图像，全部调整为 $256 \times 256$ 并转换为灰度图像。学习率设置为 $1 \times 10^{-4}$ 。批量大小和训练轮数分别为2和4。我们的方法在NVIDIA GTX 1080Ti GPU上实现，Tensorflow作为网络架构的后端。训练阶段的分析将在第IV-A节介绍。

B. 融合层（策略）

加法策略：加法融合策略类似于[15]中的融合策略，其过程如图3所示。如图1所示，一旦编码器和解码器网络固定，在测试阶段，分别将两个输入图像输入编码器。我们选择两种融合策略（加法策略和 $l_1$ -范数策略）来组合由编码器获得的显著特征图。在我们的网络中， $m \in \{1, 2, \cdots, M\}$ ， $M = 64$ 表示特征图的数量， $k \geq 2$ 表示从输入图像获得的特征图索引。其中 $\phi_i^m (i = 1, \cdots, k)$ 表示编码器从输入图像获得的特征图， $f_m$ 表示融合特征图。加法策略由公式4表示：

$f^m(x, y) = \sum_{i=1}^k \phi_i^m(x, y)$ （公式4），

其中 (x, y) 表示特征图和融合特征图中的对应位置。然后， $f_m$ 将作为解码器的输入，最终融合图像由解码器重建。

l1-范数策略：加法策略的性能已在[15]中得到验证。但这种操作对于显著特征选择来说是一种非常粗糙的融合策略。我们将基于 $l_1$ -范数和软最大值（soft-max）操作的新策略应用于网络中，其过程如图4所示。在图4中，特征图由 $\phi_i^m$ 表示，活动水平图 $\hat{C_i}$ 将通过 $l_1$ -范数和基于块的平均操作计算， $f_m$ 仍表示融合特征图。受[12]启发， $\phi_i^{{1:M}}(x, y)$ 的 $l_1$ -范数可以作为特征图的活动水平度量。因此，初始活动水平图 $C_i$ 由公式5计算：
$C_i(x, y) = ||\phi_i^{{1:M}}(x, y)||_1$ （公式5）

然后，使用基于块的平均操作通过公式6计算最终活动水平图 $\hat{C_i}$ ， $\hat{C_i}(x, y) = \sum_{a=-r}^r \sum_{b=-r}^r C_i(x + a, y + b) / (2r + 1)^2$ （公式6）

其中 r 确定块大小，在我们的策略中 r = 1。在获得最终活动水平图 $\hat{C_i}$ 后， $f_m$ 通过公式7计算：

$f_m(x, y) = \sum_{i=1}^k w_i(x, y) \times \phi_i^{m}(x, y)$ （公式7）

$w_i(x, y) = \hat{C_i}(x, y) / \sum_{n=1}^k \hat{C_n}(x, y)$

最终融合图像将由解码器重建，融合特征图 $f_m$ 作为输入。

4.2 方法解析

1. 方法概述

任务：红外与可见光灰度图像融合，输入图像为预配准的 $I_1\cdots, I_k (k \geq 2)$ 。彩色图像融合虽未详述，但策略一致。
架构：编码器（C1+密集块）提取特征，融合层整合特征，解码器重建图像。
创新点：密集块保留中间层特征，自适应融合策略提升灵活性。

2. 网络架构（图1）

编码器：
- C1：3×3 卷积层，提取粗略特征，输入通道数16。
- 密集块（DenseBlock）：三层 3×3卷积，每层输出级联到后续层，保留深层特征。
- 填充：反射模式，保持边缘信息。
- 优势：
  1. 3×3滤波器和步幅1，适应任意尺寸输入。
  2. 密集块最大化特征保留。
融合层：支持多种策略（加法和 $l_1$ -范数），详见第III-B节。
解码器：四层 3×3卷积，重建融合图像。

3. 训练策略（A部分）

训练目标：训练自编码器（编码器+解码器）重建输入图像，融合层在测试时加入。
损失函数：
- ：
  - $L_p = ||O - I||_2$ ：像素级欧氏距离，确保像素相似性。
  - $L_{ssim} = 1 - SSIM(O, I)$ ：结构相似性损失，强调纹理和结构。
- λ：平衡两损失，设为1、10、100、1000，弥补数量级差异。
数据：因红外数据不足，使用MS-COCO灰度图像（80000张，256×256）。
超参数：学习率 $1 \times 10^{-4}$ ，批量大小2，训练4轮。
实现：NVIDIA GTX 1080Ti，Tensorflow后端。
优势：
- 分离训练与融合，增强融合层设计的灵活性。
- 使用大规模通用数据集弥补特定数据不足。

4. 融合策略（B部分）

加法策略：
- 公式： $f_m(x, y) = \sum_{i=1}^k \phi_{m_i}(x, y)$ 。
- 过程：编码器生成特征图 $\phi_{m_i}$ ，直接相加得到 $f_m$ ，解码器重建图像。
- 优点：简单高效，参考[15]验证有效。
- 缺点：粗糙，可能忽略特征显著性差异。
$l_1$ -范数策略：
- 过程：
  1. 计算初始活动水平图： $C_i(x, y) = ||\phi_{1:M_i}(x, y)||_1$ 。
  2. 块平均平滑： $\hat{C_i}(x, y) = \sum_{a=-r}^r \sum_{b=-r}^r C_i(x + a, y + b) / (2r + 1)^2$ ，r = 1。
  3. 加权融合：f $f_m(x, y) = \sum_{i=1}^k w_i(x, y) \times \phi_{m_i}(x, y)$ ，权重 $w_i = \hat{C_i} / \sum \hat{C_n}$
- 优点：基于 $l_1$ -范数衡量特征显著性，结合软最大值加权，保留更多细节。
- 启发：借鉴[12]的稀疏表示思想，改进加法策略。

5. 技术优势

密集块：保留中间层特征，弥补传统CNN信息丢失。
自适应融合：支持任务特定的融合策略（加法或 $l_1$ -范数）。
灵活性：训练与融合分离，便于扩展。

6. 潜在挑战与改进方向（重要）

计算复杂度：密集块和多层卷积增加计算量，需优化实时性。
模态差异：红外与可见光特征差异大，融合策略可能需进一步调整（如注意力机制）。
数据集局限：仅用可见光图像训练，可能未充分利用红外特性，未来可引入多模态数据。

由于论文中是只在可见光图像做训练，所以肯定在特征融合过程会出现困扰，关于能否直接使用可见光的权重去训练红外。下面是我的分析：

可以直接使用的理由

论文的假设：
- 作者可能假设红外和可见光图像在低级特征（如边缘、形状）上有一定共性，训练于可见光的编码器仍能提取红外图像的部分有用特征。
- 密集块设计通过级联保留多层特征，可能缓解偏差，使红外特征图仍包含一定有效信息。
融合策略的补偿：
- l1-范数策略基于特征图的活动水平（activity level）动态加权，能在一定程度上突出红外图像的显著区域（如高温区域的 l1-范数较高），从而弥补编码器的偏差。
- 加法策略虽简单，但也能保留部分红外信息。
实验验证：
- 文中提到实验结果将在第IV节展示，如果融合效果良好（例如在客观指标如 SSIM、PSNR 或主观评估上表现优异），说明偏差可能不显著，特征图可以直接使用。

可能无法直接使用的理由

信息失真：如果编码器对红外图像的特征提取严重偏离其真实特性（例如热信息被忽略），融合图像可能无法反映红外的关键信息，违背融合目标。
模态适配性不足：单模态训练难以泛化到多模态场景，尤其当红外和可见光的分布差异较大时。
潜在风险：未见过红外数据的编码器可能将红外特征“过拟合”为可见光模式，导致融合结果偏向可见光，失去红外的互补性。

五.实验

5.1实验翻译

首先，我们分析训练阶段的实验。损失和验证的图表分别展示在图5和图6中。测试实验的目的是使用主观和客观标准验证所提出的融合方法，并与现有方法进行比较。然后，红外和可见光（RGB）图像的额外融合结果展示在第IV-D节。

A. 训练阶段分析

在训练阶段，我们使用MS-COCO [18]作为输入图像。在这些源图像中，约79000张图像用作输入图像，1000张图像用于在每次迭代中验证重建能力。如图5所示，我们的网络在前2000次迭代中随着SSIM损失权重 $\lambda$ 的数值增加而快速收敛。如第III-A节讨论的，像素损失和SSIM损失的数量级不同。当 $\lambda$ 增加时，SSIM损失在训练阶段起更重要的作用。在验证步骤中，我们从MS-COCO中选择1000张图像作为训练网络的输入。像素损失和SSIM用于评估重建能力。从图6来看，验证图表表明随着 $\lambda$ 的增加，SSIM损失起重要作用。当迭代次数增加到500次时，像素损失和SSIM在 $\lambda$ 设置为较大值时获得更好的结果。然而，当迭代次数超过40000次时，无论选择哪种损失权重，我们都能获得最佳权重。总体而言，我们的网络在早期训练阶段随着 $\lambda$ 的增加会更快收敛。较大的 $\lambda$ 将减少训练阶段的时间消耗。

B. 实验设置

在我们的实验中，输入图像数量(k)为2，源红外和可见光图像从[19]和[20]收集。实验中共有20对源图像，红外和可见光图像可在[21]获取。

这些图像的一个样本展示在图7中。我们将所提出的方法与几种典型融合方法进行比较，包括交叉双边滤波融合方法(CBF) [22]、联合稀疏表示模型(JSR) [9]、梯度传递和总变分最小化(GTF) [23]、带显著性检测的JSR模型(JSRSD) [24]、基于深度卷积神经网络的方法(CNN) [13]和DeepFuse方法(DeepFuse) [15]。在我们的实验中，DeepFuse方法的滤波器大小设置为3×3。为了定量比较我们的融合方法与其他现有算法，使用了七个质量指标。它们分别是：熵(En)； $Q_{abf}$ [25]；差异相关和(SCD) [26]； $FMI_w$ 和 $MI_{dct}$ [27]，分别计算小波和离散余弦特征的互信息；无参考图像的修改结构相似性(SSIMa)；以及新的无参考图像融合性能度量(MS SSIM) [28]。在我们的实验中，SSIMa通过公式8计算：

$SSIM_a(F) = \frac{SSIM(F, I_1) + SSIM(F, I_2)}{2}$ （8）

其中SSIM(⋅)表示结构相似性操作[17]，F是融合图像， $I_1$ 、 $I_2$ 是源图像。 $SSIM_a$ 的值表示保留结构信息的能力。所有这七个指标的数值增加表明融合性能提高。

C. 融合方法评估

通过六种现有方法和所提出的方法获得的融合图像使用不同的参数，展示在图8和图9中。

由于篇幅限制，我们在两对图像（“car”和“street”）上评估融合方法的相对性能。由CBF、JSR和JSRSD获得的融合图像具有更多人工噪声，显著特征不清晰，例如图8中的天空（橙色和虚线）和地面（红色和实线）以及图9中的广告牌（红色框）。另一方面，无论选择何种参数，由所提出的方法获得的融合图像在红色框中噪声较少。与GTF、CNN和DeepFuse相比，我们的融合方法在红色框中保留了更多细节信息，如图8所示。在图9中，当使用基于CNN的方法融合图像时，融合图像比其他图像更暗。这种现象的原因可能是基于CNN的方法不适合红外和可见光图像。相反，我们的方法获得的融合图像看起来更自然。然而，由于DeepFuse和所提出的方法在人类视觉敏感性上几乎没有差异，我们接下来选择几个客观指标来评估融合性能。20张融合图像的七个指标的平均值，由现有方法和所提出的融合方法获得，展示在表II中。

质量指标的最佳值以粗体表示，次佳值以蓝色斜体表示。正如我们所见，采用加法和l1-范数策略的所提出的方法在五个指标上获得最佳平均值(En、 $Q_{abf}$ 、SCD、 $FMI_{dct}$ 、 $SSIM_a$ )，两个指标上获得次佳值( $FMI_w$ 、 $MS_{-}SSSIM$ )。我们的方法在 $FMI_{dct}$ 、 $SSIM_a$ 上具有最佳值，这表明我们的方法保留了更多结构信息和特征。由所提出的方法获得的融合图像更自然，人工噪声更少，这是因为En、 $Q_{abf}$ 和 $SCD$ 的最佳值。在我们的网络中使用不同的融合策略（加法和 $l_1$ -范数），我们的算法在七个质量指标中仍具有最佳或次佳值。这意味着我们的网络是红外和可见光图像融合任务的有效架构。

D. RGB图像和红外图像的额外结果

除了灰度图像融合任务外，我们的融合算法可用于融合包含RGB通道的可见光图像和红外图像。输入图像从[32]收集。如图10所示，我们使用固定的网络（编码器、融合层、解码器）融合这些图像。

当处理RGB图像时，RGB中的每个通道被视为一个灰度图像。因此，一对RGB图像有三对通道，每对通道将成为我们网络的输入图像。然后，我们的网络获得三个融合通道，我们将这些融合通道组合成一个融合的RGB图像。RGB图像和红外图像的融合结果展示在图11中。其他图像和多焦点图像的融合结果可在我们的补充材料中获取。

5.2实验解析

1. 训练阶段分析 (A部分)

实验设计：
- 使用MS-COCO数据集（79000张训练图像，1000张验证图像）训练自编码器（编码器+解码器），目标是重建输入图像。
- 损失函数为：
  - $L_p = ||O - I||_2$ ：像素损失。
  - $L_{ssim} = 1 - SSIM(O, I)$ ：结构相似性损失。
  - λ：权重，测试值为1、10、100、1000。
收敛性分析：
- 图5显示，前2000次迭代中，λ越大，网络收敛越快。这是因为SSIM损失（结构信息）在训练中逐渐主导，而像素损失（数量级较大）的影响被平衡。
- 图6验证结果表明，迭代至500次时，较大λ下像素损失和SSIM值更优；迭代超40000次后，权重趋于最优，与λ选择无关。
专家解析：
- λ的作用：SSIM损失关注图像结构（如边缘、纹理），像素损失关注像素级差异。λ调节两者平衡，较大λ强调结构信息，加速收敛并减少训练时间。
- 训练策略：仅用可见光图像训练可能导致红外特征适配性不足，但密集块和SSIM损失可能增强通用特征提取能力。
- 局限性：未提及红外数据的验证，模态偏差可能影响后续融合。

2. 实验设置 (B部分)

数据与参数：
- 输入图像对数k=2，20对红外和可见光图像从[19][20]收集。
- 对比方法：CBF、JSR、GTF、JSRSD、CNN、DeepFuse。
- 七个质量指标：
  1. En：熵，衡量信息量。
  2. $Q_{abf}$ ：边缘保留度。
  3. SCD：差异相关和。
  4. $FMI_w$ ：小波互信息。
  5. $FMI_{dct}$ ：离散余弦互信息。
  6. $SSIM_a$ ： $SSIM_a(F) = \frac{SSIM(F, I_1) + SSIM(F, I_2)}{2}$ 衡量结构相似性。
  7. MS_SSIM：多尺度SSIM。
专家解析：
- 指标选择：涵盖信息量、边缘保留、特征保留和结构相似性，全面评估融合质量。
- 数据规模：20对图像较小，需验证结果的统计显著性。
- DeepFuse设置：滤波器3×3与文中一致，确保公平对比。

3. 融合方法评估 (C部分)

主观评估：
- 图8和图9对比“car”和“street”两对图像：
  - CBF、JSR、JSRSD：噪声多，显著特征（如天空、地面）不清晰。
  - CNN：融合图像偏暗，可能不适配红外与可见光。
  - GTF、DeepFuse：细节保留较好，但不如提议方法。
  - 提议方法：噪声少，细节丰富，自然度高。
客观评估：
- 表II显示20对图像的平均指标：
  - 提议方法（加法和l1范数策略）在En、 $Q_{abf}$ 、SCD、 $FMI_{dct}$ 、 $SSIM_a$ 上最佳， $FMI_w$ 、MS_SSIM次佳。
  - 表明保留了更多结构信息（ $SSIM_a$ 、 $FMI_{dct}$ ）和自然度（En、 $Q_{abf}$ 、SCD）。
解析：
- 优势：密集块保留中间层特征，l1-范数策略动态加权，优于简单加法的DeepFuse和不适配的CNN。
- 鲁棒性：两种融合策略均表现优异，证明网络架构的有效性。
- 局限性：主观差异细微（与DeepFuse接近），客观指标需更多样本验证。

4. RGB与红外图像融合 (D部分)

方法：
- RGB图像按通道拆分为3对灰度图像，与红外图像逐对融合，再组合为RGB融合图像。
结果：
- 图11展示RGB与红外融合结果，自然且细节丰富。
专家解析：
- 扩展性：将灰度融合扩展到RGB展示了方法的通用性。
- 实现细节：逐通道处理简单高效，但未提及颜色一致性优化，可能需额外后处理。

六.结论

在本文中，我们提出了一种基于卷积神经网络（CNN）和密集块（dense block）的新颖且有效的深度学习架构，用于红外与可见光图像融合问题。该算法不仅可用于融合灰度图像，还可应用于融合RGB图像。我们的网络包括三个部分：编码器、融合层和解码器。首先，源图像（红外和可见光图像）被用作编码器的输入。通过CNN层和密集块获得特征图，这些特征图通过融合策略（加法和l1-范数）进行融合。在融合层之后，特征图被整合成一个包含源图像所有显著特征的特征图。最后，融合图像由解码器网络重建。我们使用主观和客观质量指标来评估我们的融合方法。实验结果表明，所提出的方法展示了最先进的融合性能。初步实验显示，我们的网络架构通过适当的融合层可应用于其他图像融合问题，如多焦点图像融合、多曝光图像融合和医学图像融合。