多模态融合学习[十二]——经典热点：FusionGAN: A generative adversarial network for infrared and visible image fusion

最新推荐文章于 2025-05-07 15:27:22 发布

aminghhhh

最新推荐文章于 2025-05-07 15:27:22 发布

阅读量611

点赞数 24

文章标签：学习人工智能 python 多模态深度学习图像处理计算机视觉

本文链接：https://blog.csdn.net/aminghhhh/article/details/147670494

版权

1.摘要

红外图像可以根据热辐射差异将目标与其背景区分开来，这种方法在全天候（白天/夜晚）和各种天气条件下均表现良好。相比之下，可见光图像能够提供高空间分辨率和高清晰度的纹理细节，符合人类视觉系统的感知方式。本文提出了一种新颖的方法，利用生成对抗网络（GAN）融合这两种信息，称为FusionGAN。我们的方法在生成器和判别器之间建立了一个对抗博弈：生成器旨在生成一幅融合图像，包含主要的红外强度信息以及额外的可见光梯度信息；判别器则试图迫使融合图像包含更多可见光图像中的细节。这使得最终的融合图像能够同时保留红外图像中的热辐射信息和可见光图像中的纹理信息。此外，我们的FusionGAN是一个端到端的模型，避免了传统方法中手动设计复杂的活动水平测量和融合规则。在公开数据集上的实验证明了我们的策略优于现有最先进方法，我们的结果看起来像是锐化的红外图像，具有清晰的高亮目标和丰富的细节。此外，我们还将FusionGAN推广到融合不同分辨率的图像，例如低分辨率红外图像和高分辨率可见光图像。广泛的结果表明，我们的策略能够生成清晰且干净的融合图像，不会因红外信息上采样而引入噪声。

论文提出的FusionGAN通过生成对抗网络实现了红外-可见光图像的端到端融合，克服了传统方法依赖手工设计、复杂性和信息丢失的局限性。其核心创新在于：

通过生成器和判别器的对抗博弈，自动学习融合过程，生成同时保留红外热信息和可见光纹理细节的图像。
端到端设计简化了融合流程，提高了模型的灵活性和效率。
跨分辨率融合解决了低分辨率红外图像的噪声问题，扩展了模型的适用场景。

2.Introduction

图像融合是一种增强技术，旨在结合不同传感器获取的图像，生成一幅鲁棒或信息丰富的图像，以促进后续处理或辅助决策[1,2]。特别是，多传感器数据（如热红外和可见光图像）已被用于提升人类视觉感知、目标检测和目标识别的性能[3]。例如，红外图像捕获热辐射，而可见光图像捕获反射光。这两种图像能够从不同方面提供具有互补属性的场景信息，并且几乎所有物体都具有这些特性[4]。图像融合问题已通过多种方案发展，包括多尺度变换[5-7]、稀疏表示[8,9]、神经网络[10,11]、子空间[12,13]、基于显著性[14,15]的方法、混合模型[16,17]以及其他方法[18,19]。尽管如此，主要的融合框架涉及三个关键组成部分：图像变换、活动水平测量和融合规则设计[20]。现有方法通常在融合过程中对不同源图像使用相同的变换或表示。然而，这对于红外和可见光图像可能并不合适，因为红外图像中的热辐射和可见光图像中90的外观是两种不同现象的表现。此外，大多数现有方法中的活动水平测量和融合规则是以手动方式设计的，越来越复杂，具有实现难度大和计算成本高的局限性[21]。

为克服上述问题，本文从一个新颖的视角提出了一种基于生成对抗网络（FusionGAN）的红外和可见光图像融合方法，将融合问题表述为保留红外热辐射信息与保持可见光外观纹理信息之间的对抗博弈。更具体地说，这可以看作是生成器和判别器之间的极小极大问题。生成器尝试生成一幅融合图像，包含主要的红外强度以及额外的可见光梯度，而判别器则旨在迫使融合图像具有更多纹理细节。这使得我们的融合图像能够同时保持红外图像中的热辐射和可见光图像中的纹理细节。此外，生成对抗网络（GAN）的端到端特性可以避免手动设计复杂的活动水平测量和融合规则。

为展示我们方法的主要优势，我们在图1中给出了一个代表性示例。

左边两幅图像是待融合的红外和可见光图像，其中可见光图像包含详细的背景，红外图像突出显示目标，即水域。第三幅图像是使用近期方法[22]的融合结果。显然，这种传统方法仅能保留源图像中的更多纹理细节，而红外图像中目标与背景的高对比度特性无法在融合图像中保留。事实上，红外图像中的关键信息（即热辐射分布）在融合图像中完全丢失。图1中最右边的图像是我们FusionGAN的融合结果。相比之下，我们的结果保留了红外图像中的热辐射分布，因此目标易于检测。同时，可见光图像中的背景细节（即树木、道路和水生植物）也得到了很好保留。

本文的主要贡献包括以下四个方面：

我们提出了一个生成对抗架构，并设计了一个专为红外和可见光图像融合定制的损失函数。同时讨论了GAN用于图像融合的可行性和优越性。据我们所知，这是首次将GAN应用于解决图像融合任务。
提出的FusionGAN是一个端到端模型，融合图像可以从输入源图像自动生成，无需手动设计活动水平测量或融合规则。
我们在公开的红外和可见光图像融合数据集上进行了实验，与最先进方法进行了定性和定量比较。与之前的方法相比，提出的FusionGAN可以获得类似于锐化红外图像的结果，具有清晰的高亮目标和丰富的纹理。
我们将FusionGAN推广到融合不同分辨率的源图像，如低分辨率红外图像和高分辨率可见光图像。它可以生成高分辨率的融合图像，不受红外信息上采样引起的噪声影响。

本文的其余部分安排如下。第2节描述了背景资料和生成对抗网络的相关工作。第3节介绍了我们的FusionGAN算法，用于红外和可见光图像融合。第4节展示了我们的方法在各种红外和可见光图像/视频对上的融合性能，并与其他方法的比较。第5节讨论了我们FusionGAN的可解释性，第6节给出了一些结论性评论。

3.相关工作

在本节中，我们简要介绍了背景资料和相关工作，包括传统的红外和可见光图像融合方法、基于深度学习的融合技术，以及生成对抗网络（GAN）及其变体。

3.1 红外和可见光图像融合

随着图像表示方法需求的快速增长，提出了大量的图像融合方法。这些方法可以简单分为七类：基于多尺度变换[5-7]、稀疏表示[8,9]、神经网络[10,11]、子空间[12,13]、显著性[14,15]的方法、混合模型[16,17]以及其他方法[18,19]。接下来，我们简要讨论这些方法的主要思想。

基于多尺度变换的方法在图像融合中最为流行，多尺度变换可以将原始图像分解为不同尺度的分量，每个分量表示每个尺度的子图像，现实世界的物体通常包含不同尺度的分量[23]。一般来说，基于多尺度变换的红外和可见光图像融合方案包括三个步骤[23]：

将每个源图像分解为一系列多尺度表示。
根据给定的融合规则融合源图像的多尺度表示。
对融合后的表示进行相应的逆多尺度变换以获取融合图像。

基于稀疏表示的图像融合方法旨在从大量高质量自然图像中学习一个超完备字典。然后，源图像可以通过学习到的字典进行稀疏表示，从而可能增强有意义且稳定的图像表示[24]。同时，基于稀疏表示的融合方法使用滑动窗口策略将源图像分为若干重叠 patch，从而可能减少视觉伪影并提高对未配准的鲁棒性[16]。

基于神经网络的方法模仿人脑的感知行为来处理神经信息，神经元之间的交互表征了神经信息的传输和处理，神经网络具有很强的适应性、容错性和抗噪能力，大多数基于神经网络的红外和可见光图像融合方法采用脉冲耦合神经网络或其变体[10]。

基于子空间的方法旨在将高维输入图像投影到低维空间或子空间。对于大多数自然图像，存在冗余信息，低维子空间可以帮助捕捉原始图像的内在结构。因此，基于子空间的方法（包括主成分分析、非负矩阵分解和独立成分分析）已成功应用于红外和可见光图像融合[12]。

基于显著性的方法基于这样一个事实：注意力通常被比其邻居更显著的物体或像素所吸引，基于显著性的融合方法可以保持显著目标区域的完整性，并提高融合图像的视觉质量[14]。

上述红外和可见光图像融合方法各有优缺点，混合模型结合它们的优势以提高图像融合性能[16]。其他红外和可见光图像融合方法可以为图像融合激发新想法和视角，这些方法基于全变分[18]、模糊理论[25]、熵[19]等。

3.2 基于深度学习的图像融合

近年来，由于深度学习在提取图像特征方面的强大能力，也已成功应用于图像融合。在多焦点图像融合中，刘等人[26]训练了一个深度卷积神经网络（CNN）来联合生成活动水平测量和融合规则，并将他们的模型应用于融合红外和可见光图像[27]。在多模态图像融合中，钟等人[28]提出了一种基于CNN的联合图像融合和超分辨率方法。此外，刘等人[29]引入了用于图像融合的卷积稀疏表示，其中解卷积网络旨在构建层次结构，每层包括一个编码器和一个解码器。在遥感图像融合中，马西等人[30]提出了一个有效的三层架构来解决全色锐化问题，其中通过添加若干非线性辐射指数图来增强输入以促进融合性能。

现有的基于深度学习的图像融合技术通常依赖于CNN模型，这有一个关键前提，即需要提前获得真值（ground truth）。对于多焦点图像融合和全色锐化问题，真值定义明确，例如，没有模糊区域的清晰图像或与相应全色图像具有相同分辨率的多光谱图像。然而，在红外和可见光图像融合任务中，为融合图像定义标准是不现实的，因此无法建立真值。因此，现有的红外和可见光图像融合技术不是学习需要真值融合图像的端到端模型，而是学习一个深度模型来确定源图像中每个 patch 的模糊程度，然后据此计算权重图以生成最终融合图像[27]。在本文中，我们在GAN框架下重新表述了融合问题，从而避免了上述问题。

3.3 生成对抗网络及其变体

GAN是一种通过对抗过程估计生成模型的流行框架，深度卷积GAN（DCGANs）成功地将一类CNN引入GAN，而最小二乘生成对抗网络（LSGANs）克服了常规GAN中的梯度消失问题，在学习过程中更加稳定。接下来，我们将简要介绍上述三种相关技术。

3.3.1 生成对抗网络

古德费洛等人[31]首次提出了GAN的概念，在深度学习领域引起了广泛关注。GAN基于极小极大双人博弈，可以提供一种简单而强大的方法来估计目标分布并生成新样本。GAN框架包括两个对抗模型：生成模型G和判别模型D。生成模型G可以捕获数据分布，判别模型D可以估计样本来自训练数据而非G的概率。更具体地说，GAN在判别器和生成器之间建立了一个对抗博弈，生成器以先验分布为Pz的噪声作为输入，试图生成不同的样本以欺骗判别器，判别器旨在确定样本是来自模型分布还是数据分布，最终生成器生成判别器无法区分的样本。数学上，生成模型G旨在生成样本，其分布（PG）试图逼近真实训练数据分布（Pdata），G和D进行如下极.ConcurrentHashMap小极大双人博弈：

$\min_G \max_D V_{\text{GAN}}(G, D) = \mathbb{E}_{x \sim p_{\text{data}}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$

然而，PG无法显式表示，且D必须在训练期间与G很好地同步。因此，常规GAN不稳定，很难通过常规GAN训练出好的模型。

3.3.2 深度卷积GAN

深度卷积GAN（DCGANs）的技术由拉德福德等人[32]首次提出。DCGANs首次成功引入了CNN，弥合了用于监督学习的CNN和用于无监督学习的GAN之间的差距。由于传统GAN训练不稳定，因此CNN的架构应适当设计以使传统GAN更稳定，与传统CNN相比主要有五个区别：

生成器和判别器均不使用池化层。相反，判别器中使用步幅卷积来学习其自身的空间下采样，生成器中使用分数步幅卷积来实现上采样。
在生成器和判别器中引入批归一化层。由于较差的初始化往往会导致许多训练问题，批归一化层能够解决这些问题并避免较深模型中的梯度消失。
在较深的模型中移除全连接层。
生成器中的所有激活层（除最后一层外）为整流线性单元（ReLU），最后一层为tanh激活。
判别器中的所有激活层为leaky ReLU激活。

因此，训练过程变得更稳定，生成结果的质量得以提高。

3.3.3 最小二乘GAN

尽管GAN取得了巨大成功，仍有两个关键问题需要解决。第一个是如何提高生成图像的质量。近年来，提出了许多工作来解决这个问题，如DCGANs。第二个是如何提高训练过程的稳定性。许多工作通过探索GAN的目标函数来解决这个问题，如Wasserstein GAN（WGANs）[33]，其收敛速度远慢于常规GAN[34]。此外，常规GAN为判别器采用sigmoid交叉熵损失函数，这可能导致学习过程中的梯度消失问题。

为克服上述两个问题，毛等人[34]提出了最小二乘生成对抗网络（LSGANs），为判别器采用最小二乘损失函数，LSGANs的目标函数定义如下：

$\min_D V_{\text{LSGAN}}(D) = \frac{1}{2} \mathbb{E}_{x \sim p_{\text{data}}(x)}[(D(x) - b)^2] + \frac{1}{2} \mathbb{E}_{z \sim p_z(z)}[(D(G(z)) - a)^2]$

$\min_G V_{\text{LSGAN}}(G) = \frac{1}{2} \mathbb{E}_{z \sim p_z(z)}[(D(G(z)) - c)^2]$

其中，判别器和生成器使用编码方案，a和b分别表示假数据和真实数据的标签，c表示生成器希望判别器为假数据相信的值。确定公式（2）中a、b、c值有两种方法。第一种是设置b−c=1和b−a=2，因此最小化公式（2）等价于最小化 $P_{\text{data}} + P_g$ 与 $P_g$ 之间的Pearson $\chi^2$ 距离。第二种是设置c=b ，这可以使生成器生成的样本尽可能真实。上述两种方法通常获得相似的性能。

在LSGANs中，惩罚远离决策边界的样本使生成器生成的样本靠近决策边界并产生更多梯度。因此，LSGANs比常规GAN有两个优势：

LSGANs可以生成比常规GAN更高质量的图像。
LSGANs在训练过程中比常规GAN更稳定。

本节通过回顾传统红外和可见光图像融合方法、基于深度学习的融合技术以及GAN及其变体，为FusionGAN的提出提供了全面的背景支持。传统方法（如多尺度变换、稀疏表示）因单一变换和手工设计复杂性而受限；深度学习方法因真值依赖和非端到端流程不适合红外-可见光融合；GAN通过对抗学习克服了这些问题，为FusionGAN的端到端、无真值融合框架奠定了基础。DCGANs和LSGANs的进展进一步增强了FusionGAN的可行性。这一回顾不仅明确了FusionGAN的创新动机，也为多模态融合和对抗学习的研究提供了宝贵的思路。

4.方法

在本节中，我们描述了提出的用于红外和可见光图像融合的FusionGAN。我们首先阐述了使用生成对抗网络（GAN）的问题表述，然后讨论了生成器和判别器的网络架构。最后，我们提供了网络训练的一些细节。

4.1 问题表述

为了同时保留红外图像的热辐射信息和可见光图像的丰富纹理信息，我们从一个新颖的视角提出了一种新的融合策略。我们将红外和可见光图像融合问题表述为一个对抗问题，如图2(a)所示。

首先，我们在通道维度上将红外图像 $I_r$ 和可见光图像 $I_v$ 拼接。然后，将拼接后的图像输入生成器 $G_{\theta_G}$ ，其输出为融合图像 $I_f$ 。由于本文设计的生成器损失函数（稍后解释），在没有判别器 $D_{\theta_D}$ 的情况下， $I_f$ 倾向于保留红外图像 $I_r$ 的热辐射信息和可见光图像 $I_v$ 的梯度信息。之后，我们将融合图像 $I_f$ 和可见光图像 $I_v$ 输入判别器 $D_{\theta_D}$ ，其目标是区分 $I_f$ 和 $I_v$ 。提出的FusionGAN在生成器 $G_{\theta_G}$ 和判别器 $D_{\theta_D}$ 之间建立了一个对抗博弈， $I_f$ 将逐渐包含越来越多的可见光图像 $I_v$ 中的细节信息。在训练阶段，一旦生成器 $G_{\theta_G}$ 生成的样本（即 $I_f$ ）无法被判别器 $D_{\theta_D}$ 区分，我们即可获得预期的融合图像 $I_f$ 。测试过程如图2(b)所示，我们仅将 $I_f$ 和 $I_v$ 的拼接图像输入训练好的生成器 $G_{\theta_G}$ ，其输出为最终的融合结果。

损失函数： FusionGAN的损失函数由两部分组成，即生成器 $G_{\theta_G}$ 的损失函数和判别器 $D_{\theta_D}$ 的损失函数。以下分别介绍它们。

首先，生成器 $G_{\theta_G}$ 的损失函数由两项组成：

$\mathcal{L}_G = V_{\text{FusionGAN}}(G) + \lambda \mathcal{L}_{\text{content}}$

其中， $L_G$ 表示总损失，右边第一项 $V_{FusionGAN}(G)$ 表示生成器 $G_{\theta_G}$ 和判别器 $D_{\theta_D}$ 之间的对抗损失，定义如下：

$V_{\text{FusionGAN}}(G) = \frac{1}{N} \sum_{n=1}^N \left( D_{\theta_D}(I_f^n) - c \right)^2$

其中， $I^n_{f}$ 表示第 𝑛 个融合图像， $n\in \mathbb{N}_N$ ， N 表示融合图像的数量， 𝑐 是生成器希望判别器为假数据相信的值。第二项 $L_{content}$ 表示内容损失， 𝜆 用于平衡 $V_{FusionGAN}(G)$ 和 $L_{content}$

由于红外图像的热辐射信息由其像素强度表征，可见光图像的纹理细节信息部分由其梯度表征[18]，我们强制融合图像 $I_f$ 具有与 $I_r$ 相似的强度和与 $I_v$ 相似的梯度。具体来说， $L_{content}$ 定义如下：

$\mathcal{L}_{\text{content}} = \frac{1}{HW} \left( \| I_f - I_r \|_F^2 + \xi \| \nabla I_f - \nabla I_v \|_F^2 \right)$

其中，H 和 W 分别表示输入图像的高度和宽度， $\| \cdot \|_F$ 表示矩阵Frobenius范数， $\nabla$ 表示梯度算子。 $\mathcal{L}_{\text{content}}$ 的第一项旨在保持红外图像 $I_r$ 的热辐射信息在融合图像 $I_f$ 中，第二项旨在保留可见光图像 $I_v$ 中包含的梯度信息， $\xi$ 是一个正参数，控制两项之间的权衡。

实际上，即使没有判别器 $D_{\theta_D}$ ，我们也可以得到一幅融合图像，能够保留红外图像的热辐射信息和可见光图像的梯度信息。但这通常不够，因为可见光图像的纹理细节无法仅通过梯度信息完全表示（我们将在实验中验证这一问题）。因此，我们在生成器 $G_{\theta_G}$ 和判别器 $D_{\theta_D}$ 之间建立了一个对抗博弈，基于可见光图像 $I_v$ 调整融合图像 $I_f$ 。这可以使 $I_f$ 包含更多纹理细节。

形式上，判别器 $D_{\theta_D}$ 的损失函数定义如下：

$\mathcal{L}_D = \frac{1}{N} \sum_{n=1}^N \left( D_{\theta_D}(I_v) - b \right)^2 + \frac{1}{N} \sum_{n=1}^N \left( D_{\theta_D}(I_f) - a \right)^2$

其中， a 和 b 分别表示融合图像 $I_f$ 和可见光图像 $I_v$ 的标签， $D_{\theta_{D} }(I_v)$ 和 $D_{\theta_{D} }(I_f)$ 分别表示对可见光图像和融合图像的分类结果。判别器旨在基于提取的特征区分融合图像和可见光图像。我们使用最小二乘损失函数，遵循最小化Pearson $\chi ^2$ 散度。这使得训练过程更稳定，判别器的损失函数收敛更快。

4.2 网络架构

我们的网络架构由两部分组成，即生成器和判别器。它们的架构基于卷积神经网络设计。

生成器的网络架构：生成器 $G_{\theta_G}$ 的网络架构如图3所示。

如图所示， $G_{\theta_G}$ 是一个简单的五层卷积神经网络，其中第一层和第二层使用 $5 \times 5$ 滤波器，第三层和第四层使用 $3 \times 3$ 滤波器，最后一层使用 $1 \times 1$ 滤波器。每层的步幅设置为1，卷积中没有填充操作。生成器的输入是拼接图像，不含噪声。为了提高生成图像的多样性，许多工作通常通过卷积层提取输入图像的特征图，然后通过转置卷积层重建与输入图像相同大小的图像。对于红外和可见光图像融合，每次下采样过程都会丢失源图像中的一些细节信息，这对融合很重要[35]。因此，我们仅引入不含下采样的卷积层。这也可以保持输入和输出的尺寸相同，因此网络中不需要转置卷积层。此外，为避免梯度消失问题，我们遵循深度卷积GAN[32]的规则进行批归一化和激活函数选择。为了克服对数据初始化的敏感性，我们在前面四层中使用批归一化，批归一化层可以使模型更稳定，并帮助梯度有效地反向传播到每一层。对于激活函数，我们在前面四层使用leaky ReLU激活函数，最后一层使用tanh激活函数。

判别器的网络架构：判别器 $D_{\theta_D}$ 的网络架构是一个简单的五层卷积神经网络，如图4所示。

从第一层到第四层，我们在卷积层中使用 $3 \times 3$ 滤波器，并将步幅设置为2，不进行填充。这与生成器网络不同。根本原因是判别器是一个分类器，它首先从输入图像中提取特征图，然后进行分类。因此，通过将步幅设置为2，其作用与池化层相同。为了不在模型中引入噪声，我们仅在第一层对输入图像进行填充操作，其余三个卷积层不进行填充。从第二层到第四层，我们使用批归一化层。此外，我们在前面四层使用leaky ReLU激活函数。最后一层是线性层，主要用于分类。

4.3 训练细节

我们从TNO数据库中选择了45对不同场景的红外和可见光图像作为训练数据。然而，这不足以训练一个好的模型，因此我们通过设置步幅为14裁剪每张图像，每个patch的尺寸为 120×120 。因此，我们可以得到64,381对红外和可见光patch，并将它们中心化到 [−1,1]。我们从训练数据中选择 m 对红外和可见光patch，然后将它们填充到 132×132 ，作为生成器的输入。生成器输出的融合图像patch尺寸为 120×120。接下来，我们使用 m对可见光和融合图像patch作为判别器的输入。我们首先训练判别器 k次，优化器使用Adam[36]，然后训练生成器，直到达到最大训练迭代次数。该过程总结在算法1中。在测试过程中，我们对测试数据进行不重叠裁剪，并将它们作为批次输入生成器 $G_{\theta_G}$ 。然后根据裁剪顺序连接生成器的结果，从而得到最终的融合图像。参数设置将在下一节讨论。

对抗与内容损失的结合：内容损失显式约束红外和可见光信息的保留，弥补了GAN仅依赖对抗损失可能导致的信息丢失问题。
LSGAN的应用：最小二乘损失提高了训练稳定性，特别适合数据量有限的红外-可见光融合任务。
梯度信息的引入：通过梯度损失显式保留可见光纹理，弥补了仅靠对抗损失无法完全捕捉细节的不足。
潜在改进：可引入感知损失（基于VGG网络）进一步增强纹理细节，或使用自适应权重动态调整 $\lambda$ 和 $\xi$ 。

生成器与判别器的差异：
- 生成器注重细节保留（无下采样），判别器注重特征提取（下采样），两者功能互补。
- 生成器的简单架构适合小数据集，但可能限制复杂场景的表达能力。
DCGAN规则的应用：
- 批归一化和leaky ReLU提高了训练稳定性，tanh激活确保输出范围匹配图像数据。
- 判别器的线性层与LSGAN损失结合，简化了分类任务。
潜在改进：
- 生成器可引入注意力机制（如自注意力），增强多模态特征融合。
- 判别器可使用PatchGAN，聚焦局部纹理，提高纹理细节的区分能力。
- 可尝试更深的网络架构，增强复杂场景的建模能力。
数据增强的必要性：
- 64,381个patch显著增加了训练数据量，但步幅14可能引入冗余，未来可尝试更大数据增强（如旋转、翻转）。
训练策略的优化：
- 判别器更新次数 k需通过实验调整，过高可能导致生成器梯度消失。
- Adam优化器适合GAN，但学习率和动量参数需进一步调优。
测试流程的局限性：
- 不重叠裁剪可能导致边界信息丢失，可尝试重叠裁剪并平滑拼接。
- 测试效率可通过更大批次或并行处理进一步提升。

个人认为存在两个问题：

5.实验

在本节中，我们首先简要介绍本文使用的融合评价指标，然后展示所提出的FusionGAN在公共数据集上的有效性，并将其与八种最先进的融合方法进行比较，包括自适应稀疏表示（ASR）[37]、曲线变换（CVT）[38]、双树复小波变换（DTCWT）[39]、四阶偏微分方程（FPDE）[12]、基于引导滤波的融合（GFF）[22]、低通金字塔比率（LPP）[3]、基于视觉显著性的双尺度图像融合（TSIFVS）[40]和梯度传递融合（GTF）[18]。所有这八种方法的实现代码均公开可用，我们根据原始论文设置了竞争方法的参数。随后，为了验证对抗训练的重要性，我们基于是否使用对抗损失训练了两个模型，并比较了它们的融合性能。最后，我们将FusionGAN推广到融合不同分辨率的图像，如低分辨率红外图像和高分辨率可见光图像，并将其与上述八种最先进的融合方法进行比较。所有实验均在一台配备2.4 GHz Intel Xeon CPU E5-2673 v3、GeForce GTX 1080Ti和64 GB内存的台式机上进行。

5.1 融合评价指标

仅通过主观评价难以准确评估融合性能，因此我们还需要客观的融合评价指标。近年来，许多研究提出了各种融合指标，但似乎没有哪一个指标明显优于其他指标[41]。因此，需要选择多个指标来评估不同的融合方法。我们使用六种指标定量评估不同融合方法的性能，即熵（EN）[42]、标准差（SD）[43]、结构相似性指数（SSIM）[44]、相关系数（CC）[45]、空间频率（SF）[46]和视觉信息保真度（VIF）[47]。以下是这六种指标的定义：

**熵（EN）**基于信息理论定义，衡量融合图像包含的信息量。数学上，EN定义如下：

$\text{EN} = -\sum_{l=0}^{L-1} p_l \log_2 p_l$

其中，L 表示灰度级数，我们在实验中设为256。 $p_l$ 是融合图像中对应灰度级的归一化直方图。熵越大，融合图像包含的信息越多，融合方法的性能越好。

**标准差（SD）**基于统计概念定义，反映图像中各个像素值偏离平均值的程度。数学上，SD定义如下：

$\text{SD} = \sqrt{\sum_{i=1}^M \sum_{j=1}^N (F(i,j) - \mu)^2}$

其中，F是尺寸为 $M \times N$ 的融合图像， $\mu$ 是融合图像 F 的均值。高对比度区域通常吸引人类注意力，融合图像对比度越高，SD越大，意味着融合图像具有更好的视觉效果。

**结构相似性指数（SSIM）**用于建模图像损失和失真，衡量源图像与融合图像之间的结构相似性。SSIM主要包括三个组成部分：相关性损失、亮度失真和对比度失真。三者的乘积是融合图像的评估结果，SSIM定义如下：

$\text{SSIM}_{X,F} = \sum_{x,f} \frac{2 \mu_x \mu_f + C_1}{\mu_x^2 + \mu_f^2 + C_1} \cdot \frac{2 \sigma_x \sigma_f + C_2}{\sigma_x^2 + \sigma_f^2 + C_2} \cdot \frac{\sigma_{xf} + C_3}{\sigma_x \sigma_f + C_3}$

$\text{SSIM} = \text{SSIM}_{A,F} + \text{SSIM}_{B,F}$

其中， $F \text{SSIM}_{X,F}$ 表示源图像 X与融合图像 F 之间的结构相似性，x 和 f表示源图像和融合图像在 $M \times N$ 大小的局部窗口中的图像块， $\sigma_x$ 和 $\sigma_f$ 表示标准差， $\sigma_{xf}$ 是源图像和融合图像的标准协方差， $\mu_x$ 和 $\mu_f$ 表示源图像和融合图像的均值。 $C_1$ 、 $C_2$ 、 $C_3$ 是稳定算法的参数。 $\text{SSIM}_{A,F}$ 和 $\text{SSIM}_{B,F}$ 分别表示红外/可见光图像与融合图像的结构相似性。SSIM值越大，性能越好。

**相关系数（CC）**衡量融合图像与源图像的线性相关程度，定义如下：

$\text{CC} = \frac{r_{AF} + r_{BF}}{2}$

其中， $r_{XF} = \frac{\sum_{i=1}^M \sum_{j=1}^N (X(i,j) - \bar{X})(F(i,j) - \mu)}{\sqrt{\sum_{i=1}^M \sum_{j=1}^N (X(i,j) - \bar{X})^2 \cdot \sum_{i=1}^M \sum_{j=1}^N (F(i,j) - \mu)^2}}$ ，

Xˉ 表示源图像 X 的均值。C越大，融合图像与源图像越相似，融合性能越好。

**空间频率（SF）**用于衡量图像的梯度分布，定义如下：

$\text{SF} = \sqrt{\text{RF}^2 + \text{CF}^2}$

其中，行频率 $\text{RF} = \sqrt{\sum_{i=1}^M \sum_{j=1}^N (F(i,j) - F(i,j-1))^2}$ ，列频率

$\text{CF} = \sqrt{\sum_{i=1}^M \sum_{j=1}^N (F(i,j) - F(i-1,j))^2}$ SF越大，融合图像的边缘和纹理越丰富。

**视觉信息保真度（VIF）**衡量融合图像的信息保真度，计算分为四步：首先，将源图像和融合图像分成不同块；然后，评估每个块在有无失真情况下的视觉信息；随后，评估每个子带的VIF；最后，基于VIF计算总体指标。

5.2 融合性能的实验验证

5.2.1 数据库和训练设置

在本实验中，我们首先在TNO Human Factors数据库的监控图像上进行定性和定量比较，该数据库包含多光谱夜视图像，涵盖不同军事相关场景，使用不同多波段相机系统注册。我们选择七对典型图像进行定性说明，即Bunker、Bench、Sandpath、Kaptein_1123、Kaptein_1654、Marne_04和Nato_camp。Nato_camp是一个包含32个图像对的图像序列，也用于定量比较。此外，我们还在INO数据库上测试我们的方法，该数据库由加拿大国家光学研究所提供，包含在不同天气条件下捕获的多个可见光和红外视频对。具体来说，我们从名为“Trees and runner”的视频中捕获31个可见光和红外图像对，用于定性和定量比较。

我们的FusionGAN在TNO数据库上训练，从中选择45幅不同场景的红外和可见光图像，训练参数设置如下：批次图像大小 m 设置为32，训练迭代次数设置为10，判别器训练步数 k 设置为2。λ 设置为100，ξ 设置为8，学习率设置为 $10^{-4}$ 。融合图像的标签 a 是0到0.3之间的随机数，可见光图像的标签 b 是0.7到1.2之间的随机数，c 也是0.7到1.2之间的随机数。标签 a、b 和 c 不是固定值，而是所谓的软标签[34]。

5.2.2 TNO数据库结果

定性比较：为了直观展示融合性能，我们选择七对典型图像对进行定性评估，包括Bunker、Bench、Sandpath、Kaptein_1123、Kaptein_1654、Marne_04和Nato_camp。图5展示了所提出的FusionGAN与其他八种比较方法的融合结果。

图5的前两行展示原始红外图像和可见光图像，最后一行是FusionGAN的融合结果，其余八行对应八种比较方法的融合结果。从结果来看，所有方法在一定程度上都能很好地融合可见光和红外图像的信息。从这个意义上，无法判断哪种方法最好或最差。然而，我们也发现，除了GTF外，其他比较方法的融合图像中目标（如建筑、人或车）不够明显，说明红外图像的热辐射信息未被很好保留。这可以归因于比较方法都专注于挖掘源图像的细节信息。相比之下，GTF和我们的方法能更好地突出融合图像中的目标区域，这对自动目标检测和定位有益。我们的方法和GTF都能很好地保留热辐射信息。然而，与GTF相比，FusionGAN的融合结果明显包含更丰富的细节信息，更适合人类视觉感知。例如，在Kaptein_1123中，两个结果中的人都同样突出，但我们结果中的路灯更清晰。在Marne_04中，FusionGAN的结果中树木融合得当，而GTF的结果中几乎无法辨认。其他五个例子中也有类似现象，如红框所示。这表明FusionGAN在同时保留热辐射信息和纹理细节信息方面优于其他最先进方法。

定量比较：我们进一步在TNO数据库的两个图像对集合上对九种方法进行了定量比较。第一个集合包含十对红外和可见光图像，包括图5中的七对和额外的三对。第二个集合是红外和可见光图像序列对，例如Nato_camp序列。两个数据集上的六种指标结果如图6和图7所示。在第一个数据集上，FusionGAN在五个评价指标（EN、SD、SSIM、SF和VIF）上获得最大平均值，仅在CC指标上略逊于GTF。在第二个数据集上，FusionGAN在大多数图像对上明显具有最佳的EN、SD、SSIM和SF，这些评价指标的平均值也比其他八种方法最大。在CC指标上，FusionGAN略逊于FPDE和ASR；在VIF指标上，FusionGAN仅略逊于GFF。最大的EN表明我们的融合图像比其他八种比较方法包含更丰富的信息。最大的SD表明我们的融合图像具有最大的图像对比度。最大的SSIM表明我们的融合图像在结构上与红外和可见光图像更相似。最大的SF表明我们的融合图像包含丰富的边缘和纹理。虽然我们的CC和VIF不是最好的，但相当的结果仍表明我们的融合图像与两个源图像有很高的相关性，也更符合人类视觉系统。我们还在表1中提供了九种方法的运行时间比较。从结果来看，FusionGAN的效率与其他八种方法相当。

5.2.3 INO数据库结果

我们进一步在INO数据库上测试我们的方法和其他八种比较方法，从名为“Trees and runner”的视频中每隔18帧选择31个可见光和红外图像对，用于定性和定量比较。图8展示了所选31个图像对中第27帧的融合结果。可见光图像包含丰富的纹理，而红外图像纹理较差，如地面上的汽车和树木所示。然而，红外图像中的人比可见光图像中的更突出。考虑融合结果，九种方法都能很好地保留纹理信息。然而，只有FusionGAN能保持红外图像中的热辐射分布，例如人体区域的像素强度。图9展示了四个指标的定量比较结果，FusionGAN在大多数图像对上再次具有最佳的EN、SD、SSIM、CC和VIF，这些评价指标的平均值比八种比较方法最大。在SF指标上，FusionGAN仅略逊于LPP。此外，我们还在表1中提供了不同融合方法的运行时间比较，FusionGAN的效率与其他八种方法相当。

5.3 对抗损失的实验验证

为了验证FusionGAN中对抗训练的重要性，我们在TNO数据库上基于是否使用对抗损失训练了两个模型，所有训练设置与第一个实验相同。

图10在四个典型图像对（包括Bunker、Sandpath、Kaptein_1123和Marne_04）上示意性地展示了两个模型的融合结果。前两行展示红外图像和可见光图像，第三行是不使用对抗损失训练的FusionGAN的融合结果，最后一行是我们的方法，即使用对抗损失的融合结果。从结果可以清楚看到，使用对抗损失的FusionGAN融合结果包含更多的细节信息，也更符合人类视觉系统。例如，Bunker中的植被纹理、Sandpath中的树桩、Kaptein_1123中的树木以及Marne_04中的车窗在最后一行中都融合得当。然而，在不使用对抗损失的第三行中，结果图像的对比度较低，上述细节难以区分。事实上，纹理细节无法仅通过梯度信息完全表示。其他属性，如图像对比度、饱和度和光照变化，也在反映可见光图像细节方面起着重要作用。然而，很难在数学上将这些属性表征为可优化的目标函数。尽管如此，本节的结果表明，对抗训练可以帮助挖掘可见光图像中的更多纹理细节并将其转移到融合图像中。

5.4 应用于不同分辨率图像的融合

在本实验中，我们进一步将FusionGAN应用于融合具有不同空间分辨率的红外和可见光图像，例如低分辨率红外图像和高分辨率可见光图像。为此，我们进行了以下三项修改：

我们将所有红外图像下采样到原始图像尺度的 $\frac{1}{c^2}$ （即 $\frac{1}{c} \times \frac{1}{c}$ ，这里我们设 c=4）作为新的低分辨率源红外图像，而可见光图像保持原始尺度。图6中描述的TNO数据库中的十个图像对用作本实验的测试数据。
由于红外和可见光图像具有不同的空间分辨率，我们无法直接拼接它们进行训练或测试，如图2所示。因此，我们在拼接并输入生成器之前，将低分辨率红外图像插值到与相应可见光图像相同的分辨率。
由于融合图像和红外图像也具有不同的分辨率，我们重新设计了公式（5）中的内容损失 $\mathcal{L}_{\text{content}}$ 如下：

$\mathcal{L}_{\text{content}} = \frac{1}{HW} \left( \| \phi(I_f) - I_r \|_F^2 + \xi \| \nabla I_f - \nabla I_v \|_F^2 \right)$

其中，ϕ 是一个下采样操作，将融合图像下采样到红外图像的分辨率。其他训练设置与第一个实验相同。注意，在公式（13）中，我们选择下采样融合图像而不是上采样红外图像。这是因为上采样红外图像不可避免地会引入额外噪声，可能转移到融合图像中，导致不理想的结果。

对于所有八种比较方法，它们要求源图像具有相同的分辨率。因此，我们必须通过下采样可见光图像或上采样红外图像来消除分辨率差异。显然，下采样可见光图像会导致纹理信息丢失，上采样红外图像会模糊热辐射信息。尽管如此，为了避免信息丢失，我们选择在上采样红外图像后进行融合。我们选择五个典型图像对进行定性评估，包括Bunker、Sandpath、Kaptein_1123、Kaptein_1654和Marne_04。图11展示了FusionGAN和其他八种比较方法生成的融合图像。

图11的前两行展示原始低分辨率红外图像和高分辨率可见光图像，最后一行是FusionGAN的融合结果，其余八行对应八种比较方法的融合结果。从所有这些结果中，我们可以得出与第一个实验相同的结论，例如，除GTF外，比较方法未能很好保留红外图像中的热辐射信息，与GTF相比，我们的结果包含更丰富的细节信息，更适合人类视觉感知。此外，与其他八种方法相比，FusionGAN生成的融合图像更清晰、更干净。这是因为FusionGAN在内容损失（即公式（13））中无需下采样或上采样源图像，因此不会受到上采样红外信息引起的噪声影响。

我们进一步对全部十个图像对进行了九种方法的定量比较，六种指标的结果如图12所示。有三个指标（SSIM、CC和VIF）依赖于源图像。具体来说，计算这些指标要求源图像和融合图像具有相同的分辨率。要求融合图像尽可能保留上采样红外图像中的信息可能不合适，因为它涉及额外噪声。相反，最好下采样可见光和融合图像，并要求下采样的融合图像尽可能保留原始红外图像和下采样可见光图像中的信息。因此，在本文中，我们在计算SSIM、CC和VIF指标之前，将可见光和融合图像下采样到与相应红外图像相同的分辨率。从结果来看，FusionGAN在所有六个指标上具有最佳平均值。这表明FusionGAN在融合不同分辨率源图像方面相较于现有融合方法具有显著优势。

结论：无论融合相同空间分辨率还是不同分辨率的源图像，FusionGAN都能同时保留红外图像中的热辐射信息和可见光图像中的丰富纹理细节。与现有的最先进融合方法相比，我们的结果看起来像是锐化的红外图像，具有清晰的高亮目标和丰富的细节信息。此外，FusionGAN的效率与最先进方法相当。

6. 讨论

基于深度学习的技术通常有一个共同问题，即它们被视为黑盒模型，即使我们理解了这些模型的底层数学原理，它们也缺乏明确的声明性知识表示，因此难以生成底层的解释结构[48]。在本节中，我们简要讨论了FusionGAN的可解释性。传统生成对抗网络（GAN）的本质是训练一个生成器来捕获数据分布，使得生成器生成的数据与原始数据具有相同的分布。在此过程中，数据分布的相似性由判别器来衡量。更具体地说，判别器被训练来区分生成数据和原始数据。当判别器无法成功区分这两种数据时，我们认为生成数据与原始数据具有相同的分布。我们的FusionGAN的本质是生成一幅融合图像，选择性地保留源图像（即红外和可见光图像）中的信息，保留信息的多少由参数 λ 和 ξ控制。特别是，内容损失旨在保留红外图像中的辐射信息和可见光图像中的梯度信息，而对抗损失旨在保留表征可见光图像细节信息的其他重要属性，如图像对比度、饱和度和光照变化。因此，在对抗过程中，生成器持续拟合融合图像中细节信息的分布，使其与可见光图像中的分布一致，同时保留红外辐射信息。当判别器无法区分融合图像和可见光图像时，融合图像中的细节信息分布被认为与可见光图像相同，因此融合图像在视觉上具有更多的纹理细节。

7. 结论

在本文中，我们提出了一种基于生成对抗网络的新型红外和可见光图像融合方法。它能够同时保留红外图像中的热辐射信息和可见光图像中的纹理细节信息。所提出的FusionGAN是一个端到端的模型，可以避免传统融合策略中手动设计复杂的活动水平测量和融合规则。在公共数据集上的实验表明，我们的融合结果看起来像是锐化的红外图像，具有清晰的高亮目标和丰富的细节信息，这对基于图像融合的目标检测和识别系统有益。与八种最先进方法的四个评价指标的定量比较表明，FusionGAN不仅能产生更好的视觉效果，还能保留源图像中最大或接近最大量的信息。我们的FusionGAN是一个通用的框架，适用于旨在将一个源图像中的像素强度与另一个源图像中的纹理细节融合的融合任务。我们还将FusionGAN推广到融合不同分辨率的源图像。在未来的工作中，我们将进一步应用FusionGAN解决遥感社区中著名的全色锐化问题，其目标是将低分辨率多光谱图像和高分辨率全色图像融合，生成具有高空间分辨率的多光谱图像[49]。