TCCFusion/ An infrared and visible image fusion method based on transformer and cross correlation

最新推荐文章于 2024-03-30 12:58:34 发布

保持客气哈

最新推荐文章于 2024-03-30 12:58:34 发布

阅读量464

点赞数

分类专栏： ImageFusion 文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.csdn.net/m0_47005029/article/details/130899666

版权

ImageFusion 专栏收录该内容

28 篇文章 48 订阅

订阅专栏

文章提出了一种名为TCCFusion的新方法，它结合了Transformer和交叉相关来融合红外和可见光图像。通过局部特征提取分支和全局特征提取分支并行工作，同时利用交叉相关损失，TCCFusion在保留局部细节和全局信息方面表现优秀，超越了现有的深度学习方法。实验表明，该方法在视觉质量和定量评估上均优于其他先进技术。

摘要由CSDN通过智能技术生成

1.摘要

这篇文章介绍了一种基于Transformer和交叉相关的红外和可见光图像融合方法，名为TCCFusion。传统的基于卷积操作的深度学习方法虽然具有良好的局部特征提取能力，但受限于有限的感受野，其建模长距离依赖性的能力受到限制。为了解决这个问题，作者设计了一个局部特征提取分支（LFEB）来保留局部互补信息，其中引入了一个密集形状网络来重复使用在卷积操作中可能丢失的信息。为了避免感受野的限制并充分提取全局重要信息，作者设计了一个由三个Transformer块组成的全局特征提取分支（GFEB）来构建长距离关系。此外，LFEB和GFEB以并行方式排列，以更有效地保留局部和全局有用信息。此外，作者设计了一个交叉相关损失来以无监督的方式训练所提出的融合模型，从而使融合结果在红外图像中获得足够的热辐射信息，在可见光图像中获得丰富的纹理细节。在两个主流数据集上的大量实验表明，TCCFusion不仅在视觉质量上优于现有的最先进算法，而且在定量评估上也表现出色。对网络框架和目标函数的消融实验证明了所提出方法的有效性。

2.引言

图像融合是图像处理领域中一个具有挑战性和长期存在的任务，具有各种下游应用，包括目标检测和识别。由于成像技术或传感器的限制，通过单一光学设置或单一传感器获取的图像很难展现全面或详细的场景。例如，红外图像通过反射物体的热辐射可以检测各种照明条件下的目标，但通常提供具有低空间分辨率的有限场景细节。相比之下，可见光图像是通过探测视觉光线生成的，它揭示了丰富的纹理细节，并与人类视觉系统（HVS）一致。然而，可见光图像受天气影响较大。因此，红外和可见光图像融合可以克服硬件设备的限制，并已被证明在实践中非常有用，例如目标跟踪和人员再识。

近几年，随着深度学习在计算机视觉任务中的进展，出现了大量基于深度学习的红外和可见光图像融合算法。现有的基于深度学习的方法可以大致分为两类：基于卷积神经网络（CNN）的方法和基于生成对抗网络（GAN）的方法。由于其出色的特征提取能力，CNN-based方法可以通过卷积操作整体执行活动水平测量和集成策略，从而解决传统方法中存在的手动设计问题。GAN-based方法将图像融合问题形式化为生成器和判别器之间的极小极大优化过程。GAN-based方法通过对抗学习方案以交替的方式保留源图像的特征。尽管基于深度学习的算法可以在提高图像融合质量方面取得进展，但仍存在一些需要克服的缺点。一方面，卷积操作是CNN-based和GAN-based算法的关键元素，确实具有良好的局部特征利用能力。然而，CNN的感受野受到限制，从而限制了其捕获全局重要信息的能力。另一方面，由于多模态图像融合任务缺乏ground truth的基本事实，损失函数在指导融合性能方面起着重要作用。然而，在以前的基于深度学习的方法中，在设计损失函数时总是忽略了输入和融合图像之间的交叉相关性。

忽略输入图像和融合图像之间的相关性指的是在图像融合的过程中，之前的一些深度学习方法在设计损失函数时没有考虑到输入图像和融合图像之间的相关性。也就是说，这些方法只是简单地将两个输入图像进行融合，而没有充分利用它们之间的相关性来提高融合后图像的质量。相比之下，本文提出了一种新的方法TCCFusion，其中包括一个交叉相关损失函数，可以在训练过程中考虑输入图像和融合图像之间的相关性，从而确保生成的融合图像包含更有意义的信息。

在这里插入图片描述

为了克服上述困境，我们提出了一种基于Transformer和交叉相关的新型端到端红外和可见光图像融合方法，称为TCCFusion。具体而言，我们设计了一个本地特征提取分支（LFEB）来利用局部互补特征。为了重复使用可能在卷积操作中丢失的信息，LFEB以密集的方式设计。此外，我们设计了一个全局特征提取分支（GFEB）来进一步构建长期关系。值得一提的是，LFEB和GFEB以并行方式排列，因此不仅可以同时获取有价值的本地和全局特征，而且比级联方法更节省时间。此外，我们提出了一个交叉相关损失函数，在训练过程中考虑输入和融合图像之间的相关性，从而指导网络，确保融合结果具有更有意义的信息。配备局部-全局并行网络和交叉相关损失函数，我们提出的TCCFusion可以展示具有丰富纹理细节的突出目标。图1显示了一组红外和可见光图像对及其通过传统方法、基于深度学习的方法和我们的TCCFusion生成的相应融合图像。显然，配备局部-全局并行网络和交叉相关损失函数，我们提出的TCCFusion在保持输入图像的互补信息方面具有最高的视觉质量。

本文的主要贡献可以概括如下：

我们提出了一种新颖的局部-全局并行网络，从局部保留和全局利用的角度利用重要特征。具体而言，我们设计了一个密集形状的本地特征提取分支（LFEB）来保持本地有用特征，并充分重复使用可能在卷积操作中丢失的信息。我们设计了一个基于Transformer的全局特征提取分支（GFEB）来保留全局特征并更好地构建长距离关系。值得一提的是，LFEB和GFEB以并行方式排列，以更有效地捕获特征。
我们提出了一个交叉相关损失函数来训练所提出的模型，以更好地保留互补信息。具体而言，红外图像提供与物体对应的热辐射信息，而可见光图像展现了丰富的场景细节。为了充分捕获这两种模态的互补信息，我们计算输入和融合图像之间的归一化交叉相关。
对主流的TNO和RoadScene数据集进行的广泛实验表明，我们提出的TCCFusion可以同时展示红外图像的突出目标和可见光图像的丰富场景信息。此外，我们提出的方法在定性和定量评估上优于其他最先进的算法。

在这里插入图片描述
表1从五个方面对所提出的方法与其他最新方法进行了比较

a）端到端，TCCFusion是一个端到端的图像融合模型，使融合图像可以直接获得，而无需手动设计的融合策略。
b）Transformer，我们设计了一个GFEB采用Transformer进行全局特征提取。
c）局部-全局，设计了一个局部-全局并行网络，从局部开发和全局挖掘的角度充分保留源图像中的重要特征。
d）互相关损失，引入互相关损失，进一步迫使融合结果与输入图像具有较高的互相关。
e）无监督，在红外和可见光图像融合任务缺乏ground truth的情况下，所提出的方法在无监督的方式进行训练。

3.方法

3.1. Framework overview

在这里插入图片描述

如图2所示，TCCFusion由编码器、局部特征提取分支（LFEB）、全局特征提取分支（GFEB）和解码器四个模块组成
首先，红外图像 $I_{ir}$ 和可见光图像 $I_{vis}$ 在通道维度上拼接以获得双通道映射 $\lbrace I_{ir}，I_{vis} \rbrace$ 。然后 $\lbrace I_{ir}，I_{vis} \rbrace$ 被馈送到编码器中获得浅层特征 $^o_ e$
为了充分利用局部-全局重要信息， $^o_ e$ 被单独地馈送到两个并行分支中，即，LFEB和GFEB。
之后，对$LFEB $ 的输出 ${F_l^o}$ 和 $GFEB$ 的输出 $F^o_g$ 执行逐元素求和以聚合所捕获的局部和全局特征 $F_a$ 。
最后，将 $F_a$ 馈入解码器以重构融合图像。

由于我们提出的方法是一个端到端的图像融合模型，解码器的输出是融合结果 $I_f$ 。为了使符号清楚，本节中使用的主要符号在表2中列出。

在这里插入图片描述

3.2. Network architecture

我们提出的融合框架如图2 所示。为了充分利用来自输入图像的有意义的信息，首先将级联的红外图像和可见光图像 $\lbrace I_{ir}，I_{vis} \rbrace$ 馈送到编码器中以用于浅特征保留。
在这里插入图片描述
编码器由两个连续的卷积层组成。每一层都采用3 × 3卷积，然后是批量归一化（BN）和校正线性单元（ReLU）。编码器的输出分别被馈送到两个并行分支中，即LFEB和GFEB，以同时保留局部和全局互补特征。

在LFEB中，采用三个卷积层来捕获局部特征。考虑到密集连接的网络可以加强特征传播，有利于更有效地训练深度模型，并避免梯度消失的问题，LFEB中的三层以密集的形状排列，以提高融合性能。
在这里插入图片描述

具体地，首先将 $^o_ e$ 送到第一层中，其可以表示为： $F^o_{c(1)}=C_1(F_e^o) \quad (1)$
- 其中 $C_1(·)$ 表示第一个卷积层， $F^o_{c(1)}$ 表示第一个卷积层的输出
将 $^o_{c_(1)}$ 和 $F_e^o$ 相加，并馈送到第二卷积层，其被定义为 $F^o_{c(2)}=C_2(F_e^o+F^o_{c(1)}) \quad (2)$
- 其中 $C_2(·)$ 表示第二个卷积层， $F^o_{c(2)}$ 表示第二个卷积层的输出
将 $^o_{c_(1)}$ ， $F_e^o$ 和 $^o_{c_(2)}$ 相加，并馈送到第三卷积层，其被定义为 $F^o_{c(3)}=C_3(F_e^o+F^o_{c(1)}+F ^o_{c_(2)}) \quad (3)$
- 其中 $C_3(·)$ 表示第三个卷积层， $F^o_{c(3)}$ 表示第三个卷积层的输出
因此，密集形状卷积运算可以写为 $F^o_{c(n)}=C_n(F_e^o+F^o_{c(1)}+...+F ^o_{c_(n-1)}) \quad (4)$
- 其中 $C_n(·)$ 表示第n个卷积层， $F^o_{c(n)}$ 表示 $C_n$ 的输出特征。
最后，对 $^o_ e$ ， $F^o_{c(n)}$ ，n ∈ [1，N]执行逐元素求和运算以获得LFEB $F^o_ l$ 的输出，其描述 $F^o_ l=F_e^o+F^o_{c(1)}+...+F ^o_{c_(n)}$

在这里插入图片描述

在GFEB中，三个Transformer blocks（TRB）用于全局特征保存。具体地，为了确保更重要的全局互补信息被充分利用，三个TRB被有序地用于深度融合模型构建。

在每个TRB中，首先采用层归一化（LN），然后是多头自注意（MSA）和它们之间的逐元素求和运算，就是正常的vision transformer操作（划分patch然后patch之间注意力操作）。其被公式化为 $F_s^1=MSA(LN(F_t^i))$
- 其中， $F^1_s$ 表示逐元素求和运算的输出。 $F_t^i$ 表示TRB的输入。LN（·）和MSA（·）分别是层归一化操作和多头自注意操作。
然后， $F^1_s$ 被馈送到第二LN中，随后是多层感知，以及另一个逐元素求和运算，其被表达为 $F_t^0=MLP(LN(F_s^1))$
- 其中， $F_t^0$ 和MLP（·）分别表示TRB和多层感知操作的输出。
在已经分别由LFEB和GFEB提取局部和全局特征之后，对 $F^o_ l$ 和 $F^o_ g$ 进行加法运算以聚合所利用的特征，并且被描述为 $F_a=F^o_ l+F^o_ g$

由于所提出的TCCFusion是端到端融合框架，所以 $F_a$ 被馈送到解码器中以获得融合结果 $I_f$ ，其中利用了两个卷积层。第一层由3 × 3卷积、BN和ReLU组成。第二层由1 × 1卷积和tanh激活函数组成。

解释的很棒。q相当于问题，v相当于一组答案，k相当于该答案所对应问题的关键字，q和k计算相似度，用于给v赋权重，最终得到问题q所对应的合理答案。

GFEB是论文中提到的一个模块，全称为Global Feature Extraction Branch，即全局特征提取分支。它由三个Transformer块组成，旨在避免感受野的限制和建模长距离依赖关系。与LFEB（Local Feature Extraction Branch）并行排列，以更有效地利用局部和全局特征。GFEB的设计可以帮助TCCFusion方法更好地提取图像中的全局信息，从而提高融合图像的质量。

3.3. Loss function

由于红外和可见光图像融合缺乏ground truth，我们的TCCFusion以无监督的方式进行训练。因此，损失函数在影响融合性能方面起着关键作用。为了促进所提出的深度融合模型自适应地合并由于互相关的重要特征，我们创造性地提出了红外和可见光图像融合的互相关损失 $L_{cc}$ 。所提出的 $L_{cc}$ 被设计为强制融合图像表现出与输入图像的高互相关，其可以被定义为 $L_{cc}=NCC(I_f,max \lbrace I_{ir},I_{vis}\rbrace),\quad(9)$

其中，max {i}是逐元素的最大选择。 $NCC(I_a，I_b)$ 表示归一化互相关运算，其被描述为 $NCC(I_a，I_b)=1-\frac{\sum_i[I_a(x_i,y_i)-\bar{I_a}][I_b(x_i,y_i)-\bar{I_b}]}{\sqrt{\sum_i[I_a(x_i,y_i)-\bar{I_a}]^2 }\sqrt{[\sum_iI_b(x_i,y_i)-\bar{I_b}]^2}},\quad (10)$

其中， $I_z（z = a，b）$ 表示待测量的两个项目。 $\bar{I_z}$ 表示 $I_z$ 的平均强度。 $I_z(x_i，y_i)$ 表示 $I_z$ 在位置 $x_i，y_i）$ 中的像素值。

具体来说，公式10中分子部分表示两幅图像在同一位置上对应像素值之间的差异，分母部分则表示两幅图像在该位置上各自像素值的方差。其中， $I_a(x_i, y_i)$ 和 $I_b(x_i, y_i)$ 分别表示需要进行比较的两幅图像在位置 $x_i, y_i)$ 处的像素值； $\bar{I_a}$ 和 $\bar{I_b}$ 则分别表示这两幅图像所有像素值的平均强度值； $_i$ 表示对所有位置进行求和。通过计算公式10可以得到一个取值范围为[-1, 1]的归一化互相关系数。当NCC等于1时，说明两幅图像完全相同；当NCC等于-1时，则说明它们完全不同。

$L_{cc}$ 是基于交叉相关的损失函数，用于从输入图像中自适应地提取有意义的特征。然而，只有 $L_{cc}$ ，融合结果不能充分地保持来自红外和可见光图像的互补信息。考虑到这一点，我们设计像素损失 $L_p$ 以进一步驱动融合结果显示与源图像相似的像素分布，其公式为： $L_p=||I_f- max\lbrace{I_{ir},I_{vis}\rbrace}||_2 ,\quad(11)$

其中 $_2$ 表示欧氏距离

此外，融合结果有望具有丰富的场景细节。为此，设计结构损失以确保融合结果具有与输入图像的结构信息类似的结构信息，其可以被定义为 $L_S=SSIM(I_f,max\lbrace I_{ir},I_{vis}\rbrace),\quad(12)$

其中 $SSIM（I_a，I_b）$ 意指结构相似性测量，并且由下式计算： $SSIM（I_a，I_b）= 1-\frac {(2\mu_a\mu_b+C_1)(2\sigma_{ab}+C_2)} {(\mu_a^2+\mu_b^2+C_1)(\sigma_a^2+\sigma_b^2+C_2)}, \quad(13)$

其中 $μ_z（z = a，b）$ 表示 $I_z$ 的平均强度。 $σ_{ab}$ 是 $I_a$ 和 $I_b$ 的协方差。 $σ^2_z$ 表示 $I_z$ 的方差。C1和C2是常数。

最后，互相关损失、像素损失和结构损失的加权组合构成所提出的方法的整个目标函数，其可以表示为 $L_{cc} + β · L_p + γ · L_s ,\quad (14)$

其中α、β和γ是用于平衡整个目标函数的三个权重因子。

总之，我们提出的局部-全局并行网络可以从不同方面动态地维护来自源图像的补充信息，例如，像素信息、结构相似性和互相关，并以互相关损失、像素损失和结构损失为指导。因此，建议TCCFusion可以同时反映不同的对象和丰富的场景细节。

4.实验

4.1. Datasets and implementation details

在这项工作中，采用了两个主流数据库，即，TNO数据集和RoadScene数据集。我们收集了348个红外和可见光图像对作为训练集。为了获得足够的训练样本，使用广泛使用的数据增强，即裁剪和分解。具体地，每个图像被裁剪成具有120 × 120的补丁大小的补丁，并且重叠裁剪步幅为20。以这种方式，生成58708对图像块作为训练数据，并且所有这些块被归一化为[0，1]。另外，分别收集40和20个图像对作为测试集和验证集。

在训练过程中，使用Adam优化器。epoch固定为10，学习率为5e-4。batch size为64。为了避免融合过程中的灾难性信息丢失，填充操作被设置为所有3 × 3卷积层的“复制”，步长为1。通过这样做，不存在下采样操作，并且因此，融合图像和源图像的大小是一致的。损失函数中的α、β和γ分别为100、1和200，在第4.4.3节中进行了分析。N被指定为3。我们提出的TCCFusion是在PyTorch框架下进行的。所有实验均在配备有NVIDIA GeForce RTX 3090 GPU的计算机上实施。

4.2. Comparison algorithms and assessment indexes

采用了9种红外与可见光图像融合算法进行性能比较，其中包括两种传统的方法，GTF 和BF，以及七种基于DL的方法，即DenseFuse ，FusionGAN ，U2 Fusion ，GANMcC，RFN-Nes，SwinFuse 和YDTR 。这九种比较融合方法的所有源代码都是公开的，并且相应的参数是固定的，如其原始论文所建议的。

四个广泛采用的评估指标被部署用于全面定量评估，它们是基于归一化互信息的度量 $Q_{MI}$ 、基于Tsallis熵的度量 $Q_{TE}$ 、Chen-Varshney度量$Q_{CV} $和峰值信噪比（PSNR）。

4.3. Results and discussion

4.3.1. Results on TNO dataset

为了直观地说明基于互相关的局部-全局并行红外和可见光图像融合模型的有效性，图3.4.5中报告了TNO数据集上的三对红外和可见光图像以及由不同算法生成的它们对应的融合图像。
在这里插入图片描述
具体而言，基于GTF的方法不能很好地保留输入图像中的有用特征，导致目标不明显和不清晰的场景；基于SwinFuse的方法往往会产生不自然的结果；

基于FusionGAN的方法丢失了可见图像的一些有用的纹理细节，因此，场景是模糊的，例如图中的窗户

在这里插入图片描述

对于基于DenseFuse、基于U2 Fusion和基于RFN-Nest的算法，不能很好地保持红外图像中的显著对象。例如图中的人不能被检测；

基于GANMcC的方法在一定程度上缓解了模糊的结果，但表现出有限的详细信息。基于BF的方法不能很好地保留来自红外图像的热信息，导致目标不清晰。

基于YDTR的方法能很好地保留源图像的有用信息，但与所提出的方法相比，仍存在一定程度的纹理细节丢失问题

总体而言，建议TCCFusion总是表现出最好的视觉性能，同时保持丰富的场景细节和报告区分的目标。

表3中报告了四个度量的20个测试样品的客观评价结果。
在这里插入图片描述

注：winning times指的是每个方法在TNO数据集上获得最佳性能的次数。具体来说，每个方法在TNO数据集上进行了多次实验，而winning times记录了该方法在这些实验中获得最佳性能的次数。因此，winning times可以用来评估每种方法的稳定性和一致性。↑表示得分越高，融合性能越好，↓表示数值越低，融合性能越好。

我们提出的方法实现了最高的平均得分的 $Q _{T E}$ 和峰值信噪比，这表明我们的融合图像更接近源图像，并具有更高的融合质量。
此外， $Q_{CV}$ 上的最低平均分数表示我们的TCCFusion更符合HVS。
此外，该方法在 $Q_{MI}、Q_{TE}和Q_{CV}$ 上均具有最小的标准差和最高的获胜次数，表明TCCFusion能够稳定地产生良好的融合结果。

4.3.2. Results on RoadScene dataset
在这里插入图片描述
除了所提出的方法之外，场景细节（见左边的红框）都或多或少地模糊。例如，基于BF的方法倾向于将一些噪声引入到融合图像中九个参赛者，道路上的文字（见右边红框）全部消失。只有我们的TCCFusion保留了足够的纹理信息。
在这里插入图片描述

所提出的方法可以适度地从输入图像中提取互补特征而不引入不期望的噪声。相比之下，基于GTF的方法在同时提取热辐射信息和场景细节方面的能力有限，导致不明显的物体（参见左侧红框）和不清晰的斑马线（参见右侧红框）。基于FusionGAN的方法模糊了汽车（参见左侧红框）。基于GANMcC的方法稍微减轻了噪声结果，但仍然受到它的影响。基于DenseFusebased和RFN-Nest的方法过度利用了红外图像中的信息，从而丢失了一些重要的纹理细节。基于U2 Fusion的方法也经历了细节不足的麻烦。基于GANMcC的方法稍微减轻了噪声结果，但仍然受到它的影响。基于DenseFusebased和RFN-Nest的方法过度利用了红外图像中的信息，从而丢失了一些重要的纹理细节。基于U2 Fusion的方法也经历了细节不足的麻烦。基于SwinFusion和YDTR的方法丢失了一些场景细节
在这里插入图片描述
尽管TCCFusion报告了PSNR的次优平均分数，但差距很小

4.4. Ablation study

本篇论文进行了多组消融实验，以验证所提出的TCCFusion方法的有效性。以下是各组消融实验的具体内容：

消融实验一：分析不同分支对融合结果的影响。通过将LFEB和GFEB从TCCFusion方法中分别去除，比较其与完整模型在两个数据集上的性能差异。
消融实验二：分析不同损失函数对融合结果的影响。通过将交叉相关损失替换为其他常用损失函数，比较其与完整模型在两个数据集上的性能差异。
消融实验三：分析不同特征拼接方式对融合结果的影响。通过将MLP替换为其他特征拼接方式，比较其与完整模型在两个数据集上的性能差异。
消融实验四：分析不同Transformer块数量对融合结果的影响。通过改变GFEB中Transformer块数量，比较其与完整模型在两个数据集上的性能差异。

通过以上消融实验可以发现，在TCCFusion方法中，LFEB和GFEB都对提高图像质量有重要作用；交叉相关损失是一种有效且可靠的训练方法；MLP是一种有效的特征融合方式；增加GFEB中Transformer块数量可以进一步提高融合结果的质量。

4.4.1. Ablation study on network architecture

局部特征提取分支、全局特征提取分支和并行网络结构是该融合模型的三个关键要素。为了验证这三个组件的有效性，在验证集上进行消融实验。

毫不奇怪，LFEB或GFEB可以从我们的整个融合框架中敏捷地删除。因此，进行以下消融实验。为了证明GFEB的意义，两个消融实验实施。

a）LFEN。我们从完整的框架中移除GFEB。
B）LFEBCNN。GFEB由三个顺序卷积层代替。
为了研究LFEB的影响，我们进行了两个消融实验。
- c）GFEN。LFEB从整个架构中移除。
- d）CNN-GFEB。我们使用三个卷积层来代替LFEB。
为了验证我们提出的并行局部-全局网络的优越性，进行了三个消融实验。
- e）LFEB-LFEB。GFEB由LFEB代替，并且两个LFEB以并联方式布置。
- f）GFEB-GFEB。LFEB由GFEB代替，并且两个GFEB以平行方式布置。
- g）级联。LFEB和GFEB顺序级联。

图9显示了通过各种网络框架生成的一组红外和可见光图像对及其对应的融合图像。在这里插入图片描述
显然，当与完整的融合模型相比时，其他七个融合网络遭受某些伪影。具体地，由于缺乏全局特征提取能力，LFEN和LFEB-CNN遭受对比度失真，导致暗化融合结果。如果没有密集形网络，GFEN和CNN-GFEB往往是模糊的，导致信息丢失。

LFEB-LFEB、GFEB-GFEB和Cascade产生的模糊融合图像证明了所提出的局部-全局并行网络的重要性。总的来说，我们提出的TCCFusion实现了有利的融合结果。表5揭示了所提出的方法与各种框架的客观评价。很明显，所提出的TCCFusion在所有四个指标上具有最好的定量性能。

4.4.2. Ablation study on loss function

我们设计了一个互相关损失，以无监督的方式训练所提出的融合模型。为了探讨互相关损失的合理性，进行了消融研究。我们设α为0来验证 $L_{cc}$ 的必要性。为此，新的损失函数L被定义为 $L'=\beta·L_p+γ·L_s$
在这里插入图片描述
图10揭示了验证集上的一组源图像对以及在没有互相关损失和具有互相关损失的情况下生成的它们的对应融合结果。可以观察到，在没有 $L_{cc}$ 的情况下，一些意外的噪声被引入到融合结果中。因此，整个融合结果的对比度要低得多，并且一些细节模糊不清。相比之下，配备 $L_{cc}$ ，建议TCCFusion可以确保融合结果具有较高的相关性与源图像，实现有前途的融合结果，同时保留的红外图像的热辐射信息和可见光图像的场景细节。
在这里插入图片描述
在表6中示出了具有不同损失函数的所提出的方法的定量评估。显然，在没有 $L_{cc}$ 的情况下，所有四个度量的客观性能都降低。定性和定量的观察表明，建议的互相关损失的意义。

4.4.3. Ablation study on the weight parameters in loss function

在验证集上进行了大量的实验，以研究损失函数中的权重参数对融合性能的影响。考虑到这三个因素存在太多的组合，利用控制变量方法。具体地，为了调查一个折衷参数的影响，其他两个被设置为最佳值。

为了研究α对融合性能的影响，我们将β和γ分别设置为1和200。为此，α的范围为1至10000。表7示出了在损失函数中具有不同α得分的所提出的方法的定量评估。
最佳结果用粗体标记。显然，当α固定为100时，在所有四个度量上获得最佳评估结果。当增大或减小α时，目标性能降低。

为了探索β对融合图像的影响，α和γ分别被指定为100和200。β的范围为0.01至100。表8示出了在损失函数中具有不同β的情况下提出的方法的客观评估结果。

很明显，当β被设置为1时，所有四个指标都达到了它们的最佳性能。

为了验证γ对融合结果的影响，α和β分别固定为100和1。γ在2至20000的范围内。

显然，当γ被设置为200时，所有四个度量都达到最佳性能。

5.Conclusion

本文提出了一种基于Transformer和交叉相关的端到端红外和可见光图像融合方法，称为TCCFusion。我们设计了一个局部特征提取分支（LFEB）来利用局部互补信息，其中设计了一个密集形状网络来加强特征传播。此外，设计了一个由三个Transformer块组成的全局特征提取分支（GFEB），以避免感受野的限制和建模长程依赖性。此外，LFEB和GFEB以并行方式排列，以更有效地利用局部和全局特征。此外，为了确保融合结果与源图像具有高相关性，我们设计了一个交叉相关损失，以无监督的方式训练融合模型。在两个主流数据库上进行的广泛实验表明，我们提出的方法在主观和客观评估中优于其他最先进的方法。对网络框架和目标函数的消融研究说明了TCCFusion的有效性。该方法的局限性是在处理极端过曝样本时能力有限，这也是其他现有红外和可见光图像融合方法的缺点。具体而言，如图6所示，当红外图像中的人物过曝时，九种方法都无法准确保留热信息。一些方法，如GTF和FuaionGAN，倾向于过度保留目标，导致纹理细节的丢失，而其他方法则显示出有用信息的不足维护。尽管所提出的方法可以产生具有适当互补特征提取的融合图像，但仍无法实现绝对准确的融合。在未来，我们将注意提出一个更稳健的融合模型，以克服极端过度曝光样本的红外和可见光图像融合任务。