IJCV 2024 | 深度学习框架在无需严格配准的红外与可见光图像融合中的应用

最新推荐文章于 2025-04-22 09:30:00 发布

小白学视觉

最新推荐文章于 2025-04-22 09:30:00 发布

阅读量1.9k

点赞数 1

文章标签：深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247620848&idx=4&sn=ecee4125b285a8cf149218a8d46d661a&chksm=face545fd5c81c22547cd9b144c60a180941da6e8986ac54787fd3857531022532c1515a546e&scene=126&sessionid=0

版权

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration

深度学习框架在无需严格配准的红外与可见光图像融合中的应用

Huafeng Li; Junyu Liu; Yafei Zhang; Yu Liu

摘要

近年来，尽管在红外和可见光图像融合方面取得了显著进展，但现有方法通常假设源图像在图像融合之前已经经过了严格的配准或对齐。然而，红外和可见光图像的模态差异对自动实现严格对齐构成了巨大挑战，影响了后续融合过程的质量。为了解决这个问题，本文提出了一个用于未对齐红外和可见光图像融合的深度学习框架，旨在使融合算法摆脱严格配准的束缚。从技术上讲，我们设计了一个卷积神经网络（CNN）-Transformer分层交互嵌入（CTHIE）模块，它可以结合CNN和Transformer各自的优势，从源图像中提取特征。此外，通过表征未对齐源图像提取的特征之间的相关性，设计了一个动态重聚合特征表示（DRFR）模块，以基于自注意力的特征重聚合方案对齐特征。最后，为了有效利用网络不同层次的特征，引入了一个全感知前馈融合（FPFF）模块，通过多模态特征的交互传输进行特征融合，以重建融合图像。在合成和真实世界数据上的实验结果证明了所提出方法的有效性，验证了在没有严格配准的情况下直接融合红外和可见光图像的可行性。

关键词

红外和可见光图像融合，未对齐，卷积神经网络，Transformer

1 引言

红外传感器捕获物体的热辐射进行成像，在像浓雾和低照明这样的恶劣光照条件下，它们能有效地检测热目标。然而，由于空间细节的丢失，红外图像通常受视觉质量低下的困扰。相反，可见光传感器可以捕获丰富的空间细节，但对光照条件更为敏感。为了利用这两种传感器的互补性，引入了红外和可见光图像融合技术。它可以将两种模态传感器捕获的信息合成到单个图像中，为人类或机器感知提供更多信息。许多计算机视觉任务，如目标检测、面部识别和视频监控，都从这项技术中受益。随着图像处理和深度学习社区的快速发展，红外和可见光图像融合取得了巨大进展。具体来说，Liu等人首次将卷积神经网络（CNN）引入图像融合领域，开启了深度学习在图像融合中的应用。Ma等人将生成对抗网络（GAN）引入图像融合，并提出了一个称为FusionGAN的基于GAN的红外和可见光图像融合框架。随后，Xu等人和Ma等人提出了包括红外和可见光图像在内的多源图像融合的统一框架。Li等人提出了一种基于元学习的融合方法，可以融合任意不同分辨率的红外和可见光图像，打破了源图像应具有相同分辨率的常见约束。通过将图像融合与语义分割相结合，Tang等人提出了一种由高级视觉任务指导的红外和可见光图像融合技术。Xiao等人将红外和可见光图像融合和超分辨率整合到一个框架中，可以联合实现融合和超分辨率。尽管上述方法可以获得高质量的融合结果，但前提是源图像应该事先经过严格配准，否则它们的性能将严重下降。然而，在实际情况中，尽管源图像可以通过仔细调整红外和可见光传感器的安装位置在一定程度上对齐，但通过手动安装直接实现准确对齐实际上是不可能的。图像配准技术可以用来解决这个问题。然而，对于红外和可见光图像来说，由于模态特征的显著差异，自动实现准确的配准相当具有挑战性。因此，开发在非严格对齐情况下仍然有效的融合方法具有重要意义。图1提供了使用最新红外和可见光图像配准方法HAPCG对未精确对齐的源图像及其配准版本进行图像融合的示例。图1a和b显示了原始大致对齐的源图像，我们可以看到它们之间存在明显的不对齐。图1c和d显示了通过HAPCG方法获得的配准结果。可以看出，在这种情况下，配准结果并不是很准确，这实际上反映了当前自动红外和可见光图像配准方法的鲁棒性能的困难。图1e-g显示了使用原始大致对齐的源图像的不同方法获得的融合结果。可以观察到由于不对齐在这些融合图像中引起的明显伪影。图1i-k显示了使用配准源图像的这三种方法的融合结果。由于配准的不准确性，融合结果仍然受到严重伪影的影响，如放大所示。为了提高图像融合算法的可用性，本文专注于未严格配准的红外和可见光图像融合。考虑到自动实现准确配准结果的困难，一个有吸引力的解决方案是直接融合未精确对齐的图像，而不参与图像配准算法。尽管它具有实际意义，但在没有准确配准的情况下有效避免不对齐对融合结果的影响在这一过程中极其具有挑战性。为此，本文提出了一种有效的无需准确配准的红外和可见光图像融合方法。该方法的核心思想是将源图像特征的空间对齐嵌入到特征提取过程中，以克服不对齐问题。通过使特征提取网络根据源图像之间的潜在对应关系动态调整其过程，红外和可见光图像特征可以在特征提取过程中对齐。这样，图像融合算法不再受源图像准确配准的限制，这可以有效地促进图像融合在真实场景中的应用。图1h显示了使用原始大致对齐的源图像直接获得的融合结果。我们的方法可以有效地抑制不对齐的影响，并获得明显比其他融合方法更好的结果。具体来说，所提出的融合框架主要由三个模块组成：CNN-Transformer分层交互嵌入（CTHIE）模块，动态重聚合特征表示（DRFR）模块和全感知前馈融合（FPFF）模块。鉴于CNN在提取图像局部细节方面是有效的，而Transformer擅长表征特征之间的长距离相关性，我们设计了CTHIE模块进行特征提取，结合了CNN和Transformer的互补优势。DRFR模块旨在通过描述未对齐特征之间的相关性并通过受Transformer启发的自注意力机制重聚合特征，在我们的融合框架中动态对齐特征。FPFF模块通过不同抽象级别的交互传输融合对齐的多源特征，并重建融合图像。为了有效地训练网络，我们在训练阶段为注册图像引入了一个额外的特征提取分支。注册源图像的中间特征和最终融合结果被用作未对齐图像融合的监督。所提出方法的有效性在合成和真实世界数据集上得到了证明。本文的主要贡献总结如下：

我们考虑了一个更普遍和实际的红外和可见光图像融合问题，其中源图像未严格对齐。为此，我们提出了一个新的深度学习框架，用于未对齐的红外和可见光图像融合，通过将源图像特征的空间对齐嵌入到特征提取过程中。
为了更有效地从源图像中提取特征，我们设计了一个CNN-Transformer分层交互嵌入（CTHIE）模块，它可以结合CNN和Transformer各自的优势。
为了解决源图像的不对齐问题，我们提出了一个动态重聚合特征表示（DRFR）模块，通过表征未对齐特征之间的相关性并使用自注意力机制重聚合特征，在我们的融合框架中动态对齐特征。
为了保留源图像中包含的更多细节信息，我们引入了一个全感知前馈融合（FPFF）模块，通过不同级别的多模态特征的交互传输进行特征融合。

本文的其余部分组织如下。第2节介绍相关工作，包括红外和可见光图像融合和视觉Transformer。第3节详细描述了所提出的方法。实验结果和讨论在第4节给出。第5节得出结论。

2 相关工作

2.1 红外-可见光图像融合

红外和可见光图像融合是图像处理社区的一个重要话题。传统上，多尺度变换和稀疏表示是常用的方法。在过去的几年中，由于其在模式分类和识别中的卓越性能，深度学习已成为最受欢迎的方法。特别是，Li和Wu在编码过程中使用密集块，结合浅层和深层特征从源图像中提取更丰富的信息，称为DenseFuse。在FusionGAN之后，Ma等人通过增强框架来维护图像细节，并提出了DDcGAN以保护细节和边缘信息。此外，为了更好地保护源图像的边缘细节，Zhao等人使用不同的编码器分别从源图像中提取高频细节信息和低频信息。Li等人在网络的残差结构内提出了一个两阶段训练策略，同时使用细节保持损失函数和特征增强损失函数来确保融合结果中的适当细节和重要信息。Zhang和Ma提出了一个通用的挤压和分解网络，用于实时图像融合。最近，Xu等人、Wang等人、Tang等人和Xu等人尝试将配准纳入融合过程，旨在通过多任务方式同时实现配准和融合。尽管最近在这一领域取得了巨大进展，但大多数现有融合方法都遵循一个共同的假设，即要融合的源图像已经被严格配准。否则，它们的性能将严重下降，并在融合图像中引入严重的伪影。然而，由于模态特征的显著差异，为红外和可见光图像实现准确的配准非常困难，而配准不准确肯定会影响后续的融合性能。此外，逐步过程（即配准和融合）也可能对实际应用造成不便。在统一模型中实现配准和融合的方法可以解决上述问题。然而，多任务模型的训练通常比较复杂和繁琐。在本文中，我们尝试为未对齐的红外和可见光图像融合问题提供一种新的解决方案。源图像特征的对齐嵌入到特征提取过程中。通过这种方式，源图像可以直接融合而不需要严格配准，并且提出的融合模型中也没有显式的配准过程。

2.2 视觉Transformer

Transformer由Vaswani等人提出，用于机器翻译。由于它从全局层面提取特征并且可以有效地描述不同位置特征之间的相关性，因此吸引了研究者的注意。在2021年，研究者在将Transformer引入计算机视觉任务方面取得了巨大成功，开启了Transformer在图像处理、目标检测、语义分割、目标跟踪等多个计算机视觉任务中的应用。Dosovitskiy等人首次将Transformer引入图像分类任务，提出了视觉Transformer（ViT），为Transformer在计算机视觉任务中的应用提供了可行的技术解决方案。基于ViT，研究者提出了一系列ViT变体来提高其性能。特别是，Han等人通过将图像块划分为多个子块，并引入新的Transformer-in-Transformer结构，实现了图像块的全局建模和局部建模，缓解了ViTs对图像块缺乏局部建模能力的问题。Liu等人提出了分层Swin Transformer，采用移位窗口操作来解决Transformer中全局自注意力的大计算量问题。在图像融合领域，Vs等人提出了一种基于Transformer的红外和可见光图像融合方法。该方法使用Transformer的编码器提取图像特征，通过Spatial-Transformer获得融合特征，并最终通过Transformer的解码器重建融合图像。由于Transformer具有更强的建模长距离依赖的能力，因此适合提取全局图像特征。相比之下，CNN更适合提取局部图像特征，因为它通过卷积核提取图像特征，其感受野是有限的。同时，CNN擅长描述低级视觉特征，如图像结构和纹理，而Transformer更擅长阐述不同特征之间的相关性，并在视觉语义信息表示方面表现更好。为了整合它们的优势，如图2a所示，Carion等人提出在第一个Transformer层之前添加卷积（Conv）层。在图2b中，Wu等人提出在Transformer的局部标记的重塑特征图上进行卷积操作，并将不同Conv层通过的平坦化特征图视为Transformer多头自注意力中的Key、Query和Value。同样，Yuan等人提出在线性投影后对补丁标记进行空间恢复，并将恢复结果通过深度卷积，从而实现CNN和Transformer的联合特征提取。Srinivas等人用自注意力层替换了ResNet中最后三个3×3卷积层，以避免ResNet在提取全局特征方面的不足。尽管上述方法有效，但CNN和Transformer是交替串行操作的，即在Transformer（CNN）之后用CNN（Transformer）提取特征，依次整合它们的优势。此外，这些交替串行方法不能聚合由CNN和Transformer提取的特征，导致它们无法有效地综合语义和低级视觉特征。图2c将CNN特征和Transformer特征连接起来，并将它们输入到下一个Transformer层中以聚合特征。与上述方法不同，我们使用两个并行的特征提取分支CNN和Transformer，并在不同的网络级别上交互嵌入它们提取的特征，以整合它们的优势。与图2c所示的方案相比，我们的方法（如图2d所示）可以更有效地在不同的图像层次上整合语义和视觉特征。

3 提出的方法

3.1 概述

所提出方法的框架如图3所示，主要由三个模块组成：CTHIE、DRFR和FPFF。CTHIE模块分层交互地嵌入CNN和Transformer，整合了两种特征提取框架的优势。CTHIE网络有两个分支。图3中红点虚线框内的部分主要用于提取注册图像对的特征，而另一个主要用于提取未严格注册的图像对的特征。DRFR模块通过特征重聚合实现了未严格注册的图像特征的对齐。FPFF模块主要用于融合源图像的分层特征并重建融合图像。

3.2 CTHIE模块

如图3所示，CTHIE模块主要由CNN嵌入式Transformer块（CETB）和Conv层组成。在CTHIE模块前嵌入一个基于Conv层的特征提取块（FEB-CL），以获取多通道的特征图，为后续Transformer的特征提取提供便利。我们在CETB和Conv层的多个级别之间交互信息，并将由Conv层提取的特征输入到CETB，同时将由CETB提取的特征反馈到下一个Conv层。同时，不同级别的CETB和Conv层之间存在跳跃连接。具体来说，我们首先使用FEB-CL提取输入图像（, ）和（, ）的特征，以支持CETB和Conv层的后续特征提取。由FEB-CL输出的（, ）和（, ）的特征可以表示为

其中分别表示图3中红点虚线框内/外的FEB-CL的特征提取操作，, 表示输入图像是, 和。在本文中，FEB-CL由三个3×3卷积层和一个ReLU激活函数层组成。在CETB分支上，（, ），（, ）首先输入到Transformer层以挖掘和嵌入局部标记的相关性，得到特征（, ），（, ）：

其中和分别表示图3中CTHIE的上部和下部的Transformer层的特征提取操作。在这个过程中，我们不需要像ViT那样将输入源图像划分为小块以获得局部标记，而是通过FEB-CL获得多通道的特征图。同一位置不同通道上的特征向量组成了输入Transformer的局部标记。对于图3中下部CTHIE的CETB，其网络结构如图4所示。具体来说，它主要由层归一化（LN）、多头自注意力层（MSA）、特征交互块（FIB）和两个跳跃连接组成。对于第一个（即，i = 1）CETB，输入是和，其中是第一个Conv层的输出。请注意，有两个作为第一个CETB的输入：一个输入到第一个LN，另一个作为输入到FIB。对于第i个（i ≥ 2）CETB，设是第（i − 1）个CETB的输出，第一个跳跃连接后的输出表示为

其中表示由LN和MSA组成的特征提取器。为了整合CNN和Transformer的优势，我们在Transformer层内嵌入了FIB。如图4所示，FIB主要由特征连接、Conv层和跳跃连接组成。它的输入包，第（i − 1）个CETB的FIB输出特征和第i个卷积特征提取网络的输出特征。在第i个CETB中，FIB的输出特征可以表示为

其中是FIB的特征提取操作。第i个CETB的最终输出可以表示为

其中是由和组成的特征提取器。对于图3中上部CTHIE的CETB，其结构与下部相同。图3中使用的Conv层结构如图5所示。它由三个卷积和三个ReLU激活函数以及连接操作和1×1 Conv层组成。不同尺度的Conv层和ReLU是跳跃连接的。对于下部CTHIE的第一个（即，i = 1）Conv层，输入是，对于第i个（i ≥ 2）Conv层，输入特征是前一个Conv层和CETB的输出和的连接。经过第i个Conv层的结果是

其中f conv表示Conv层的特征提取操作。在CTHIE模块中，我们在不同级别上交互由CNN和Transformer提取的特征，有效地整合了Transformer和CNN在提取特征方面的各自优势，促进了特征对图像的表示能力。图3中上部CTHIE的Conv层的计算过程与下部相同。

3.3 DRFR模块

不引入配准操作，如何抑制由于源图像未严格对齐而在融合结果中引入的伪影是未严格对齐图像融合的关键。众所周知，Transformer中的注意力机制通过线性组合局部标记来获得类别标记。如果我们使用这个原理，红外图像中位置（x, y）处的特征向量可以被视为其邻域内（如图6所示）特征向量的线性组合，并且分配一个更大的权重给在可见图像中位于（x, y）处的红外图像特征向量，可以有效地减轻不对齐对融合结果的影响。基于上述考虑，我们开发了DRFR。它在局部区域内调节多头自注意力，可以根据不同输入源图像之间的潜在相关性动态调整注意力权重，使得每个通道上相同位置处由特征组成的特征向量可以动态地由局部区域内的特征向量表示，以减轻不对齐对融合结果的影响。本文提出的DRFR如图7所示。它主要由两个模块组成：特征调制和重聚合，其中特征调制主要基于输入的多源图像特征，生成可以描述源图像之间相应空间关系的参数，并使用这些参数调整CETB输出的未对齐红外图像特征，使其与CETB输出的可见图像特征对齐。如图7所示，在DRFR中，我们通过双分支关系预测网络来描述两幅图像特征之间的空间关系，该网络主要由两个小型CNN组成。一个分支产生缩放图像特征的参数γ，另一个用于产生平移图像特征的参数β。前者主要由Conv层、激活函数和跳跃连接组成，而后者主要由Conv层组成。获得调制参数（γ, β）后，它们可以用来调制CETB的输出特征，以进行后续的特征对齐。在DRFR中，我们假设是第i个CETB的输出。经过多尺度Conv层、连接和卷积操作的结果，表示为，其中H、W和C（C = 64在我们的方法中）分别代表特征图的高度、宽度和通道数。通过参数（γ, β）调制的特征可以表示为

其中⊙表示点积。由于（γ, β）中嵌入了潜在的空间相关性，因此可以根据（γ, β）调整由CETB输出的特征，为后续的红外图像和可见光图像特征对齐提供更大的控制空间。事实上，公式(7)利用了仿射变换理论，该理论在图像处理中广泛使用。在我们的方法中，我们使用这个理论来调制图像特征以进行对齐。如果没有公式(7)，对齐的性能将完全依赖于后续的全连接（FC）层，这对FC层的要求更高，不利于特征的对齐。通过参数（γ, β）调制的特征通过FC层传递，以生成调制多头注意力的参数，以对齐未对齐的红外和可见光图像特征。类似于Transformer中的多头自注意力，输入的未对齐红外图像特征通过卷积和线性投影分别生成Query ，Key和Value。在Transformer中，多头自注意力基于Query和Key 之间的可学习关联，然后进行归一化。多头自注意力的输出是的加权和，本文称之为重聚合特征表示：

其中，是头数，T表示的转置。本文解决未对齐源图像对融合结果影响的主要思想是通过控制每个特征向量在中的权重来重新聚合特征。具体来说，在将红外图像特征对齐到可见图像特征的过程中，我们希望与红外图像匹配的特征被赋予更大的权重，以便重聚合的特征与可见图像特征对齐。然而，红外图像特征相对于可见图像特征的空间位置偏移是相对的。在没有可见图像特征的情况下，通常很难从红外图像的特征中学习偏移信息。公式(8)中的自注意力仅与单个输入图像相关，因此不能用于动态调整特征聚合以实现源图像特征的对齐。由于经过参数调制（γ, β）的特征¯嵌入了两个源图像的信息，因此可以用来调节多头自注意力的参数并实现动态重聚合特征表示。如图7所示，重聚合特征表示可以表示为

其中FC(·)表示FC层，是经过注意力调制与可见图像特征对齐的特征。

3.4 FPFF模块

浅层特征通常包含更丰富的纹理和边缘细节，而深层特征包含更多高级语义信息。如果我们直接融合相应层次的图像特征，一些有用的信息在过程中将不可避免地丢失。为了避免这个问题，受到（Yi等人，2021）工作的启发，我们在特征融合方案中嵌入了一个全感知机制，通过CNN基特征调制网络后的交互式和前向机制在不同网络层次上实现特征整合。在这个过程中，特征调制网络主要用于在重建融合图像时增强弱边缘细节和纹理特征的作用。

具体来说，FPFF模块的架构如图8所示。对于第一个FEB，的输入是和，的输入是，，和。对于（i ≥ 2），它采用CETB输出的的（i = 2, 3, ..., n）和DRFR输出的（i = 2, 3, ..., n）作为输入。的输出结果可以计算为

其中表示对可见（红外）图像特征调制。（是对可见（红外）图像的输出。最后，的两个输出结果和连接在一起，并通过1 × 1卷积获得最终的融合结果。用于融合注册图像对的FPFF具有与融合未严格对齐图像对相同的结构。融合结果表示为。

3.5 损失函数

所提出的融合模型的训练包括两个主要阶段。在第一阶段，训练注册图像对（, ）（图3中红点虚线框内的部分）的融合。对于融合结果，我们希望中的像素从源图像和中重新组合，因此我们使用以下一致性损失来优化和融合网络：

其中∥·∥1是l1范数。在第二阶段，上述部分的参数被固定，并且获得的中间特征和融合结果被用作监督，以训练网络的其余部分进行未对齐图像的融合。损失函数包括以下三个项。

像素损失：对于未对齐的图像对和，我们使用以下像素损失来训练的特征提取网络，以实现和的一致融合质量：

梯度损失：为确保和具有相同的边缘和结构信息，我们采用以下梯度损失：

其中△是梯度算子。3. 感知损失：为确保和具有相似的视觉效果，我们使用以下感知损失来限制本文中的最终融合结果：

其中φ(•)表示预训练的VGG16提取的特征。

第二阶段使用的总损失可以表示为

其中λ和λ是用于调整和的超参数。

4 实验

4.1 数据集在基于深度学习的红外和可见光图像融合中，KAIST和FLIR 1是两个常用的数据集。KAIST包含95,000对红外和可见光图像，而FLIR包含14,452对。由于没有可用的数据集来训练我们的模型，本文从这两个数据集中随机选择6,000对，总共12,000张图像，作为注册后的训练集。至于构建具有未对齐的训练样本，我们随机地在这些6,000对的红外图像中水平和垂直移动4-12像素。此过程在图像内部发生，以避免平移后的图像超出图像边界。平移的红外图像与原始可见图像结合，形成未对齐的训练样本对。为了验证所提出方法的有效性，我们使用TNO和VOT2020-RGBT数据集中的40对红外和可见光图像，以及CVC-14中的10对图像作为测试样本。对于TNO和VOT2020-RGBT数据集中的测试样本（如图9所示），我们以与构建训练样本相同的方式构建未对齐的测试图像。CvC-14中的图像直接从真实场景收集，并且在像素级别上没有严格对齐。在我们的实验中，它们被用来验证所提出方法在从未严格对齐的图像上的有效性。

4.2 实施细节在训练期间，我们随机裁剪每对红外和可见光图像为140×140的图像块。在实验中，注册和未对齐图像的融合分支分别进行训练。前者总共训练10个周期，而后者训练42个周期。我们在整个训练过程中使用Adam优化器进行参数更新。批量大小设置为4，初始学习率设置为1 × 10^-4。当训练注册图像融合分支的网络时，在第3至7个周期内，学习率衰减，衰减率为0.5。当训练未对齐图像融合分支的网络时，在第4、8、15、25和35个周期内，学习率分别衰减，衰减率为0.5。本文中的方法在NVIDIA GTX 3090 GPU下使用PyTorch框架实现。

4.3 评估指标为了客观评估融合结果的质量，我们应用了六种常用的图像融合评估指标，包括交叉熵（QCE）、熵（QEN）)、基于梯度的融合性能（QAB/F）、Chen-Blum度量（QCB）、Chen-Varshney度量（QCV）和结构相似性指数度量（QSSIM）。QCE和QEN基于信息理论设计。QAB/F基于图像特征，较大的值表示更多的源图像边缘细节转移到了融合结果中。QCB根据人类视觉系统的特性设计，通过模拟人眼的视觉感知原理来评估融合结果。QSSIM通过测量融合结果和源图像之间的边缘相似性来评估融合质量。对于QEN、QAB/F、QCB和QSSIM，较高的值意味着更好的融合质量，而较低的QCE和QCV值表示更好的融合结果。

4.4 结果比较我们将所提出的方法与10种最先进的方法进行了比较，包括FusionGAN、DeepFuse、IFCNN、NestFuse、U2Fusion、RFN、SDNet、PMGI、LRRNet和DATFuse。本文的比较实验分为3组。在第一组实验中，我们直接使用不同的方法融合未对齐的源图像。为了进一步验证这种方法的优势，我们在第二组实验中先对未对齐的图像进行配准，然后使用上述比较方法进行融合。在第三组实验中，我们将不同的方法应用于真实世界的未对齐图像。直接融合未对齐图像的伪影性能比较：图10显示了第一组的融合结果。从局部放大区域可以看出，当直接使用比较方法融合未严格对齐的图像时，比较方法在结果中产生了明显的伪影。主要原因是这些方法设计用于严格对齐的源图像，一旦不满足这个条件，融合结果中就会出现伪影。相比之下，我们的方法在融合具有偏移的图像方面显示出明显的优势，并且融合结果中的伪影得到了有效抑制，这验证了所提出方法的有效性。表1显示了定量结果。在大多数客观评估指标上，所提出的方法实现了最佳性能。这进一步验证了所提出方法的有效性及其与比较方法的优越性。

4.5 消融研究

所提出的方法主要包括三个模块：CTHIE、DRFR和FPFF。为了验证它们的有效性，我们进行了一系列消融实验。

4.5.1 CTHIE模块的有效性在本文中，我们提出了CTHIE模块来综合CNN和Transformer的优势。为了验证这种设计的有效性，我们分别从完整框架中移除了两个Conv层分支和两个Transformer层分支。如图15所示，缺少Transformer层分支或Conv层分支，融合结果中的边缘细节信息出现模糊。此外，屋顶上的纹理结构信息也变得模糊。相比之下，完整模型获得的融合结果中的结构和纹理信息更清晰，表明本文提出的特征提取框架在保留图像边缘和纹理信息方面具有更强的优势。同时，从表4中的客观评估结果可以看出所提出特征提取框架的有效性。

4.5.2 DRFR模块的有效性 DRFR模块旨在解决源图像空间不对齐对融合结果的影响。该模块主要由特征调制和自注意力层组成。特征调制根据输入源图像特征之间的相关性调整自注意力层，使周围特征可以重新聚合，以描述当前位置的特征，解决未对齐源图像对融合结果的影响。图16a显示了从完整模型中移除该模块的结果。与完整模型在图16c中获得的结果相比，图16a中出现了明显的伪影，这表明DRFR模块具有强大的伪影抑制能力。此外，比较图16b和c中的结果，如果DRFR缺少特征调制来调制注意力权重，融合结果中也会出现伪影。这主要是因为没有特征调制，DRFR模块不能根据输入源图像中呈现的空间偏移调整注意力的权重值，导致特征重聚合的空间特征不对齐。表5中呈现的客观评估数据进一步验证了DRFR模块的有效性。

4.5.3 FPFF模块的有效性为了有效地综合源图像信息并重建高质量的融合图像，设计了FPFF模块。我们在这项实验中提出通过“Concat+1 × 1Conv”将最后一个CETB的可见图像特征和最后一个DRFR的红外图像特征传递，替换了FPFF模块。如图17a所示，通过“Concat+1 × 1Conv”获得的边缘细节不如FPFF（图17d）获得的边缘细节清晰。从图17b和c中可以看出，前向传输（FT）和特征交叉输入（FP）在提高融合结果的视觉质量方面并没有显示出明显的效果，但从表6中的客观评估结果可以看出，它们在提高融合质量方面都显示出了积极的效果。

4.6 超参数分析在这一部分中，我们研究了我们方法中的一些超参数对模型性能的影响。

λ对模型性能的影响：λ用于控制梯度损失。图18的第一行显示了λ在0.01到2之间变化时，λ = 1的融合结果。可以看出，随着λ的变化，融合结果的视觉质量并没有显著变化，但从图19中呈现的客观评估结果来看，当λ在0.01到2之间变化时，这些值发生了明显变化。基于不同评估指标的结果，当λ = 1时，融合性能达到最佳。因此，在本文中，我们将λ设置为1。

λ对模型性能的影响：λ主要用于控制感知损失。图18的第二行显示了在λ = 1时，不同λ值的融合结果。可以看出，随着λ的变化，融合结果的视觉效果并没有显著变化，这表明我们提出的方法对λ的变化具有一定的稳定性。图20显示了不同值下客观评估指标的变化。我们可以发现，当λ = 1时，大多数客观评估指标达到最佳。因此，在本文中，我们将λ设置为1。

CTHIE中CETB数量对模型性能的影响：在提出的方法中，我们使用多个CETB来实现CNN-Transformer分层交互嵌入。图21显示了使用不同数量的CETB对模型性能的影响。可以看出，当使用2个CETB时，融合结果的细节不如使用3个CETB获得的结果清晰。当CETB的数量增加到4个时，融合结果的细节显示出轻微的退化。同时，表7中的客观评估结果也暗示，使用3个CETB可以获得更好的融合结果。

4.7 讨论

尽管所提出的模型是通过在已注册图像上随机移动4-12像素的水平和垂直方向上获得的未对齐图像进行训练的，我们在第4.4节中的实验验证表明，训练好的模型在处理真实世界中具有轻微相对运动的未对齐图像时仍然有效。从我们的角度来看，原因在于局部小区域内的像素位移可以通过不同距离的水平和垂直像素移动来模拟。实际上，在真实世界场景中通常存在这种轻微的不对齐，例如：(1) 红外和可见光成像传感器采用手动放置；(2) 红外和可见光成像传感器的位置已经使用特定的模式进行了精确调整，但由于意外的外部力量而发生了轻微的移动。在上述情况下，提出的方法倾向于有效地融合未严格对齐的图像，而无需显式的配准过程。然而，值得注意的是，当变换模型不能很好地通过局部区域内像素的水平和垂直移动来模拟时，所提出的方法的性能将下降。

例如，当源图像之间存在大的像素偏移或需要可变形配准模型时，所提出的方法不能直接使用。实际上，这将是一个值得在未来进一步探索的有意义的方向。此外，我们使用称为Bisenet-v2的语义分割模型作为下游任务模型来研究融合结果的特征质量。采用t-SNE方法来可视化由我们提出的方法生成的融合结果的特征分布。为了更好的比较，还采用了一个基线模型，该模型通过从完整模型中移除CTHIE和DRFR来构建，也在这项测试中采用。相应的结果如图22所示，第一行显示了融合图像，第二行说明了t-SNE可视化结果。与基线模型获得的融合结果相比，我们可以看到，由所提出的方法生成的融合结果实现了更一致的语义特征分布，表明其在下游视觉任务中具有更高的潜力。

5 结论

为了打破图像融合算法对严格配准的束缚，本文提出了一种新颖的未对齐红外和可见光图像融合方法。所提出的方法不再需要严格配准的图像对作为输入，也不需要将图像配准显式嵌入到图像融合框架中。技术上，设计了一个CNN-Transformer分层交互嵌入（CTHIE）模块，用于从源图像中有效提取特征。此外，通过表征未对齐特征之间的相关性，并使用自注意力机制重聚合特征，我们提出了一个动态重聚合特征表示（DRFR）模块进行特征对齐。此外，我们引入了一个全感知前馈融合（FPFF）模块，通过多模态特征的交互传输进行有效的特征融合。在合成和真实世界未对齐图像数据集上的广泛实验证明了所提出方法的有效性。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~