一.摘要
红外与可见光图像融合旨在通过整合和区分来自多个源的互补信息,生成一幅融合图像。虽然具有全局空间交互的跨注意力机制看似前景可期,但它仅能捕获二阶空间交互,忽略了空间和通道维度上的高阶交互。这一局限性阻碍了多模态之间协同效应的充分利用。为了弥补这一不足,我们引入了一种协同高阶交互范式(Synergistic High-order Interaction Paradigm,简称 SHIP),旨在系统性地研究红外与可见光图像在两个基本维度上的空间细粒度和全局统计协作:
- 空间维度:我们通过逐元素乘法构建空间细粒度交互,数学上等价于全局交互,然后通过迭代聚合和演化互补信息,培养高阶格式,从而提升效率和灵活性;
- 通道维度:在基于一阶统计(均值)的通道交互基础上,我们设计了高阶通道交互,以促进基于全局统计的源图像间相互依赖性的辨别。
利用高阶交互显著增强了我们模型挖掘多模态协同效应的能力,通过在多个基准测试上的全面实验,展示了相较于现有最先进方法的优越性能。代码可在 GitHub - zheng980629/SHIP 获取。
红外与可见光图像融合是计算机视觉中的关键任务,广泛应用于夜视、安防、目标检测等领域。红外图像提供热信息(对温度敏感),而可见光图像提供纹理和细节信息,两者的互补性使得融合图像能综合两者的优势。然而,融合的核心挑战在于如何有效整合这些互补信息,同时避免冗余或信息丢失。
现有的跨注意力 机制通过全局空间交互建模红外和可见光图像之间的关系,但存在以下局限:
- 仅捕获二阶交互:
机制通常基于点积或相似性计算,数学上等价于二阶统计(如协方差,记为
),无法建模更复杂的高阶关系(如三阶或更高阶的非线性依赖,记为
} 或更高阶矩)。
- 忽略通道维度的高阶交互:通道维度(对应特征图的深度,记为
)包含不同语义信息,现有的方法通常只考虑简单的均值统计(一阶统计,记为
),未能挖掘通道间的复杂依赖关系。
- 多模态协同不足:由于上述局限,模型难以充分挖掘红外和可见光图像之间的协同效应,导致融合图像的质量和鲁棒性受限。
提出的方法:SHIP(协同高阶交互范式)
SHIP 的核心创新在于通过引入高阶交互机制,系统性地解决上述问题,具体从空间和通道两个维度展开:
- 空间维度的高阶交互:
- 细粒度交互:通过逐元素乘法(
,记为
,其中
分别表示红外和可见光特征图在位置
的值构建空间细粒度交互。这种操作在数学上可以看作是对特征图的空间位置进行局部协同建模,等价于全局交互(如注意力机制中的全局点积,记为
)。
- 高阶格式:通过迭代聚合(
)和演化(
),将低阶交互逐步提升为高阶交互。。
- 优势:
- 高效性:逐元素乘法计算复杂度较低(记为
,其中
为特征图高宽),相比全局注意力机制(如
的
,其中
)更适合高分辨率图像。
- 灵活性:迭代方式允许模型动态调整交互的复杂度(例如通过
次迭代,复杂度为
),适应不同的任务需求。
- 增强互补信息:通过高阶交互,模型能够更好地挖掘红外和可见光图像在空间维度上的互补信息(如红外的热边界与可见光的纹理边缘)。
- 高效性:逐元素乘法计算复杂度较低(记为
- 细粒度交互:通过逐元素乘法(
- 通道维度的高阶交互:
- 从一阶到高阶:传统方法通常仅使用一阶统计(如通道均值,记为
)来建模通道间的关系。SHIP 扩展了这一点,通过引入高阶统计来捕获通道间的复杂依赖。
- 全局统计建模:高阶通道交互通过分析全局统计信息,增强模型对源图像间相互依赖性的理解。例如,红外图像的某些通道可能与可见光图像的纹理通道存在非线性关联,高阶统计能够更好地揭示这种关系。
- 优势:
- 语义增强:通道维度通常对应高级语义特征,高阶交互有助于模型在语义层面整合多模态信息。
- 鲁棒性:全局统计建模(例如基于
的通道交互)使得模型对噪声或模态缺失更具鲁棒性。
- 从一阶到高阶:传统方法通常仅使用一阶统计(如通道均值,记为
- 整体协同效应:
- SHIP 通过空间和通道维度的高阶交互,显著提升了多模态协同效应的挖掘能力。例如,空间高阶交互可以增强边缘和结构的融合,通道高阶交互则优化了语义信息的整合。
- 这种双维度协同设计使得模型能够同时关注低级特征(空间细节)和高级特征(通道语义),从而生成更高质量的融合图像。
二. Introduction
红外与可见光图像融合旨在将源图像的互补信息聚合同化并区分,生成融合图像,以提升其在后续任务中的适用性[8, 10, 18, 32, 48, 50, 75]。具体而言,可见光图像以其复杂的纹理细节和与人类视觉感知的一致性而著称。相比之下,红外图像擅长捕获关键的热辐射信息,能够在低光照环境中突出显示重要目标,如车辆和行人。因此,研究多模态之间的协同相关性以整合互补信息备受关注。近期,深度学习的显著进步[19, 21, 31, 35, 47, 54, 79, 81, 86, 87]在该领域引发了一场革命。一些方法通常首先预训练一个编码器-解码器用于特征提取和图像重建,随后应用特定的融合规则,如拼接[45]、加法[51]、加权求和[25]和最大值[88],以捕获源图像之间的相关性进行信息融合。此外,基于图像融合属性的损失函数设计,如基于显著性[39, 45, 62]和光照感知[56]的损失函数,为模型探索输入源中的互补信息提供了关键指导。与此同时,基于生成对抗网络(GAN)的方法[27, 30, 39, 42]通过将图像融合视为生成器与判别器之间的博弈,迫使生成器探索模态之间的互补信息。然而,如图1(a)所示,这些方法并未明确建立红外与可见光图像之间的协同相关性和相互依赖性学习。
T
ransformer[6, 20, 38]的出现,以其二阶空间交互[53](不同于键、查询和值的点积)为特征,挑战了卷积神经网络(CNN)的统治地位。YDTR[59]引入了动态Transformer模块,用于获取不同模态的局部特征和上下文信息。SwinFusion[46]开发了自注意力与跨注意力机制,建模并整合域内和域间特征的依赖性。PanFormer[84]设计了一个定制的Transformer,结合来自不同模态的两个值项,有效捕获它们的协作。然而,这些Transformer架构将交互限制在空间维度的二阶,忽视了空间和通道维度上高阶交互的未开发潜力。这种局限性导致对模态协同相关性的探索受限,
如图1(b)所示。基于上述分析,我们的目标是建模空间和通道维度的高阶交互,以全面探索红外与可见光模态之间的协同效应。遗憾的是,简单地在两个维度上级联自注意力操作只能捕获多个二阶交互,同时由于矩阵乘法带来了不可承受的计算负担。因此,如何在不引入大量计算开销的情况下将二阶交互扩展到任意阶是关键。本文提出了一种协同高阶交互范式(SHIP),提供了一种创新方法,通过高阶交互高效捕获多模态之间空间细粒度和全局统计的协同效应。具体而言,它涉及两个维度:
- 空间维度:我们利用频域通过逐元素乘法建立红外与可见光表示之间的空间细粒度相关性,这在数学上等价于昂贵的矩阵乘法,但计算效率更高。随后,我们迭代聚合互补信息并演化协同相关性,从而培养高阶空间交互,有效挖掘模态之间的协作。
- 通道维度:在SE模块基于一阶统计(均值)进行特征响应自适应重新校准的一阶通道交互基础上,我们将其提升为高阶格式。这种扩展使得基于源图像全局统计的协同相关性探索成为可能,深入洞察不同模态之间复杂相互依赖性的区分。
我们的贡献总结如下:
- 本研究提出了一种新颖的协同高阶交互范式(SHIP),探索红外与可见光图像融合中的复杂高阶交互。通过在空间和通道维度纳入高阶交互,SHIP 是一种开创性方法,研究模态之间的协同相关性。
- 该范式研究涉及空间细粒度和全局统计的高阶交互,协作聚合互补信息并区分源模态的相互依赖性。
- 我们在多个红外-可见光基准测试上的实验表明,所提出的框架优于最先进的方法。此外,我们还展示了其在全色锐化任务中的有效性。
三.Related Work
3.1. 红外与可见光图像融合
红外与可见光图像融合旨在生成一幅合成图像,有效突出源图像中的显著目标,同时保持视觉质量。为了使合成的融合结果更贴近人类视觉感知,引入了多种图像处理技术,包括离散小波变换[36]、拉普拉斯金字塔[49]、轮廓变换[74]、稀疏表示[37]、低秩表示[26]、主成分分析[9]和总变分[41]。然而,这些方法涉及融合规则和复杂的活动水平设计,限制了其在复杂场景中的适用性。近期,爆炸式的基于深度学习的方法[17, 28, 29, 33, 34, 58, 62, 70, 78, 80, 83]革新了图像融合,主要分为三类:基于自编码器(AE)的方法、基于卷积神经网络(CNN)的方法和基于生成对抗网络(GAN)的方法。基于AE的方法[25, 57, 65, 66, 76]通常使用预训练的自编码器进行特征提取和图像重建,强调网络架构和融合策略的设计。基于CNN的方法[40, 45, 45, 55, 56, 61]将这些组件整合在一个端到端的框架中。Zhang等人[72]开发了强度和梯度分支,以保留源图像的这些关键属性。此外,研究人员开发了基于图像融合属性的各种损失函数[40, 43, 45, 56],为网络训练提供了重要指导。例如,Ma等人[45]设计了一种融合损失函数,利用特定的目标掩码,允许选择性地融合目标和背景区域。然而,由于缺乏真实的融合图像作为参考,研究人员[27, 30, 42, 44, 82]尝试将GAN引入学习范式。他们利用判别器迫使生成器保留更多纹理细节并突出源图像中的显著目标。
3.2. 高阶交互建模
传统卷积操作无法固有地捕获特定位置与其邻域之间的空间交互。一种改进方法,称为动态卷积[2, 13, 22],通过生成适应输入的动态权重,引入了一阶空间交互。在Transformers[6]中,自注意力机制通过其核心组件——查询、键和值的内在矩阵乘法,促进了二阶空间交互。转向通道维度,Squeeze-and-Excitation模块[15, 63]利用一阶统计量(均值)重新校准通道响应。通常,这些改进仅关注捕获空间或通道维度中的交互,而非在两个维度上实现高阶交互。
融合目标:突出红外显著目标与可见光纹理,贴近视觉感知。传统方法依赖手工规则,适应性差。
深度学习方法
-
AE-based:预训练编码器(
),融合策略(
(
,
))。
-
CNN-based:端到端,强度/梯度分支(
),定制损失(
)。
-
GAN-based:博弈优化(
)。
高阶交互
-
空间:卷积(
)无交互;动态卷积(
)一阶;Transformer(
)二阶。
-
通道:SE模块(
)一阶,缺高阶(
)。
-
局限:低阶交互(
)限制协同性。
展望
-
空间高阶:频域(
),迭代(
),复杂度
.
-
通道高阶:统计(
),全连接(
)。
-
混合架构:
(
)+
(
)。
-
损失:协同损失(
)。
总结
需高效高阶交互(),突破低阶瓶颈(
),扩展多模态应用。
四.方法
4.1. 框架概述
如图2所示,所提出的范式运作如下: 给定红外图像
和可见光图像
,我们使用独立的卷积层为每个模态提取浅层特征,生成
和
。随后,这些模态感知特征经过一系列核心协同高阶交互范式(SHIP),涵盖空间和通道维度,探索两模态在空间细粒度细节和全局统计中的协同效应。最后,这些特征被投影回图像空间,生成融合结果
。融合过程特别针对
颜色空间中的
通道,遵循先前工作[24, 57]的方法。总之,该范式可表述为:
, (1) 其中
和
表示特征提取器,
表示 SHIP 的迭代次数。
由于论文写的看着太复杂,我这里简单写一下具体方法的流程:
提供
,
提供
和
,通过 FFT 模拟自注意力,生成初始
和
通过
和
迭代,生成高阶
,最终
.
通过
迭代为
.
和
通过 GAP 和权重
生成
.
和
多轮交互,优化最终特征。
4.2. 高阶空间交互
重温自注意力:自注意力机制是 [6] 的核心,促进了通过查询、键和值之间的矩阵乘法实现的二阶空间交互。这一过程使模型能够动态区分和聚合互补信息,以查询模态为基础。对于红外与可见光图像融合,查询
、键
和值
通过以下方式导出:
, (2) 其中
表示应用于投影模态感知特征表示的线性变换。自注意力机制通过这些组件之间的点积操作捕获以输入
为中心的二阶空间交互:
=
=
(3) 其中 表示键的维度,
表示点积操作,
是相关矩阵,
表示自注意力模块的输出,捕获关于输入特征
的二阶空间交互。然而,点积尽管有效,但计算成本高,使通过级联自注意力机制实现高阶操作变得不切实际。
等效高效形式:的每个元素可通过内积重新定义:
, 其中
表示内积。卷积定理指出,空间域中两个信号的相关或卷积等于它们在频域中的
乘积。为利用这一性质,我们将频域融入自注意力机制,将矩阵乘法简化为轻量级逐元素操作。最初,我们使用快速傅里叶变换(
)将模态感知特征
和
转换为频域。相关性计算如下:
, (4) 其中
和
表示
和逆
,
表示
乘积,
表示共轭转置操作。此外,具有二阶空间交互的集成特征通过以下方式获得:
, (5) 其中
表示对
应用层归一化。
深入高阶格式:近期方法[3, 4, 73]显示出对使用自注意力机制的强烈偏好。然而,这些方法通常在级联自注意力块中,倾向于生成以查询特征为中心的多个二阶交互,而不是实现更高阶建模。形式上, 个级联自注意力的递归格式可表达为:
,
(6)
其中 . 显然,这一过程仅捕获关于输入特征
的二阶交互,同时带来巨大计算成本。相比之下,基于等效高效形式,我们超越二阶交互,扩展到任意阶交互(
阶),同时保持效率。具体而言,对于每次第
次迭代,我们将公式 (5) 扩展为以下高阶公式:
其中. 这一公式使我们能够高效捕获高达
阶的交互。通常,对于具有
的传统
链,序列展开如下:
. (8)
相比之下,我们的高阶建模将其替换为: . (9)
这一修改使我们能在每次迭代中捕获高达阶的交互。如图3所示,每次空间高阶交互中的不同阶整合了不同粒度的互补信息。此外,不同迭代中的交互表现出区分性响应,丰富了整个迭代过程中的特征多样性。
(在不同空间高阶交互步骤后进行特征可视化。例如, 表示第2次空间高阶交互中第三阶交互后的特征。这些可视化从两个方面展示了高阶空间交互的有效性:(1) 在每次高阶交互中,随着阶数的增加,特征响应逐渐增强,突出显著目标;(2) 不同的高阶交互产生独特的响应,展示了特征表示的多样性。)
4.3. 高阶通道交互
重温 Squeeze-and-Excitation 模块:(
)模块[15]利用一阶全局统计量(均值)建模通道交互。这一方法使
模块能够显式捕获输入特征通道之间的相互依赖性。对于红外与可见光图像融合,
模块通过以下方式表达第
次高阶空间交互中红外与可见光特征之间的依赖性:
(10)
其中 表示一阶统计量,
表示
函数。
包括两个线性变换和一个
函数。
深入高阶格式:类似于高阶空间交互,我们扩展 模块以实现高阶通道交互:
,
,
(11) 最后,一个卷积层将
整合为融合模态,生成集成特征
. 通过
次迭代的
阶空间和通道交互,交互链可数学表达为:
. (12) 我们分析了通道维度上第2阶通道高阶交互的通道响应。与不同阶的一致响应相反,我们的高阶建模自适应区分源模态之间的相互依赖性,如图4所示。
4.4. 损失函数
损失函数包括强度和梯度项: , 其中
表示权衡参数。为强调来自可见光和红外图像的显著目标[30, 39],我们引入了基于显著性的强度损失,定义如下:
, (13)
其中 表示
范数。加权图
和
从可见光和红外图像中导出为
,
, 其中
是使用[11]中算法计算的显著性矩阵。为在融合结果中保留源图像的关键纹理细节,我们引入了梯度损失:
, (14)
其中 表示用于测量图像内纹理信息的梯度算子,
表示逐元素最大值操作。
高阶空间交互
-
传统局限:自注意力 (
) 仅二阶 (
, 复杂度
.
-
创新:频域
乘积 (
), 迭代高阶 (
), 复杂度
.
-
优势:高效、多粒度协同.
高阶通道交互
-
传统局限:
仅一阶 (
).
-
创新:递归高阶 (
), 交互链 (
).
-
优势:自适应语义整合.
损失函数
-
强度:
-
梯度:
-
综合:
总结
SHIP 突破二阶局限 (), 通过频域 (
) 和高阶统计 (
) 实现高效协同,适合多模态融合 (
).
五.实验
数据集与评估指标
为了评估我们提出的 SHIP 方法的有效性,我们在三个公开数据集上进行了全面实验:M3FD [30]、RoadScene [64] 和 TNO [60]。M3FD 数据集包含 4200 对红外和可见光图像,其中 3900 对用于训练,300 对用于官方测试。为了进一步评估我们方法的泛化能力,我们在 RoadScene 和 TNO 数据集上测试了在 M3FD 上训练的算法。由于后两个数据集没有预定义的划分,我们按照 [72] 的描述,从每个数据集中随机选取 25 对图像进行比较。高质量的融合图像应同时捕捉多模态图像中的显著目标和视觉质量。为了全面衡量融合结果,我们采用了六种评估指标,包括空间频率 (SF) [7]、互信息 (MI) [52]、视觉信息保真度 (VIF) [14]、平均梯度 (AG) [5]、Qabf [68] 和特征互信息 (FMI) [12]。这些指标的值越高,表明融合性能越优越。
实现细节
我们使用 PyTorch 在单块 NVIDIA GTX 3090 GPU 上实现了 SHIP。我们使用 Adam 优化器(β1 = 0.9,β2 = 0.99)更新模型,训练 30,000 次,批次大小为 8。初始学习率为 1 × 10⁻⁴,每 5000 次迭代降低 0.5 倍。图像块大小设置为 128 × 128。
与最先进方法的比较
我们将提出的 SHIP 方法与 9 种最先进的方法进行比较:DDcGAN [44]、DenseFuse [25]、AUIF [77]、DIDFuse [76]、ReCoNet [16]、SDNet [71]、TarDAL [30]、U2Fusion [64] 和 UMFusion [61],在三个数据集上进行评估。
定性比较
图 5 展示了来自不同数据集的三个典型图像对的定性结果。 与其他现有方法相比,我们的 SHIP 方法具有两个显著优势。首先,我们的算法在保留红外和可见光图像中的显著目标方面表现出色。如图 5 所示,我们的方法在行人和树枝的展示上具有高对比度和清晰轮廓,增强了视觉观察的适用性(见第一和第三个示例的红色标记区域)。此外,我们的融合结果生成了复杂的纹理,与人类视觉感知高度一致。相比之下,DenseFuse、SDNet 和 U2Fusion 无法有效突出显著目标,而 DDcGAN 和 ReCoNet 缺乏捕捉复杂纹理细节的能力。
定量比较
表 1 显示了我们的方法在三个数据集上的多种指标上的卓越表现。
优异的 MI 和 FMI 分数表明我们的模型能够有效利用两个源图像的信息,展示了其将丰富信息传递到融合结果中的能力。此外,我们在 SF、AG 和 Qabf 上的领先表现表明其整合多模态互补信息和保留复杂纹理细节的出色能力。这些成果有助于保留细粒度纹理,最终生成视觉上吸引且细节丰富的融合图像。此外,最高的 VIF 分数表明我们的融合结果具有高质量的视觉效果和较小的失真,满足人类视觉感知。这些结果共同强调了我们的 SHIP 在各种评估指标上的鲁棒性和泛化能力,证实了其在不同场景和数据集中的有效性。
消融实验
我们在 M3FD 数据集上进行消融实验,以进一步研究 SHIP 在不同阶数 N 和迭代次数 L 下的有效性。例如,L4N5 表示 SHIP 使用 4 次迭代和 5 阶空间与通道交互。
阶数 N 的影响
为了研究不同阶数的空间和通道交互的影响,我们对 SHIP 进行了实验,设置不同的阶数 N。如图 6 所示,随着阶段数量增加,性能显著提高,直到 N = 5。此后,性能趋于稳定,继续增加 N 仅带来轻微改进。为了在性能和计算成本之间取得平衡,我们将 N = 5 设为默认阶数。 此外,图 8 展示了 SHIP 在不同阶数下的特征响应可视化结果。这些可视化结果表明,高阶交互在揭示模态之间的协同相关性方面非常有效,从而突出了显著目标。
迭代次数 L 的影响
我们进行了 5 组实验(L1N5、L2N5、L3N5、L4N5 和 L5N5),以研究块数量对结果的影响。从图 7 的观察来看,随着块数量的增加,模型性能显著提高。然而,进一步增加 L 导致 SF 和 AG 指标呈下降趋势,可能是由于梯度传播的挑战。因此,我们在所有实验中将 L = 3 设为默认块数量。
全色锐化扩展
为了进一步证明 SHIP 在多模态图像融合任务中的有效性,我们将其扩展到全色和多光谱图像融合任务,即全色锐化。按照 [84] 的方法,我们在三个广泛使用的数据集上进行了大量实验:WorldView II、GaoFen2 和 WorldView III 数据集 [84]。
定量比较
表 2 展示了三个数据集上的评估指标,最佳和次佳值分别以粗体和下划线高亮显示。 我们提出的方法在所有卫星数据集上始终优于其他竞争技术。具体来说,我们的方法在 GaoFen2 数据集上比次佳的 INNformer 高出 0.105 dB。这些一致的表现突显了我们的 SHIP 实现的较低光谱失真和优越的空间纹理保留。
定性比较
图 9 通过可视化比较结果进一步证实了我们方法的有效性。最后一行显示了输出全色锐化结果与真实值之间的均方误差 (MSE) 残差。 相比之下,我们的模型表现出最小的空间和光谱失真。我们方法的出色性能凸显了所提出的协同高阶交互机制的有效性,该机制整合了互补信息并增强了结果的视觉质量。
六.结论
在本文中,我们率先探索了协同高阶交互范式(SHIP),以研究红外和可见光图像模态之间的协作,用于图像融合。我们的 SHIP 包括空间和通道两个维度。空间高阶交互逐步捕获红外和可见光模态之间的协同相关性,通过高阶建模有效整合空间细粒度互补信息。基于全局统计的通道高阶交互,研究并区分源模态之间的相互依赖关系。在多个红外和可见光图像融合基准上的广泛实验表明,我们提出的协同高阶交互范式具有优越性。