CDDFuse:Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion
1.Introduction
现有方法存在问题:
1.CNN的内部工作机制难以控制和解释,导致跨模态特征提取不足。例如,在图1a中,(I)和(II)中的共享编码器无法区分模态特定的特征,而(III)中的私有编码器忽略模态共享的特征。
2.上下文无关的CNN仅在相对较小的感受野中提取局部信息,很难提取全局信息来生成高质量的融合图像。因此,目前尚不清楚 CNN 的归纳偏差是否足以提取所有模态的特征。
3。融合网络的前向传播常常导致高频信息的丢失。
2.Related Work
3.Method
在这一小结,首先介绍了CDDFuse的工作流程和每个模型详细的结构。为了简单起见,将低频远程特征表示为base feature,将高频局部特征表示为detail feature。
3.1.Overview
CDDFuse包括四个模块,是通用多模态图像融合网络。
双支编码器:特征提取和分解;
解码器:
stage1:重建原始图像
stage2:生成融合图像。base/detail融合层融合不同频率的特征
3.2.Encoder
该编码器具有三个组件:基于Restormer块[80]的共享特征编码器(SFE)、基于Lite Transformer(LT)块的base transformer编码器(BTE)和基于可逆神经网络(INN)块的 detail CNN编码器(DCE)。 BTE 和 DCE 一起构成长短程编码器。
共享特征编码器:SFE可以提取红外和可见光图像的浅层特征。
在SFE中选取Restormer模块的原因: Restormer 可以通过在特征维度上应用自注意力来从高分辨率输入图像中提取全局特征。因此,它可以提取跨模态浅层特征并且不用增加太多的计算量。
基础transformer编码器:BTE从共享特征中提取低频基础特征:
为了提取长距离依赖特征,我们使用具有空间自注意力的 Transformer。考虑到性能和计算效率的平衡,我们使用LT块作为BTE的基本单元。通过扁平化前馈网络的结构,扁平化了 Transformer 块的瓶颈,LT 块缩小了嵌入,以减少参数数量,同时保持相同的性能,满足我们的期望。
细节CNN编码器:DCE从共享特征中提取高频细节信息:
考虑到细节特征中的边缘和纹理信息对于图像融合任务非常重要,我们希望DCE中的CNN架构能够保留尽可能多的细节信息。 INN模块通过使其输入和输出特征相互生成,使得输入信息能够得到更好的保存。因此,它可以被视为无损特征提取模块,非常适合用在这里。因此,我们采用具有仿射耦合层的 INN 块。在每个可逆层中,变换为:
计算细节见图2(d)和补充材料。在每个可逆层中,Ii可以设置为任意映射,而不影响该可逆层中的无损信息传输。考虑到计算消耗和特征提取能力之间的权衡,我们在MobileNetV2中采用瓶颈残差块(BRB)块作为Ii。最后,用同样的方法,通过替换式(1)中的下标,可以得到ΦD I = ΦS I,K和ΦD V。 (4)从I到V
3.3.Fusion layer
基础/细节融合层的功能是分别融合基础/细节特征。考虑到基础/细节特征融合的归纳偏差应该类似于编码器中的基本/细节特征提取,我们对基本和细节融合层采用 LT 和 INN 块,其中:
3.4.Decoder
在解码器DC(·)中,分解后的特征在通道维度上级联作为输入,原始图像(训练阶段I)或融合图像(训练阶段II)是解码器的输出,其公式为:
由于这里的输入涉及跨模态和多频率特征,因此我们保持解码器结构与SFE的设计一致,即使用Restormer块作为解码器的基本单元。
3.5.Two-stage training
MMIF 任务的一大挑战是,由于缺乏ground truth,先进的监督学习方法是无效的。在这里,受[28]的启发,我们使用两阶段学习方案来端到端地训练我们的 CDDFuse。
Training stage I:在训练阶段 I,将成对的红外和可见光图像输入到 SFE 以提取浅层特征。然后采用基于 LT 块的 BTE 和基于 INN 的 DCE 分别提取两种不同模态的低频基本特征和高频细节特征 。之后,将红外(或可见光图像的基础特征和细节特征连接起来并输入到解码器中以重建原始红外图像 (或可见光图像)。
Training stage II:在训练阶段II,将成对的红外和可见光图像输入到几乎训练好的编码器中以获得分解特征。然后将分解后的基本特征和细节特征分别输入到融合层FB 和FD中。最后将融合特征输入到解码器中,得到融合图像F。
Training losses
其中Lir和Lvis是红外和可见光图像的重建损失,Ldecomp是特征分解损失,α1和α2是调整参数。重建损失主要保证图像所包含的信息在编码和解码过程中不丢失,即:
此外,我们提出的特征分解损失 Ldecomp 为:
这个损失项的动机是,根据我们的 MMIF 假设,分解后的特征 {ΦB I , ΦB V } 将包含更多模态共享信息,例如背景和大规模环境,因此它们通常是高度相关的。相反,{ΦD I , ΦD V } 表示 V 中的纹理和细节信息以及 I 中的热辐射以及清晰的边缘信息,这是特定于模态的。因此,特征图的相关性较低。根据经验,在梯度下降法的 Ldecomp 指导下,LD CC逐渐接近0并且LB CC变大,这满足了我们对特征分解的直觉。分解效果可视化如图5所示。
随后在训练第二阶段,受[56]启发,总损失变为:
4.Infrared and visible image fusion
定性比较:显然,我们的方法更好地整合了红外图像中的热辐射信息和可见图像中的详细纹理。黑暗区域中的物体被清晰地突出显示,以便可以轻松地区分前景目标和背景。此外,由于低照度而难以识别的背景细节具有清晰的边缘和丰富的轮廓信息,有助于我们更好地理解场景。
定量比较:采用八个指标对上述结果进行定量比较。我们的方法在几乎所有指标上都具有出色的性能,证明我们的方法适用于各种照明和目标类别。
特征分解的可视化:显然,基础特征组中更多的背景信息被激活,并且激活的区域也具有相关性。在细节特征组中,红外特征反而更关注物体高亮,而可见特征更关注细节和纹理,表明模态特定特征被很好地提取。可视化与我们的分析一致。
消融实验:
定性和定量结果如图 6 和表 1 所示。 5. CDDFuse 可以保留详细纹理并突出结构信息,并且无论是否在 MIF 数据集上进行训练,在几乎所有指标上都实现了领先的性能。
5.Medical image fusion
6.Conclusion
1.提出了一种用于多模态图像融合的双分支 TransformerCNN 架构。
2.借助Restormer、Lite Transformer和可逆神经网络块,可以更好地提取模态特定和共享特征,
3.提出的相关性驱动分解损失对它们的分解更加直观和有效。
4.实验证明了我们的CDDFuse的融合效果,下游多模态模式识别任务的准确性也得到了提高。