CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion 文献阅读笔记

文章地址
代码地址

1.文章背景

可见光图像融合(IVF)和医学图像融合(MIF)是多模态图像融合(MMIF)的两个具有挑战性的子类别,现有的以自动编码器(AE)的方式利用基于CNN的特征提取和重建如下图所示,然而,现有方法存在三个主要缺点:

  1. CNN的内部工作机制难以控制和解释,导致跨模态特征的提取不足,例如,在图1a中,(I)和(II)中的共享编码器无法区分模态特定特征,而(III)中的私有编码器则忽视了模态之间共享的特征。
  2. 下文无关的CNN只能提取相对较小感受野范围内的局部信息,很难提取用于生成高质量融合图像所需的全局信息。
  3. 融合网络的前向传播往往导致高频信息的丢失

在这里插入图片描述
因此本文提出了一种新方法来解决上述的不足,具体为以下四个方面:

  1. 提出了一个用于提取和融合全局和局部特征的双分支Transformer-CNN框架,它更好地反映了不同的模态特定和模态共享特征。
  2. 利用INN块的无损信息传输和LT块的权衡融合质量和计算成本。
  3. 提出了一个相关性驱动的分解损失函数来执行模态共享/特定特征分解,这使得跨模态的基本特征相关的同时去关联不同模态中的详细高频特征。
  4. 我们的方法实现了领先的图像融合性能IVF和MIF。我们还提出了一个统一的测量基准,以证明IVF融合图像如何促进下游多模态对象检测和语义分割任务。

2.文章成果与重点

提出了一种用于多模态图像融合的双分支Transformer-CNN架构。借助Restormer、Lite Transformer和可逆神经网络(INN)模块,更好地提取了模态特定特征和模态共享特征,并通过提出的相关性驱动分解损失对模态特定特征和模态共享特征进行了更直观有效的分解。实验证明了CDDFuse的融合效果,并提高了下游多模态模式识别任务的准确率。

3.网络细节

文章的前提如下:

  • 在MMIF任务中,两种模态的输入特征在低频是相关的,代表模态共享信息,而高频特征是不相关的,代表各自模态的独特特征。
  • 从架构的角度来看,Vision Transformers 最近在计算机视觉方面取得了令人印象深刻的成果,具有自注意机制和全局特征提取。然而,基于Transformers的方法在计算上是昂贵的,这为考虑图像融合架构的效率-性能权衡而进一步改进留下了空间。因此,我们提出将CNN的局部上下文提取和计算效率的优势与Transformer的全局注意力长-距离依赖建模的优势相结合,完成MMIF任务。
  • 为了解决丢失所需高频输入信息的挑战,我们采用了可逆神经网络(INN)的构建块,可以在融合图像中保留高频信息。

CDDFuse包含四个模块,即用于特征提取和分解的双分支编码器,用于重建原始图像(在训练阶段I中)或生成融合图像(在训练阶段II中)的解码器,以及分别用于融合不同频率特征的基础/细节融合层。详细的工作流程如图所示。请注意,CDDFuse是一个通用的多模态图像融合网络,我们仅以IVF任务为例来解释CDDFuse的工作原理。
在这里插入图片描述

3.1 Share Feature Encoder(SFE)

该部分包括基于Restormer的共享特征编码器(SFE),基于Lite Transformer(LT)块的基本Transformer编码器(BTE)和基于可逆神经网络(INN)块的详细CNN编码器(DCE)。

3.1.1 Restormer

文章提出Restormer可以通过在特征维度上应用自关注来从高分辨率输入图像中提取全局特征。因此,它可以提取跨模态的浅层特征,而不会增加太多的计算。
在Restormer原论文中提出,Transformer可以捕捉远距离像素之间的交互关,但是计算量大,计算复杂度高,为了解决这个问题,Transformer将其切成几个patch,在这几个patch上分别计算self-attention,这又与而捕捉远距离像素关系矛盾。而Restormer能够对全局连接进行建模,并且仍然适用于大型图像,该模型可以处理用于恢复任务的高分辨率图像。
在这里插入图片描述

原论文中具体提出了两个模块:

  • Multi-Dconv Head Transposed Attention(MDTA)模块
  • Gated-Dconv Feed-Forward Network(GDFN)模块
3.1.1.1 MDTA

对于传统的Transformer,计算的开销主要在attention部分,qk点积后的值是呈现H2 W2 次增长的,因此提出了MDTA,结构如下图:
在这里插入图片描述
与Transformer不同的是,MDTA是先通过1X1的卷积升维,之后再采用DW卷积,所计算通道上的注意力,得到的注意力图示CxC的,而不是HWxHW。

3.1.1.2 GDFN

采用GDFN取代了Transformer中的FFN层,通过其中的门控机制(GELU),让网络层次中的后续层专门关注更精细的图像属性,从而产生高质量的输出。
在这里插入图片描述
与MDTA相比,GDFN 专注于用上下文信息丰富特性,即抑制信息量较小的特征,只允许有用的信息通过网络层次进一步传递。

3.2 Base Transformer Encoder(BTE)

BTE用于从共享特征中提取低频基本特征,为了提取长距离依赖特征,采用拥有空间自注意力的Transformer,综合考虑性能和效率后采用Lite Transformer(LT)块作为BTE的基础。
在LT原论文中,提到减少通道对于1-D不是最优的,会在FFN上花费大量计算成本,而FFN并不能提取特征,LT采用了Long-Short Range Attention(LSAR)克服了Transformer的计算瓶颈,提高了效率。
在这里插入图片描述
在LT原论文中给出了注意力权重可视化的图如下,可以看得出Transformer过于强调局部关系建模,而采用LSAR的注意力权重图示稀疏的,说明能够更好的捕获全局和局部上下文。
在这里插入图片描述
**LSRA 模块遵循两分支设计。左侧注意力分支采用普通的Transformer负责捕获全局上下文,右侧卷积分支采用的普通卷积建模局部上下文。研究者没有将整个输入馈送到两个分支,而是将其沿通道维度分为两部分,然后由后面的 FFN 层进行混合。**这种做法将整体计算量减少了 50%。

3.3 Detail CNN Encoder(DCE)

与BTE相反,DCE的作用是提取高频细节信息,因为边缘纹理等细节信息对于图像融合很重要,故采取的是Invertible Neural Networks(INN),INN通过使其输入和输出特征相互生成来更好地保留输入信息,可以被视为一个无损的特征提取模块
文章采用的是MobileNetV2中的Bottleneck Residual Block (BRB) 模块作为可逆层的映射。
在这里插入图片描述

3.4 Fusion layer

融合层的功能是分别融合基础/细节特征。式中的CC是融合中常用的指标correlation coefficient。

3.5 Decode

在解码器中,分解后的特征在通道维度上级联作为输入,而重构图像(训练阶段I)或融合图像(训练阶段II)则是解码器的输出,由于这里的输入涉及跨模态和多频特征,因此我们保持解码器结构与SFE的设计一致,即使用Restormer块作为解码器的基本单元。公式如下:
在这里插入图片描述

3.6 Two-stage training

MMIF任务的一个巨大挑战是,由于缺乏基础事实,高级监督学习方法是无效的。在这里,受RFN-Nest的启发,我们使用两阶段学习方案来训练我们的CDDFuse。
在RFN-Nest的原论文中,构建了双阶段的训练策略,在一阶段,训练的是Encoder-Decoder,目的是训练一个能够重构图像的自动编解码器,在二阶段,固定住自动编解码器参数,训练RFN(残差融合)模块。
在这里插入图片描述

在训练阶段I中,将成对的红外和可见光图像{IV}输入到SFE中以提取浅特征,然后分别采用基于LT块的BTE和基于INN的DCE提取两种不同模态的低频基本特征。然后将图像的基本特征和细节特征进行级联,并输入到解码器中,以重建原始图像。
在训练阶段II中,成对的红外和可见光图像{IV}被输入到一个几乎训练好的编码器中以获得分解特征。然后将分解的基本特征和细节特征分别输入到融合层中。最后,将融合后的特征输入解码器,得到融合图像。
一阶段为了重构原图(训练AE),二阶段为了融合(训练AE+融合层);Encoder和Decoder是继续训练的。
在这里插入图片描述

3.7 Training Loss

参考博客

4. 实验结果

使用八个度量标准来定量地衡量融合结果:熵(EN),标准差(SD),空间频率(SF),互信息(MI),差异相关性之和(SCD),视觉信息保真度(VIF),QAB/F和结构相似性指数测度(SSIM)。更高的度量指示融合图像更好。
在不同数据集上的表现

在这里插入图片描述
消融实验
在这里插入图片描述

  1. 特征分解损失损失由相除变为相减
  2. 去除特征分解损失
  3. BTE中的LT换为INN
  4. DCE中的INN换为LT
  5. DCE中的INN换为CNN
  6. 采用一阶段训练
  • 27
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值