论文概略CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion
原文链接:https://arxiv.org/abs/2211.14461
代码:https://github.com/Zhaozixiang1228/MMIF-CDDFuse
总览
- 本文提出的CDDFuse在红外-可见光图像融合和医学图像融合等多种融合任务中取得了良好的效果。
一、Introduction
多模态图像融合(MMIF)的两个具有挑战性的子类别是红外可见图像融合(IVF)以及医学图像融合(MIF)。重点是对来自所有传感器的跨模态特征进行建模并将其聚合到输出图像中。现有利用基于CNN的特征提取和重建,以自动编码器(AE)的方式有三个主要缺点:
- CNN的内部工作机制难以控制和解释,导致交叉模态特征提取不足。
- 上下文无关的CNN只能提取相对较小的接受域中的局部信息,难以提取全局信息来生成高质量的融合图像。
- 融合网络的前向传播常常导致高频信息的丢失。
问题解决过程
- 作者假设在MMIF任务中,两个模态的输入特征在低频时是相关的,代表模态共享的信息,而高频特征是不相关的,代表各自模态的独特特征。因此,作者通过增加低频特征之间的相关性、减少高频特征之间的相关性来促进模态特定特征和模态共享特征的提取。
- 作者分别使用CNN与Transformer,以权衡模型效果与计算量,CNN专注于细节特征,由于Transformer的自注意力机制,其在全局关注和远程依赖建模方面更有优势。
- 引入可逆神经网络(INN):INN在设计上具有可逆性,通过输入和输出特征的相互生成来防止信息丢失。
主要贡献
- 提出了一种双分支Transformer-CNN框架,用于提取和融合全局和局部特征,从而更好地反映出独特的模态特定和模态共享特征。
- 第一个利用INN块进行无损信息传输和LT(Lite Transformer)块来权衡融合质量和计算成本。
- 提出了一个相关驱动的分解损失函数来执行模态共享/特定特征分解,使跨模态基特征相互关联,同时去相关不同模态的详细高频特征。
- CDDFuse在IVF和MIF中都取得了领先的图像融合性能,同时提出了一个统一的测量基准来证明IVF融合图像如何促进下游MM目标检测和语义分割任务。
二、Related Work
2.1 基于深度学习的MMIF
基于CNN的MMIF模型可分为四大类:
- 基于生成式对抗网络(GAN)的模型
- 基于AE的模型
- 统一模型
- 算法展开模型
2.2 Vision transformer and variants(视觉变形金刚及其变体)
Transformer,首先由Vaswani等人提出用于自然语言处理(NLP), Alexey等提出ViT用于计算机视觉。本文的CDDFuse模型使用了LT模块和Restormer模块。LT是Wu等人提出的一种用于移动NLP任务的轻量级结构,它通过长短距离注意和平面化前馈网络,在保持模型性能的同时,大大减少了参数的数量。Restormer通过gated-Dconv网络和多dconv头部注意转置模块改进了变压器块,促进了高分辨率图像的多尺度局部-全局表示学习。
2.3 Invertible neural networks(可逆神经网络)
可逆神经网络是归一化流模型的重要模块。它最早由NICE 提出,后来NICE中的加性耦合层被RealNVP中的耦合层所取代。随后,在Glow中使用1×1可逆卷积,可以生成逼真的高分辨率图像。INNs也被应用于分类任务中,以节省内存和提高主干的特征提取能力。
三、Method
CDDFuse包含四个模块
- 用于特征提取和分解的双分支编码器
- 用于重建原始图像(在训练阶段I)的解码器
- 用于生成融合图像(在训练阶段II)的解码器
- 用于融合不同频率特征的基/细节融合层
训练阶段一
Encoder
编码器由三个组成部分:基于Restormer块的共享特征编码器(SFE),基于Lite Transformer块的编码器(BTE)和基于可逆神经网络(INN)块的细节CNN编码器(DCE)。首先将原始输入红外图像I和可见光图像V分别输入到SFE中,分别得到I和V的浅层特征,这里用IS与VS表示。随后IS输入BTE块提取低频特征IB、输入DCE块提取高频特征ID;同理VS输入BTE块提取低频特征VB、输入DCE块提取高频特征VD。
Decoder
Decoder由Restormer组成。可见光图像的低频特征IB与高频特征ID输入Decoder后得到I帽(符号不会打),同理得到V帽。
训练阶段二
Encoder部分与阶段一相同,输入I、V后得到其高频和低频信息。随后将低频信息IB、VB融合得到ΦB;高频信息ID、VD融合得到ΦD。将ΦB、ΦD输入Decoder得到融合图像F。
LOSS
阶段一total loss为:
Lir为红外图像重构损失,Lvis为可见光图像重构损失,Ldecomp为特征分解损失。
阶段二total loss为:
像重构损失,Ldecomp为特征分解损失。
阶段二total loss为: