这篇文章提出了一种名为 FusionMamba 的多模态图像融合方法,旨在解决传统卷积神经网络(CNN)和Transformer模型在图像融合中的局限性。主要内容如下:
-
背景与动机:
-
多模态图像融合旨在结合不同模态的信息,生成包含全面信息和详细纹理的图像。
-
现有方法(如CNN和Transformer)在全局特征建模和计算效率上存在不足,CNN难以捕捉全局信息,Transformer则因二次复杂度导致计算开销大。
-
-
方法概述:
-
提出了 FusionMamba,结合了 Mamba 模型的长程依赖建模能力和动态特征增强机制。
-
设计了 动态视觉状态空间模块(DVSS),通过动态卷积和通道注意力机制,增强局部特征提取并减少通道冗余。
-
提出了 动态特征融合模块(DFFM),包括两个动态特征增强模块(DFEM)和一个跨模态融合Mamba模块(CMFM),用于动态增强纹理细节和模态间的差异感知。
-
-
实验与结果:
-
在多个多模态图像融合任务(如CT-MRI、PET-MRI、SPECT-MRI、红外与可见光融合、GFP-PC融合)中,FusionMamba 在多个评估指标上表现优异,超越了现有的最先进方法。
-
通过消融实验验证了各模块的有效性,证明了FusionMamba在全局建模、局部特征提取和模态间信息融合方面的优势。
-
-
结论:
-
FusionMamba 在多模态图像融合任务中展示了卓越的性能,具有良好的泛化能力。
-
未来工作将探索其在实时场景和资源受限设备上的应用,并扩展到更多数据集和方法的对比评估。
-
FusionMamba 通过结合 Mamba 模型的长程依赖建模能力和动态特征增强机制,有效解决了多模态图像融合中的全局特征建模和计算效率问题,并在多个任务中取得了最先进的性能。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里,如下所示:
摘要
多模态图像融合旨在将来自不同模态的信息结合起来,生成一幅包含全面信息和详细纹理的图像。然而,基于卷积神经网络的融合模型由于其局部卷积操作的局限性,难以捕捉全局图像特征。基于Transformer的模型虽然在全局特征建模方面表现出色,但由于其二次复杂度,计算效率较低。最近,选择性结构状态空间模型(Selective Structured State Space Model)在长程依赖建模方面表现出显著潜力,具有线性复杂度,为解决上述问题提供了有前景的途径。在本文中,我们提出了FusionLambda,一种基于Mamba的多模态图像融合动态特征增强方法。具体来说,我们设计了一种改进的高效Mamba模型用于图像融合,结合了高效的视觉状态空间模型与动态卷积和通道注意力机制。该改进模型不仅保持了Mamba的性能和全局建模能力,还减少了通道冗余并增强了局部增强能力。此外,我们设计了一个动态特征融合模块(DFFM),包括两个动态特征增强模块(DFEM)和一个跨模态融合Mamba模块(CMFM)。前者用于动态纹理增强和动态差异感知,而后者增强了模态之间的相关特征并抑制了冗余的跨模态信息。FusionLambda在多种多模态医学图像融合任务(CT-MRI、PET-MRI、SPECT-MRI)、红外与可见光图像融合任务(IR-VIS)以及多模态生物医学图像融合数据集(GFP-PC)上取得了最先进的(SOTA)性能,证明了我们模型的泛化能力。
CCS概念:• 计算方法学 → 图像融合。
多模态,图像融合,特征增强,Mamba
1 引言
不同的传感器捕捉独特的数据视角。红外传感器擅长捕捉热辐射,可见光传感器擅长捕捉详细纹理数据[36]。医学成像中的MRI和CT提供了结构信息[39],而PET提供了功能数据[7]。由于硬件限制,单个传感器无法捕捉完整的图像复杂性[13]。图像融合通过整合源图像来创建信息丰富的图像。红外-可见光和医学图像融合是重要的子类别[23],有助于诊断并增强图像[36]。融合解决了敏感性和噪声问题,支持实际应用[32, 33, 34]。
图1展示了多模态图像融合的定性和定量结果。(a) 第二行显示了经典U2Fusion [30]与我们的FusionMamba的定性可视化对比,第一行的子图是源图像对。(b) 定量结果表明FusionMamba在各种数据集和指标上的有效性优于其他方法。
近年来,深度学习在多模态图像融合中的应用显著增加,主要采用卷积神经网络(CNNs)[10, 30, 31, 37]和Transformer架构[15, 24, 25, 27, 29]进行特征提取和重建。然而,这些模型面临局限性。具体来说,这些融合方法中使用的静态卷积层对整个图像进行均匀遍历,限制了其捕捉全局上下文信息的能力,因为其感受野有限[15]。此外,静态卷积层对每个像素的无差别处理忽略了不同位置的空间差异。鉴于图像融合任务需要处理多样化的输入数据,当前基于卷积的技术难以从不同模态中有效提取特征,导致融合性能下降。基于Transformer的模型在全局建模方面表现出色,但由于其自注意力机制的二次复杂度,计算开销较大[26]。此外,Transformer在捕捉局部特征方面的精度低于CNN。尽管某些融合模型[15, 27, 29, 38]采用混合方法,将卷积层和Transformer层结合起来,以利用各自的优势并缓解其弱点,但计算开销仍然是一个重要问题。
图像融合是一种重要的图像增强技术[15]。方法通常采用三种主要的特征融合策略。首先,一些方法使用逐元素操作(如加法、乘法或拼接)[11, 37]来合并不同模态的特征。然而,这些方法忽略了模态间的关系,导致融合性能下降。其次,有一些方法专注于更深层次的特征提取[27, 29],但它们仍然缺乏有效的模态间交互和纹理细节的强调。最后,特定技术利用跨模态融合[15],包括基于卷积和基于Transformer的方法,这些方法部分解决了特征交互问题,但仍有其局限性。总的来说,当代融合方法难以最优地利用模态特征并突出关键信息,表明需要改进模态连接并强调关键图像细节。
Mamba[3]的进展为在全局感受野和计算效率之间取得平衡提供了有前景的途径。通过将Mamba的离散状态空间方程形式化为递归形式,并结合专门设计的结构化重参数化[6],它能够模拟非常长程的依赖关系。此外,并行扫描算法的实现[22]使Mamba能够并行处理每个token,从而在现代硬件(如GPU)上实现高效训练[18]。这些令人鼓舞的特性激励我们进一步探索Mamba在图像融合网络中高效长程建模的潜力。
针对上述问题,我们的研究设计了一种新的基于Mamba的动态特征增强模型,用于多模态图像融合,旨在更好地探索模态内和模态间特征,同时动态增强源图像的细节纹理信息和每个模态的特定信息。具体来说,对于网络的特征提取和重建部分,我们设计了一个适合融合任务的Mamba模型,通过结合视觉状态空间模型与动态卷积和通道注意力机制,不仅保持了Mamba的性能和全局建模能力,还减少了通道冗余并增强了局部特征提取能力。
对于特征融合部分,我们设计了一个动态特征融合模块,包括动态特征增强模块和跨模态融合Mamba模块。与之前的特征融合方法不同,该融合模块动态增强了源图像的细节纹理信息和差异信息,并促进了模态之间的更好信息交互。动态特征增强模块(DFEM)由动态差异卷积和动态差异感知注意力组成,用于自适应特征增强。DFEM模块通过建立不同模态输入特征之间的连接,动态增强关键信息。我们设计了一个跨模态融合Mamba模块,以有效挖掘模态之间的相关信息。我们的网络架构采用Unet[21]的多层结构,实现了一个高效且通用的图像融合框架。实验结果表明,我们提出的方法在多个多模态基准数据集上的各种评估指标上优于最先进的(SOTA)图像融合方法,包括IR-VIS融合、CT-MRI融合、PET-MRI融合、SPECT-MRI融合和GFP-PC融合。
总之,我们的贡献包括:
-
我们设计了一种新颖的动态特征增强Mamba图像融合模型,这是第一个改进的状态空间模型用于图像融合,提供了一种简单而有效的替代方法,取代了基于CNN和Transformer的方法。
-
我们提出了动态视觉状态空间(DVSS)块,通过动态增强局部特征和减少通道冗余,提高了标准Mamba模型的效率。这种增强增强了其建模和特征提取能力。
-
特征融合模块从源图像中提取关键信息,并探索不同模态之间的关系。它包括一个动态特征增强模块,用于增强精细的纹理特征和感知差异特征,以及一个跨模态融合Mamba模块,用于有效探索模态间的相关性。
-
我们开发了一个高效且通用的图像融合框架,在各种图像融合任务中取得了领先性能,包括红外与可见光融合、多模态医学图像融合和生物医学图像融合。
2 相关工作
深度多模态图像融合
图像融合作为一种关键的图像增强技术,近年来受到了广泛关注[15]。在深度学习时代,主要的图像融合方法可以分为四类:卷积神经网络(CNN)模型[30, 31, 37]、生成对抗网络(GAN)模型[16, 17]、基于自动编码器(AE)的模型[10, 11, 12, 20]和基于Transformer架构的模型[15, 24, 27, 29, 38]。这些方法通常采用简单的融合规则,如元素加法、平均或乘法[37]。虽然这些卷积方法可以取得令人满意的融合结果,但由于其固有的卷积限制,它们在提取全局特征方面的能力有限[27]。Ma等人[17]引入了一种端到端的GAN模型,名为FusionGAN,其中源图像被输入生成网络,融合结果由判别器网络生成。随后,他们提出了一种双判别器条件生成对抗网络(DDcGAN)[16],该网络使用两个判别器来区分融合图像与两个源图像之间的结构差异。虽然GAN表现出强大的性能,但其训练过程可能不稳定,导致潜在的纹理失真和难以实现稳定的融合结果,因为需要使用双判别器平衡多源图像。基于自动编码器(AE)的模型需要一个融合规则来整合编码器提取的特征,并从解码器生成融合结果。例如,RFN-Nest[12]引入了一种两阶段学习策略和一种可定制的融合方法。此外,研究人员探索了基于Transformer的方法,IFT[27]和CDDFuse[38]有效地将CNN与Transformer架构结合起来。SwinFusion[15]利用SwinTransformer独特的滑动窗口注意力机制来解决卷积融合方法的局限性。
Mamba
图2展示了框架的概述。FusionMamba网络接收两幅不同模式的图像作为输入。这些图像通过融合模块进行多层特征提取和动态特征增强融合,最终生成包含差异和纹理增强的融合特征。最后,模块重建出融合结果。
Mamba在自然语言任务中取得了显著进展,超越了传统的Transformer,凭借其数据依赖机制、高效的硬件和卓越的语言处理能力。除了语言任务外,Mamba还成功应用于视觉任务,如图像分类、视频理解和生物医学图像分割。这一成功引发了一波研究浪潮,专注于将基于Mamba的模型适应于专门的视觉应用,包括Vin-unet[22]等医学图像分割的适应。此外,Mamba已集成到图表示任务中,通过模型增强图嵌入和处理能力。Mamba的多功能性和高效性使其成为从语言处理到计算机视觉表示任务的广泛应用的引人注目的选择[18, 6]。
3 方法论
动机
本文的动机在于解决多模态图像融合领域中的常见问题和挑战。近年来,随着深度学习方法在图像特征提取方面的强大能力得到认可,许多融合算法应运而生。然而,当前主流的卷积神经网络(CNNs)[30, 31, 37]和Transformer模型[29, 15, 27]在图像融合方面存在固有的局限性,促使我们深入研究和设计一种新的动态特征增强模型,以应对这些挑战和问题。
一方面,当前的融合方法主要使用静态卷积层进行特征提取和重建,这些方法在捕捉细微的空间差异和全局上下文信息方面存在局限性[5]。另一方面,Transformer模型在全局建模方面表现出色,但由于自注意力机制的图像尺寸二次复杂度,计算效率受到限制[22]。此外,它们在捕捉局部特征方面的精度低于CNN。此外,现有的融合方法在特征融合方面也存在不足,无法有效提取不同模态的特征,导致融合性能下降。
因此,我们的动机是设计一种新的动态特征增强模型,结合Mamba模型在全局感受野和计算效率方面的优势,以及动态特征增强和跨模态融合策略。目标是更好地探索多模态图像融合中的内部特征和模态间关系,提高融合性能,并克服当前方法的局限性。
概述
我们的FusionMamba在一般的融合过程中包括三个关键组件:特征提取、特征融合和特征重建。网络架构基于Unet框架,以有效提取深层特征。如图2(a)所示,特征提取和重建阶段都使用了设计的动态视觉状态空间(DVSS)模块。特征融合阶段采用动态特征融合模块(DFFM,如图3所示)。动态增强融合模块的每一层包含两个动态特征增强模块(DFEM)和一个跨模态融合Mamba模块(CMFM)。因此,在本节中,我们重点介绍设计的动态视觉状态空间模块、动态特征增强模块和跨模态融合Mamba模块。
动态视觉状态空间模块
我们提出了动态视觉状态空间(DVSS)模块,作为SSM块的修改,用于图像融合处理。在图2(b)中,从输入深度特征开始,我们首先应用LayerNorm(LN),然后通过高效状态空间模块(ESSM)[18]捕捉空间长期依赖关系。
由于SSMs将展平的特征图作为1D token序列处理,选择的展平策略显著影响序列中相邻像素的数量。例如,当使用四向展开策略时,锚点像素只能访问四个最近的邻居。特别地,高效2D扫描(ES2D,如图2(e)所示)[18]通过跳跃采样有效地缩小了2D选择性扫描(SS2D),并结合处理后的patch进行全局特征提取。因此,2D特征图中的一些空间上接近的像素在1D token序列中变得彼此远离,可能导致局部像素遗忘。为了解决这个问题,我们在ES2D[18]之后引入了一个额外的动态局部卷积,以恢复邻域相似性。可学习的描述性卷积(LDC,如图2(f)所示)有效地学习复杂的纹理特征,非常适合在此使用。我们使用LayerNorm进行归一化,然后使用可学习的描述性卷积(LDC)[7]来补偿局部特征。
此外,SSMs通常引入更多的隐藏状态以记住长程依赖关系,导致在不同通道的可视化激活结果中出现显著的通道冗余[14]。为了增强不同通道的表达能力,我们将高效通道注意力(ECA,如图2(g)所示)[28]集成到DVSS中。这使得SSMs能够专注于学习不同的通道表示,随后的通道注意力选择关键通道以防止冗余。DVSS的公式如下:
动态特征增强模块
图4:动态特征增强模块(DFEM)。
图3:动态特征融合模块(DFFM)。
跨模态融合Mamba模块
这些混合增强特征随后输入到高效空间扫描2D(ES2D)[7]层,以捕捉空间长期依赖关系。
损失函数
4 实验
设置
4.1.1 数据集
我们选择KAIST[8]数据集来训练我们的FusionMamba。在该数据集中,选择了70000对红外和可见光图像进行训练。这些图像也被转换为灰度图像并调整为256×256。我们使用哈佛医学数据集1作为独立的训练和测试数据集。该数据集包含166对CT-MRI图像、329对PET-MRI图像和539对SPECT-MRI图像。图像大小为256×256。我们通过图像旋转将图像对增强到30000对,以提高模型并帮助对抗潜在的过拟合。随机选择了21对测试图像来评估模型。John Innes Centre[9]发布的基于GFP的数据库用于我们的实验。该数据库包含148对预注册的GFP和PC图像,大小为358 x 358像素。我们通过图像旋转将图像对增强到30000对。随机选择了20对测试图像来评估模型。
4.1.2 实现细节和指标
批量大小为4,使用学习率为0.0001的Adam优化器。α1α1、α2α2和α3α3设置为1、1、10。实验在Nvidia GeForce RTX 3090 GPU和3.60 GHz Intel Core i9-9900K CPU上使用Pytorch进行。
融合性能通过六个关键指标[19, 2]进行评估:结构保真度(SF)、结构内容差异(SCD)、多尺度结构相似性指数(MS-SSIM)、基于梯度的指标()、特征互信息(FMI)和视觉信息保真度(VIF)[1]。这些指标从多个角度评估融合性能,包括结构保留、内容差异、特征信息和融合图像与源图像之间的视觉保真度。SF测量结构保真度,SCD量化内容差异,MS-SSIM评估跨尺度的结构相似性,
评估边缘信息保留,FMI测量特征信息保留,VIF综合计算视觉保真度。
这些指标共同提供了对不同标准下融合性能的综合评估。
4.1.3 比较方法
我们与最先进的方法进行了广泛的比较实验,以证明FusionMamba的有效性。这些比较方法包括CSMCA[13]、U2Fusion[30]、FusionGAN[17]、SDNet[35]、MATR[24]、IFT[27]和SwinFusion[15]。CSMCA[13]是传统的融合方法。SDNet[35]、FusionGAN和U2Fusion[30]是基于CNN的融合方法。MATR[24]、IFT和SwinFusion[15]是基于Transformer的结构。我们使用公开代码并设置相应的参数。
多模态医学图像融合
我们展示了三种典型的医学图像融合任务:CT-MRI图像融合、PET-MRI图像融合和SPECT-MRI图像融合任务。定性和定量结果分别如图6和表I所示。
对于定性分析,图6的第一行显示了CT-MRI融合任务,包括CT图像、MRI图像以及CSMCA[13]、U2Fusion[30]、FusionGAN[17]、SDNet[35]、MATR[24]、SwinFusion[15]、IFT[27]和提出的FusionMamba的融合结果。我们放大了红色框中的区域,展示了我们的融合图像可以同时保留CT的密集信息和MRI的纹理细节。在图6中,FusionGAN和U2Fusion[30]的亮度和清晰度不理想,一些灰质模糊了纹理细节。特别是,FusionGAN显示了伪影和冗余信息。MATR[24]保留了结构细节,但削弱了密集结构。SDNet[35]和CSMCA[13]保留了密集结构,但丢失了一些边缘细节。SwinFusion[15]实现了令人满意的融合,但边缘过于锐利。相比之下,我们的FusionMamba保留了更多的纹理细节,同时保持了适当的密集结构。从视觉上看,它们更加自然,对比度增强。
图6的第二行展示了PET-MRI融合任务。FusionGAN的融合图像对比度较低,纹理细节缺失,而CSMCA[13]和IFT[27]很好地保留了纹理信息。然而,较暗的颜色表明功能信息的保留不足。此外,IFT[27]、U2Fusion[30]和SDNet[35]保留了功能特征,但在显著区域的纹理细节较少。SwinFusion[15]由于过度锐化而显示颜色失真。相比之下,我们的FusionMamba保留了清晰的边缘和纹理细节,颜色分布更接近PET图像,增强了视觉感知。
转到第三行,重点是SPECT-MRI融合任务,类似于PET-MRI融合,我们的FusionMamba在捕捉更多细节和保留SPECT图像的适当颜色信息方面表现出色。
表I显示了CT-MRI融合任务中六个指标的定量比较结果。FusionMamba在VIF、SCD、QAB/FAB/F、SF、MS-SSIM和FMI上取得了最佳结果(平均值),表明更高的结构相似性、增强的对比度和更好的视觉效果。表II显示了PET-MRI融合任务的类似趋势,表III显示了SPECT-MRI融合任务的结果,FusionMamba在各种指标上始终优于其他方法,展示了在保留功能和形态信息方面的卓越融合性能。
总体而言,FusionMamba在所有评估任务中实现了更好的融合性能,包括更丰富的信息保留和改进的视觉效果。
红外与可见光图像融合
图7和表4表明,RFN-Nest[12]、DATFuse[25]、SDNet[35]和U2Fusion[30]由于全局信息交互不足和强度控制不当,难以准确表示可见光图像中的场景信息。另一方面,IFT[27]和SwinFusion[15]设法保留了可见光图像中的一些纹理细节,但仍容易受到热辐射的污染,导致红外图像目标的清晰度不同程度地降低。
值得注意的是,我们的FusionMamba方法在保留可见光图像的场景信息和显著物体方面表现出色,通过有效的全局上下文感知和动态特征增强实现。具体来说,我们的模型动态关注红外图像中的重要区域,同时保留可见光图像中的纹理细节。
多模态生物医学图像融合
为了展示FusionMamba的泛化能力,我们进行了绿色荧光蛋白(GFP)和相位对比(PC)图像融合。GFP图像提供了与蛋白质分布相关的功能信息,而PC图像包含丰富的细胞结构细节,包括细胞核和线粒体。GFP和PC融合图像可以促进基因表达和蛋白质功能分析等生物学研究。在图8和表5中,可以发现FusionGAN[17]、U2Fusion[30]和IFT[27]很好地保留了颜色信息,但纹理细节有一定损失。U2Fusion[30]和MATR[24]很好地保留了纹理细节,但颜色略有失真。值得注意的是,SwinFusion[15]和FusionMamba都能有效保留纹理和颜色信息,证明了跨模态融合策略在图像融合中的有效性。
计算成本分析
表6中的复杂度评估通过测量每秒浮点运算次数(FLOPs)和运行时间来评估各种方法的操作效率。具体来说,在红外与可见光融合场景中对数据集中的第一张图像进行测试,以计算每种方法的FLOPs。我们比较了基于CNN的U2Fusion[30]、IFCNN[37]方法与基于Transformer的IFT[27]和SwinFusion[15]方法。结果显示,基于Mamba的方法在运行时间方面具有显著优势,展示了较低的FLOPs和平均运行时间,与CNN和Transformer方法相比。重要的是,我们的方法在与其他主流图像融合算法相比时展示了卓越的融合性能。
5 消融实验
5.1 结构消融
为了更好地分析网络架构,我们进行了5组消融实验,如表7所示。为了验证DVSS的有效性,我们进行了两个额外的实验:EVSS[18]和将DVSS替换为Transformer(案例1和案例2)。EVSS产生了令人满意的结果,但由于DVSS的设计更强,其特征提取能力较弱。将DVSS替换为Transformer网络会导致指标下降。提出的DFFM显著增强了融合效果,如案例3所示,其缺失导致SF和指标下降。移除DFEM模块(案例4)显示出与不包含DFFM类似的结果。跨模态融合的Mamba模块对于有效信息集成至关重要,如不包含Mamba模块集成的网络(案例5)所示,VIF任务性能下降。缺少CMFM会导致融合图像的MS-SSIM下降,表明跨领域集成在感知融合任务中的关键目标和结构方面的重要性。
5.2 损失函数消融
我们对每个损失函数进行了消融实验,以评估其影响,如表8所示。最初,我们引入了SSIM损失(Lssim)来约束融合网络,保留源图像中的结构信息。此外,SSIM损失有助于一定程度上控制融合结果的亮度。缺乏结构约束的网络难以保持最佳的结构和强度信息,导致MS-SSIM分数下降。纹理损失(Ltext)在保留融合结果中的边缘信息方面贡献显著,从而增强清晰度。没有纹理损失,我们观察到Q𝐴𝐵/𝐹和SF指标显著下降。从联合损失函数中排除强度损失(Lint)会降低融合图像的视觉影响。我们的模型在所有指标上始终优于其他版本,突出了我们提出的损失函数的最佳性能。
6 结论
总之,我们的研究通过提出FusionMamba,一种结合Mamba框架的动态特征增强方法,解决了多模态图像融合的挑战。我们的方法结合了改进的高效Mamba模型与动态卷积和通道注意力机制,增强了全局建模能力和局部特征提取。我们还引入了一个动态特征融合模块(DFFM),包括两个动态特征增强模块(DFEM)和一个跨模态融合Mamba模块(CMFM),有效增强了纹理、差异感知和模态之间的相关性,同时抑制了冗余信息。我们的FusionMamba方法在各种多模态图像融合任务中展示了最先进的(SOTA)性能。这些结果验证了我们提出的方法的泛化能力。未来的工作将探索FusionMamba在实时场景中的应用,并在资源受限的设备上部署,这将有利于实际实施。此外,扩展我们的评估到更多多样化的数据集,并与新兴的融合方法进行基准测试,将提供对FusionMamba能力的全面理解。