CNN的短板被它补上了!Mamba让AI图像理解开挂!
在AI图像领域,Mamba与CNN的结合成为研究热点,源于二者优势互补的需求。CNN擅长提取局部特征,但在处理长距离依赖和全局信息时存在局限。而Mamba基于状态空间模型,具有强大的长程依赖建模能力,已在NLP领域表现优异。
将二者结合,既能保留CNN优秀的局部特征提取能力,又能利用Mamba捕捉全局上下文信息,有望提升图像任务的性能。这种融合方案正吸引越来越多研究者探索,以突破传统CNN在感受野和全局建模方面的限制。
为此,我整理了【Mamba+CNN】相关论文合集。
对资料感兴趣的可以 [丝 xin] 我~~
【论文1】MambaSR: Arbitrary-Scale Super-Resolution Integrating Mamba with Fast Fourier Convolution Blocks
The framework of the proposed network: MambaSR.
1.研究方法
论文提出的MambaSR是一种结合Mamba与快速傅里叶卷积块的任意尺度超分辨率方法。
该方法先通过特征提取网络获取低分辨率图像的浅层特征;再利用包含多个残差快速傅里叶变换状态空间单元(RFFTSSU)的特征增强器,增强特征并融合上下文信息;最后由特征重构器将增强后的特征重建为高分辨率图像。
其中,RFFTSSU 中的残差快速傅里叶变换状态空间块(RFFTSSB)结合了视觉状态空间模块(VSSM)和快速傅里叶变换卷积块(FFTConv),从空间和频域两方面增强特征。
2.论文创新点
PSNR/SSIM values achieved by different methods with EDSR and RDN on Set14 datasets.
-
首次应用于任意尺度超分辨率:首次将结构化状态空间模型(SSM)中的Mamba应用于任意尺度超分辨率领域,利用其动态表示特征和捕获长程依赖的能力,有效解决传统单图像超分辨率(SISR)方法在处理不同尺度时的局限性,为该领域研究开辟新方向。
-
设计新型网络模块:提出RFFTSSB模块,创新性地融合VSSM和FFTConv,充分利用空间和频域信息增强特征。这种双重域处理方式使模型能保留关键上下文信息,提升视觉效果和量化指标表现,经消融实验验证对提升模型性能至关重要。
-
性能优势显著:在多个基准数据集(如Urban100、Manga109等)上,MambaSR相比MetaSR、LIIF等现有先进方法,在峰值信噪比(PSNR)和结构相似性指数测量(SSIM)等指标上有显著提升,在不同条件下都能实现高质量图像重建,展现出强大的鲁棒性和有效性。
论文链接:https://www.mdpi.com/2227-7390/12/15/2370
【论文2】Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation
The Example Images of MRI Cardiac Scans, with the Corresponding Ground Truth, and Scribble-based Annotations.
1.研究方法
Semi-Mamba-UNet: The Framework of Contrastive Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation.
论文提出的Weak - Mamba - UNet是一种用于基于涂鸦的医学图像分割的弱监督学习框架,结合了Mamba、CNN 和 Vision Transformer(ViT)的优势。
该方法构建了三个具有相同对称编码器 - 解码器结构的网络:基于 CNN 的 UNet 用于提取详细的局部特征,基于Swin Transformer的SwinUNet用于理解全局上下文信息,基于Visual Mamba的Mamba - UNet用于高效建模长程依赖关系。
通过使用伪标签的协作和交叉监督机制,在有限监督信号的条件下,实现三个网络之间的迭代学习和优化,最小化由基于涂鸦的部分交叉熵损失和密集信号伪标签骰子系数损失组成的总损失,以提升分割性能。
2.论文创新点
Direct Comparison of Weak-supervised Frameworks on MRI Cardiac Test Set.
-
创新应用Mamba架构:首次将基于Mamba的分割网络应用于基于涂鸦注释的医学图像分割的弱监督学习中,利用Mamba在捕捉长程依赖方面的优势,提升医学图像分割效果。
-
多架构协同学习:提出新颖的多视图交叉监督框架,使CNN、ViT和Mamba三种不同架构在有限监督信号下协同工作。通过随机生成权重因子融合三个网络的预测结果得到伪标签,增强了伪标签的多样性和模型的鲁棒性、泛化性。
-
性能优势明显:在公开的MRI心脏分割数据集上进行实验,Weak - Mamba - UNet在多种评估指标上优于仅使用UNet或SwinUNet的类似弱监督学习框架,证明了该框架能有效整合不同类型算法的优势,提升网络分割性能 。
论文链接:https://arxiv.org/abs/2402.10887