CNN的局部感知,加上Transformer的全局视野,再加上Mamba的高效建模,能产生怎样的火花?厦大图像修复模型RestorMixer给出了答案,它在多个图像恢复任务中都实现了SOTA性能。
事实上,这类结合Mamba、CNN和Transformer的混合架构是当下深度学习领域的热门研究方向,不仅适合发论文,也能推动模型在效率与性能上的双重突破,在工业界应用前景相当广阔(比如腾讯混元T1)。
这方向目前还处于发展期,推荐想发论文的同学考虑动态计算路径、跨模态交互、硬件优化等切入角度,注意结合具体场景需求。我这边整理好了9篇CNN+Transformer+Mamba新论文可用作参考,代码也有,需要的同学速领。
全部论文+开源代码需要的同学看文末
Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation
方法:本文提出了一种名为Weak-Mamba-UNet的弱监督学习框架,用于医学图像分割中的涂鸦标注任务。该框架结合了CNN、Transformer和Mamba三种架构的优势,通过多视角交叉监督学习,利用伪标签实现网络间的协作优化。实验结果表明,该方法在MRI心脏分割数据集上表现优异,显著提升了分割性能。
创新点:
-
首次将基于Mamba的分割网络引入到使用涂鸦标注的医学图像分割任务中。
-
提出了一种新颖的多视角交叉监督框架,整合了CNN、ViT和Mamba三种架构,通过伪标签实现有限监督下的协同学习。
-
实验证明了Mamba架构能够显著提升CNN和ViT在弱监督任务中的性能。
A Hybrid Transformer-Mamba Network for Single Image Deraining
方法:论文提出了一种结合CNN、Transformer和Mamba的混合网络TransMamba,用于单图像去雨。它利用CNN提取局部特征,Transformer捕捉全局依赖,Mamba增强序列一致性,从而有效去除雨滴并恢复清晰图像。
创新点:
-
提出了一种双分支混合网络TransMamba,结合Transformer和Mamba,分别用于捕捉全局依赖和增强序列一致性。
-
引入频域增强模块和频域自注意力机制,有效分离雨滴和背景特征,提升去雨效果。
-
提出频域相干性损失函数,用于重建图像的信号级线性关系,确保去雨后图像的自然性和一致性。
DualMamba: A Lightweight Spectral-Spatial Mamba-Convolution Network for Hyperspectral Image Classification
方法:论文提出了一种轻量级双流网络DualMamba,用于高光谱图像分类。它结合了CNN的局部特征提取能力、Mamba的全局建模能力以及轻量级设计,通过动态位置嵌入和交叉注意力机制融合全局和局部特征,实现了高效且准确的分类效果。
创新点:
-
提出了一种轻量级双流网络DualMamba,结合CNN提取局部特征和Mamba捕捉全局上下文信息,实现高效的全局-局部特征建模。
-
引入动态位置嵌入和交叉注意力机制,增强光谱-空间特征的融合效果,提升模型对复杂关系的捕捉能力。
-
设计了自适应全局-局部融合模块,动态调整全局和局部特征的权重,优化特征表示,提高分类性能。
MxT: Mamba x Transformer for Image Inpainting
方法:论文提出了一种图像修复方法M×T,结合了CNN的局部特征提取能力、Transformer的全局交互能力和Mamba的高效长序列处理能力,通过混合模块实现像素级和块级的双重交互学习,提升修复质量和效率。
创新点:
-
提出M×T模型,结合Mamba和Transformer,通过混合模块实现像素级和块级交互学习,提升修复质量。
-
利用Mamba的线性复杂度处理长序列,弥补Transformer在像素级交互的不足,同时保持全局感知能力。
-
在CelebA-HQ和Places2数据集上表现优异,且能高效处理高分辨率图像,具有良好的适应性。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“222”获取全部方案+开源代码
码字不易,欢迎大家点赞评论收藏