2025深度学习发论文&模型涨点之—CNN+Transformer+Mamba
深度学习在计算机视觉与序列建模领域取得了显著突破,传统卷积神经网络(CNN)、Transformer与新兴的Mamba架构分别代表了不同范式的技术演进路径。CNN凭借其局部感知与平移不变性优势,奠定了视觉表征学习的基石;Transformer通过自注意力机制实现了全局依赖建模,但其二次复杂度在长序列场景下面临计算效率挑战;而Mamba作为状态空间模型(SSM)的最新进展,凭借线性复杂度与动态权重机制,为长序列建模提供了新的理论框架。
我整理了一些CNN+Transformer+Mamba【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。
论文精选
论文1:
[NIPS] MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection
MambaAD:探索用于多类无监督异常检测的状态空间模型
方法
MambaAD框架:提出了一个结合预训练编码器和基于Mamba的状态空间模型解码器的框架,用于多类无监督异常检测。
Locality-Enhanced State Space (LSS)模块:设计了LSS模块,结合了全局建模的Mamba模块和局部信息关联的多核卷积操作,用于捕捉长距离和局部信息。
Hybrid State Space (HSS)块:在LSS模块中,使用HSS块对特征图进行编码和解码,支持五种扫描方法和八种方向,增强全局建模能力。
多尺度特征重建:通过在不同尺度上重建特征图,利用多尺度重建误差作为异常图,提高异常检测的准确性。
创新点
多类无监督异常检测:首次将Mamba框架应用于多类无监督异常检测任务,实现了多尺度训练和推理,同时保持了模型参数和计算复杂度的最小化。
Locality-Enhanced State Space模块:通过结合Mamba的全局建模能力和CNN的局部建模能力,显著提高了异常检测的性能。与现有方法相比,MambaAD在多个数据集上实现了更高的AU-ROC、AP和F1_max指标。
Hybrid State Space块:通过探索五种扫描方法和八种方向,增强了全局建模能力,特别是在处理复杂异常检测图像时表现出色。例如,在MVTec-AD数据集上,MambaAD达到了98.6%的AU-ROC和99.6%的AP,比DiAD提高了1.4%和0.6%。
效率与性能的平衡:MambaAD在保持高检测性能的同时,显著降低了模型参数和计算复杂度。与UniAD相比,MambaAD在模型参数和计算复杂度上分别降低了约3倍和2倍,同时在mAD指标上提高了4.3%。
论文2:
[TGRS] ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model
ChangeMamba:基于时空状态空间模型的遥感变化检测
方法
Mamba架构:首次将Mamba架构应用于遥感变化检测任务,提出了MambaBCD、MambaSCD和MambaBDA三种框架,分别用于二元变化检测、语义变化检测和建筑损坏评估。
时空关系建模:设计了三种时空关系建模机制,包括时空序列建模、时空交叉建模和时空并行建模,充分利用Mamba架构的属性,实现多时相特征的时空交互。
Visual Mamba编码器:采用Visual Mamba作为编码器,通过交叉扫描机制对图像进行建模,以充分学习全局空间上下文信息。
任务特定解码器:为每个任务设计了特定的解码器,包括变化解码器和语义解码器,用于从编码器提取的特征中恢复变化图和土地覆盖图。
创新点
Mamba架构的应用:首次将Mamba架构引入遥感变化检测领域,实现了高精度、高效和稳健的变化检测。
时空关系建模机制:提出的三种时空关系建模机制显著提高了变化检测的性能。例如,在SYSU数据集上,MambaBCD-Base在OA、F1、IoU和KC指标上分别比现有方法提高了0.71%、1.70%、2.88%和2.10%。
全局上下文信息学习:Visual Mamba编码器通过交叉扫描机制有效地学习全局上下文信息,与Transformer架构相比,计算复杂度线性增长,更适合处理大规模遥感数据。
鲁棒性:Mamba架构对降质数据具有很强的鲁棒性。在LEVIR-CD+数据集上,MambaBCD在高斯模糊、高斯噪声和尺度变化下的性能下降幅度显著低于其他方法。
论文3:
I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling
I2I-Mamba:通过选择性状态空间建模进行多模态医学图像合成
方法
I2I-Mamba模型:提出了一个基于选择性状态空间建模的多模态医学图像合成方法,通过在卷积骨干网络的瓶颈中注入通道混合的Mamba(cmMamba)块来实现。
螺旋扫描轨迹:引入了一种新的螺旋扫描轨迹,用于学习特征图的空间上下文,与传统的光栅扫描轨迹相比,具有更均匀的空间敏感性。
通道混合层:在cmMamba块中加入了通道混合层,用于在通道维度上聚合上下文信息。
对抗性训练:采用对抗性训练框架,结合像素级和对抗性损失函数,提高合成图像的质量。
创新点
选择性状态空间建模:首次将选择性状态空间建模应用于多模态医学图像合成任务,实现了长距离上下文和局部精度的平衡。
螺旋扫描轨迹:通过螺旋扫描轨迹,I2I-Mamba在特征图的空间维度上实现了更均匀的上下文敏感性,显著提高了合成图像的质量。例如,在IXI数据集上,I2I-Mamba在T1, T2 → PD任务中实现了33.48 dB的PSNR和0.970的SSIM,比现有方法分别提高了2.0 dB和2.0%。
通道混合层:通道混合层的引入进一步提高了模型对上下文信息的捕捉能力,特别是在处理多模态数据时表现出色。
计算效率:I2I-Mamba在保持高合成质量的同时,计算复杂度低,推理速度快,内存占用少。与基于Transformer的方法相比,I2I-Mamba的推理时间缩短了约2/3,内存占用减少了约2/3。