今天和大家分享一种创新的深度学习技术:小波变换与Mamba模型结合。 该技术通过引入小波变换,能有效提升模型在频域上的特征处理能力,利用小波的多尺度分解,确保图像中全局亮度与局部细节信息的精准提取,进一步提升了模型表现。同时,结合Mamba状态空间模型,能更好地捕捉图像中的长程依赖关系,提高推理效率。这种技术在图像分类、目标检测、语义分割等任务中展现了显著优势,特别是在计算机视觉(CV)领域,凭借其强大的性能和高效性,成为了一个新兴的研究热点,具有巨大的创新潜力。目前的研究成果已经显现出小波变换与Mamba结合的卓越效果。为了帮助大家节省查阅时间,我特别挑选了几篇最新的论文给大家参考,展示了该技术的创新思路及应用效果,有意向投稿的同学们可以抓紧机会哦
1、WMamba: Wavelet-based Mamba for Face Forgery Detection
介绍了一种利用小波变换提取多尺度特征并结合 Mamba 架构,有效捕捉面部伪造细节,取得了跨数据集 SOTA 性能。
主要目的:
- 开发一款轻量化模型,实现高精度与高速推理,用于面部伪造检测。
主要方法:
- 设计三阶段网络,采用多感受野特征交互模块,结合小波变换与状态空间模型捕获全局依赖,并利用动态轮廓卷积优化局部特征。
结果:
- 在多数据集上取得SOTA性能,分类准确率显著提高,同时推理速度大幅加快。
创新性:
- 融合小波变换与动态轮廓卷积实现多尺度特征提取;
- 利用状态空间模型高效捕捉长程依赖;
- 架构设计兼顾高精度与低计算复杂度。
未来研究方向:
- 优化模型在边缘设备和CPU上的运行效率;
- 拓展模型在其他视觉任务(如目标检测、语义分割)中的应用。
2、IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model
该论文提出了针对红外图像超分辨率的模型,利用小波变换模块与 Mamba 模块协同工作,从而提升了细节恢复和全局依赖建模能力。
主要目的:
- 利用融合 Mamba 状态空间模型与频域特征提取技术,实现红外图像超分辨率的全局亮度增强与局部细节恢复。
主要方法:
- 采用 Encoder–Backbone–Decoder 架构。
- 在浅层使用波形变换特征调制块(结合小波变换)提取多尺度全局信息;
- 在深层利用 Mamba-based backbone 捕捉长程依赖;
- 在中间阶段通过傅里叶调整模块优化局部纹理细节。
结果:
- 在多个标准红外超分辨率数据集上,IRSRMamba 在 PSNR、MSE 和 SSIM 等指标上均优于现有方法,显著改善了细节重建与整体视觉效果。
创新性:
- 首次将 Mamba 状态空间模型引入红外图像超分辨率任务;
- 提出新型波形变换特征调制模块,有效融合小波与傅里叶信息;
- 模型具备低计算复杂度与高效推理能力。
未来研究方向:
- 优化模型在边缘设备和 CPU 上的推理速度与能耗;
- 拓展至视频超分辨率或跨模态红外与可见光图像融合;
- 探索自监督预训练策略以减少对大量配对数据的依赖。
3、WaveMamba: Spatial-Spectral Wavelet Mamba for Hyperspectral Image Classification
本工作结合小波变换和 Mamba 架构,用于同时捕捉空间与光谱信息,从而在高光谱图像分类任务中实现了多尺度特征融合和准确率提升。
主要目的:
利用波形变换与傅里叶调整结合 Mamba 模型,实现低光图像全局亮度与局部细节的高效增强。
主要方法:
采用 Encoder–Latent–Decoder 架构,在 Encoder/Decoder 阶段通过波形变换 Mamba 模块提取全局低频亮度信息,在 Latent 阶段利用傅里叶调整模块优化局部纹理细节,并通过通道级 Mamba 进一步增强低频特征。
结果:
在 LOL 数据集上,WalMaFa 显著提高了 PSNR 和 SSIM 指标,同时具有更低的计算复杂度和更快的推理速度。
创新性:
- 融合波形变换与傅里叶变换以同时优化全局亮度与局部细节。
- 引入通道级 Mamba 模块高效捕捉低频特征。
- 构建轻量化端到端低光图像增强网络。
未来研究方向:
- 探索其他色彩空间下的频域增强策略;
- 优化模型在移动设备和边缘计算平台上的实时推理性能;
- 研究自监督预训练方法,降低对大量标注数据的依赖。
4、Wavelet-based Mamba with Fourier Adjustment for Low-light Image Enhancement
提出一种结合小波变换与 Mamba 模块,并通过 Fourier 调整进一步增强低光图像的细节恢复能力,实现了高效低光图像增强。
主要目的:
- 改善低光图像的亮度恢复与细节恢复效果,提高整体视觉质量。
主要方法:
- 采用 Encoder–Latent–Decoder 架构,
- 在 Encoder/Decoder 使用基于小波的 Mamba 模块提取低频全局亮度信息,
- 在 Latent 阶段利用快速傅里叶调整模块调节局部细节。
结果:
- 在 LOL 系列数据集上取得了更高的 PSNR/SSIM 指标,
- 模型计算资源占用低,推理速度快。
创新性:
- 首次融合小波变换与傅里叶变换信息;
- 设计了专用的 WMB 与 FFAB 模块;
- 利用 Mamba 状态空间模型实现高效长程依赖建模。
未来研究方向:
- 探索不同色彩空间下的低光增强方法;
- 优化实时推理与边缘设备适配;
- 融合自监督预训练以降低对大规模配对数据的依赖。
5、MobileMamba: Lightweight Multi-Receptive Visual Mamba Network
针对高分辨率视觉任务设计轻量化模型,利用小波变换增强的 Mamba 模块提取全局及细粒度信息,实现了在 ImageNet 上的高准确率和显著的推理速度提升。
主要目的:
- 设计轻量化视觉模型,在保持高准确率的同时大幅提升推理速度,适用于移动设备。
主要方法:
- 采用三阶段网络架构,融合多感受野特征交互模块(包含长程小波变换增强、深度卷积和冗余身份映射);
- 利用状态空间模型捕捉全局长程依赖,并通过知识蒸馏与延长训练等策略进一步提升性能。
结果:
- 在 ImageNet-1K 分类任务中实现最高 83.6% Top-1 准确率;
- 在下游任务中展现出优异的性能和显著更快的推理速度。
创新性:
- 融合小波变换与多核深度卷积的多感受野特征交互模块;
- 利用状态空间模型高效捕捉全局依赖;
- 采用专用训练/测试策略提升整体效率与性能。
未来研究方向:
- 优化边缘设备和 CPU 上的实时推理能力;
- 拓展应用至其他视觉任务(如目标检测与语义分割);
- 探索自监督预训练策略以降低对大规模标注数据的依赖。
扫码添加,回复“Mamba结合”
免费获取全部论文以及开源代码