浙大&腾讯提出MobileMamba:轻量级视觉新主干

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

8c1979df4efd182f07aa7ab314f81461.png

MobileMamba投稿
转载自:量子位(QbitAI)

浙大、腾讯优图、华中科技大学的团队,提出轻量化MobileMamba

既良好地平衡了效率与效果,推理速度远超现有基于Mamba的模型。

e69bb45bd1f6b38475bedc2b0e5323a4.png

论文链接:
https://arxiv.org/pdf/2411.15941

项目代码:

https://github.com/lewandofskee/MobileMamba

一直以来,轻量化模型研究的主阵地都在CNN和Transformer的设计。

但CNN的局部有效感受野在高分辨率输入时,难以获得长距离依赖;尽管Transformer有着全局建模能力,但是其平方级计算复杂度,限制了其在高分辨率下的轻量化应用。

最近的状态空间模型如Mamba,因其线性计算复杂度和出色的效果被广泛用在视觉领域。

然而,基于Mamba的轻量化模型虽然FLOPs低,但是实际的吞吐量极低。


6b8f9574dd2c5de3964d26085dcb79c6.png最近基于CNN/Transformer/Mamba方法的效果 vs. FLOPs对比

团队首先在粗粒度上设计了三阶段网络显著提升推理速度。

随后在细粒度上提出了高效多感受野特征交互(MRFFI)模块包含长距离小波变换增强Mamba (WTE-Mamba)、高效多核深度可分离卷积(MK-DeConv)和去冗余恒等映射三个部分——这有利于在长距离建模的特征上融合多尺度多感受野信息并加强高频细节特征提取。

最后,使用两个训练和一个推理策略,进一步提升模型的性能与效率

大量实验验证,MobileMamba在ImageNet-1K数据集上的Top - 1准确率最高可达83.6,且速度是LocalVim的21倍、EfficientVMamba的3.3倍。

同时,大量的下游任务实验也验证了该方法在高分辨率输入情况下,取得了效果与效率的最佳平衡。

现存缺陷:成本高、速度低

随着移动设备的普及,资源受限环境中对高效、快速且准确的视觉处理需求日益增长。

开发轻量化模型,有助于显著降低计算和存储成本,还能提升推理速度,从而拓展技术的应用范围。

现有被广泛研究的轻量化模型,主要被分为基于CNN和Transformer的结构。

基于CNN的MobileNet,设计了深度可分离卷积大幅度减少了计算复杂度;GhostNet提出将原本将原本全通道1x1卷积替换为半数通道进行廉价计算,另半数通道直接恒等映射。

这些方法给后续基于CNN的工作奠定了良好的基础。

1c361acfbf1c66829df111eb1434b7ac.png

但是基于CNN方法的主要缺陷在于其局部感受野,如图(i)所示,其ERF仅在中间区域而缺少远距离的相关性。

并且在下游任务高分辨率输入下,基于CNN的方法仅能通过堆叠计算量来换取性能的少量提升。

如图(ii)所示,ViT有着全局感受野和长距离建模能力。但由于其平方级别的计算复杂度,计算开销比CNN更大。

一些工作尝试从减少分辨率或者减少通道数上,来改减少所带来的计算复杂度的增长,也取得了出色的效果。

不过,基于纯ViT的结构缺少了归纳偏置,因此,越来越多的研究者将CNN与Transformer结合得到混合结构,获得更好的效果,并获得局部和全局的感受野(如图(iii))。

不过,尤其在下游任务高分辨率输入下,基于ViT的方法仍然受到平方级别计算复杂度的问题。

提出MobileMamba

最近,由于状态空间模型捕捉长距离依赖关系并且线性的计算复杂度表现出色,引起了广泛关注,大量研究者将其应用于视觉领域,效果和效率都取得了出色的效果。

基于Mamba的轻量化模型LocalMamba提出了将图像划分为窗口并在窗口内局部扫描的方式减少计算复杂度,而EfficientVMamba设计了高效2D扫描方式来降低计算复杂度。

不过这两种模型都仅公布了FLOPs,而FLOPs低并不能代表推理速度快。

经实验发现(图2),现有的基于Mamba结构的推理速度较慢并且效果较差。

d60ca5b805e886abbc1b89c27b024cf6.png

MobileMamba团队分别从粗粒度、细粒度和训练测试策略三个方面来设计高效轻量化网络。

首先,研究人员讨论了四阶段和三阶段在准确率、速度、FLOPs上的权衡。

在同等吞吐量下,三阶段网络会取得更高的准确率;同样的相同效果下三阶段网络有着更高的吞吐量。

因此,团队选择三阶段网络作为MobileMamba的粗粒度设计框架。

在细粒度模块设计方面,研究人员提出了高效高效多感受野特征交互 (MRFFI)模块。

具体来说,将输入特征根据通道维度划分三个部分。

第一部分将通过小波变换增强的Mamba模块提取全局特征的同时加强边缘细节等细粒度信息的提取能力。

第二部分通过高效多核深度可分离卷积操作获取多尺度感受野的感知能力。

然后部分通过去冗余恒等映射,减少高维空间下通道冗余的问题,并减少计算复杂度提高运算速度。

最终经过MRFFI得到的特征融合了全局和多尺度局部的多感受野信息,并且加强了边缘细节的高频信息提取能力。

最后,研究人员通过两个训练阶段策略知识蒸馏和延长训练轮数增强模型的学习能力,提升模型效果;以及一个归一化层融合的测试阶段策略提升模型的推理速度。


9cda5b6204ef167047222f5939d4a447.pngMobileMamba结构概述

实验结果

实验表明,MobileMamba有着全局感受野的同时,高效多核深度可分离卷积操作有助于提取相邻信息。

通过与SoTA方法的对比可知,MobileMamba从200M到4G FLOPs的模型在使用训练策略后,在ImageNet-1K上的Top-1,分别达到76.9、78.9、80.7、82.2、83.3、83.6效果,均超过现有基于CNN、ViT和Mamba的方法。

与同为Mamba的方法相比,MobileMamba比LocalVim在Top-1上提升0.7↑的同时,速度快21倍;比EfficientVMamba提升2.0↑的同时速度快3.3↑倍。

这均显著优于现有基于Mamba的轻量化模型设计。

eb8477266485e52e31a0454ef139fba7.png

同时,在下游任务目标检测、实力分割、语义分割上大量实验上也验证了方法的有效性。

在Mask RCNN上比EMO提升1.3↑在mAP并且吞吐量提升56%↑。

在RetinaNet上比EfficientVMamba提升+2.1↑在mAP并且吞吐量提升4.3↑倍。

在SSDLite通过提高分辨率达到24.0/29.5的mAP。

7257bdc71d310834ec50a40a5cab0cc7.png

在DeepLabv3,Semantic FPN,and PSPNet上有着较少的FLOPs分别最高达到37.4/42.7/36.9的mIoU。

16a90e3f3a5edf34be76bc2668e5b689.png

在高分辨率输入的下游任务与基于CNN的MobileNetv2和ViT的MobileViTv2相比分别提升7.2↑和0.4↑,并且FLOPs仅有其8.5%和11.2%。

总的来说,MobileMamba贡献如下:

  • 提出了一个轻量级的三阶段MobileMamba框架,该框架在性能和效率之间实现了良好的平衡。MobileMamba的有效性和效率已经在分类任务以及三个高分辨率输入的下游任务中得到了验证。

  • 设计了一个高效的多感受野特征交互(MRFFI)模块,以通过更大的有效感受野增强多尺度感知能力,并改进细粒度高频边缘信息的提取。

  • MobileMamba通过在不同FLOPs大小的模型上采用训练和测试策略,显著提升了性能和效率。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
### MobileMamba 的 IT 相关用途 MobileMamba 是一种轻量级多感受野视觉网络框架,专为移动设备上的高性能视觉任务设计。其核心目的是通过优化网络架构和训练策略,在保持较低计算成本的同时提升模型性能[^1]。 #### 图像分类应用 在图像分类领域,MobileMamba 能够有效应对高分辨率输入数据带来的挑战。通过对不同尺度特征的有效融合,它能够在资源受限环境下实现较高的分类精度。实验结果显示,相较于其他轻量化模型,MobileMamba 在多个公开数据集上表现出更优的性能指标[^2]。 #### 目标检测与实例分割 对于目标检测和实例分割任务,MobileMamba 提供了一种高效的解决方案。通过引入多感受野机制,该模型能够更好地捕捉物体的不同尺寸和形状特性。这种能力使其特别适合于移动端实时应用场景中的复杂场景分析。 #### 语义分割支持 在语义分割方面,MobileMamba 利用改进后的网络结构增强了局部细节表达能力和全局上下文理解力。这使得即使是在低功耗硬件平台上运行时也能获得清晰准确的像素级预测结果。 --- ### 移动端错误解决方案 当部署 MobileMamba 至实际生产环境时可能会遇到一些常见问题及其对应解决办法如下: #### 性能下降 如果发现模型推理速度变慢或者准确性降低,则需检查以下几个方面: - **硬件兼容性**:确认所使用的处理器是否完全支持所需指令集(如 ARM NEON)。如果不支持某些特定操作可能会影响整体效率。 - **量化参数调整**:尝试重校准 INT8/FP16 等低精度模式下的权重分布范围以减少数值溢出风险并提高运算速率。 #### 部署失败 针对无法成功加载预训练权重文件的情况可以采取以下措施: - **版本一致性验证**:确保当前安装库版本号与官方推荐一致;必要时升级至最稳定版。 - **路径配置核查**:仔细核对所有涉及外部依赖项的位置声明是否存在拼写错误或遗漏部分。 ```python import torch from mobilemamba import MobileMambaNet try: model = MobileMambaNet(pretrained=True) except Exception as e: print(f"Error loading pretrained weights: {e}") ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值