[轻量化]MobileMamba: Lightweight Multi-Receptive Visual Mamba Network, CVPR 2025

MobileMamba: Lightweight Multi-Receptive Visual Mamba Network, CVPR 2025

MobileMamba:轻量级多感受野 Visual Mamba 网络
2024 年 11 月 24 日
paper&code

提出了 MobileMamba 框架,它平衡了效率和性能。我们设计了一个三阶段网络,以显著提高推理速度。在细粒度层面上,引入了多感受野特征交互 (MRFFI) 模块,包括长距离小波变换增强 Mamba (WTE-Mamba)、高效多核深度卷积 (MK-DeConv) 和消除冗余身份组件。该模块集成了多感受野信息,并增强了高频细节提取。
在这里插入图片描述

粗粒度下的pipeline

在这里插入图片描述
在这里插入图片描述
图中(d)MRFFI模块三个分支的实现(由下而上)
1)第一部分经历了远程小波变换增强的Mamba(WTE-MAMBA),在执行全局建模时,它可以提取高频边缘信息。
2)第二部分是通过多内核深度卷积(MK-DECONV)操作来处理的,以增强不同感受野的感知能力。
3)其余的效果受到identity映射的影响,减少高维空间中的特征延长,并降低组合复杂性,从而提高处理速度。

具体来说
在这里插入图片描述

  1. WTE-Mamba分支
    增强根据全局建模提取细粒度信息(例如高频边缘细节)的能力。WT特征图上的卷积操作具有更大的ERF,和较低的计算复杂性。对于输入特征 x I ∈ R h × w × c x^I\in\mathbb{R}^{h\times w\times c} xIRh×w×c,特征 x G I ∈ R h × w × ξ c x^I_G\in\mathbb{R}^{h\times w\times \xi c} xGIRh×w×ξc通过双向扫描Mamba模块处理以学习全局信息,并且 0 ≤ ξ ≤ 1 0\le \xi \le1 0ξ1
    在这里插入图片描述
    同时,相同的特征映射经历了HAAR小波转换以获得特征表示 x w I ∈ R h 2 × w 2 × 4 ξ c x^I_w\in\mathbb{R}^{\frac{h}{2}\times \frac{w}{2}\times 4\xi c} xwIR2h×2w×4ξc,然后执行本地卷积信息提取和逆小波转换(IWT)以恢复原始特征映射大小
    在这里插入图片描述
    将全局信息提取的Mamba模块的输出功能映射添加到从小波转换和卷积的本地信息的输出特征图中
    在这里插入图片描述
  2. Efficient MK-DeConv
    通过不同的ERF提取局部信息,从而实现了多感受野。对于其余特征,选择 x L I ∈ R h × w × μ c x^I_L\in \mathbb{R}^{h\times w\times \mu c} xLIRh×w×μc,其中局部通道比例表示为 μ ≤ 1 − ξ \mu \le 1- \xi μ1ξ。然后将这些通道分为n∈N部分。每个部分 n ∈ N n\in\mathbb{N} nN。每个部分 x L j I ∈ R h × w × μ c n x^I_{Lj} \in \mathbb{R}^{h\times w\times \frac{\mu c}{n}} xLjIRh×w×nμc进行不同核大小的局部卷积操作。最后,将不同的卷积操作的结果组合,以形成输出特征 x L O ∈ R h × w × μ c x^O_L\in \mathbb{R}^{h\times w\times \mu c} xLORh×w×μc
    在这里插入图片描述
  3. 消除冗余Identity
    最后,为了降低高维空间中特征冗余,我们将identity mapping应用于其余 ( 1 − ξ − μ ) c (1-\xi - \mu)c (1ξμ)c的通道。

最终的输出
在这里插入图片描述

Training and Testing Strategies

知识蒸馏为了使轻量化的学生模型MobileMamba从更强大的教师分类模型中学习,我们遵循DEIT [64]的软蒸馏设置。这涉及最大程度地减少教师模型和学生模型的软性输出之间的kullback-leibler差异。
扩展训练epoch我们观察到,在常规的300个时期下,小型模型的损失尚未完全融合,并且Top-1的准确性尚未达到其潜力。因此,为了提高轻量级模型的功能上限,我们将训练扩展到1000个时代。
归一化层融合卷积操作通常紧随其后进行批准。在推断过程中,可以将批准化与先前的汇合或线性层融合。重新计算新的卷积层的重量和偏见可确保其组合输出与原始层的输出相匹配。这种融合可以通过减少层数来提高计算效率,并加快前向过程的速度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值