超分论文精读:DVMSR—Distillated Vision Mamba for Efficient Super-Resolution

原文链接:CVPR 2024 Open Access Repository

Pytorch开源代码:https://github.com/nathan66666/DVMSR.git

摘要

高效图像超分辨率(Efficient Image Super-Resolution, SR) 旨在通过最小化计算复杂度和网络参数量来加速SR网络推理,同时保持性能。现有基于卷积神经网络(CNN)的高效图像超分辨率方法已取得先进成果,但鲜有研究尝试利用Mamba的长程建模能力和高效计算特性(该特性在高层视觉任务中表现优异)。本文提出DVMSR——一种结合视觉Mamba(Vision Mamba)和蒸馏策略的新型轻量级图像SR网络

DVMSR的网络结构包含三个模块:特征提取卷积层、多个堆叠的残差状态空间块(RSSB)和重建模块。其中,深度特征提取模块由若干RSSB组成,每个RSSB包含多个视觉Mamba模块(ViMM)和残差连接。为在保持性能的同时提升效率,我们采用蒸馏策略优化视觉Mamba网络:利用教师网络的丰富表征知识作为轻量级学生网络输出的额外监督。大量实验表明,DVMSR在模型参数量上优于当前最高效的SR方法,同时保持PSNR和SSIM性能。

关键词:图像超分辨率、视觉Mamba、残差状态空间块、模型蒸馏、轻量网络

总结

核心创新

  1. 提出DVMSR,首个将视觉Mamba(ViMM)引入图像超分辨率的轻量级网络,利用Mamba的长程依赖建模能力和低计算复杂度优势。
  2. 设计残差状态空间块(RSSB)作为主干模块,结合ViMM与残差连接,平衡性能与效率。
  3. 采用蒸馏策略,通过教师网络监督轻量学生网络,进一步提升性能。

优势

  1. 高效轻量:在减少参数量的情况下,保持甚至超越现有CNN-based高效SR方法的PSNR/SSIM指标。
  2. 开源代码:提供完整实现,便于复现和应用。

意义

  1. 为高效SR任务提供了新思路,证明Mamba结构在底层视觉任务(如超分)中的潜力。
  2. 蒸馏策略的引入为轻量模型性能优化提供了可行方案。

引言


🔍 1. 研究背景与意义

  • 图像超分辨率(SR) 是图像处理中的一项基础任务,目标是将低分辨率图像重建为高分辨率图像。

  • 随着深度学习的发展,越来越多的 CNN 架构被应用于 SR 任务中,显著提升了性能。

  • 然而在实际应用中(如移动端、边缘设备),除了精度,还需关注模型的效率,包括:

    • 推理时间

    • 参数数量

    • 计算量(FLOPS)

    • 激活值大小

    • 网络深度

  • 因此,“高效超分辨率模型”成为当前研究热点。


🧩 2. 相关工作回顾

  • IMDN(2019):引入信息多重蒸馏模块(IMD Module),AIM 竞赛冠军。

  • RFDN(2020):基于残差学习优化 IMDN,提高重建效果。

  • RLFN(2022):精简蒸馏连接结构,进一步提升推理效率。

  • NTIRE 2022:高效 SR 赛道冠军方案结合知识蒸馏与剪枝,提升效率同时缩小模型规模。

✅ 这一系列模型为构建高效 SR 网络提供了宝贵思路,但都仍以 CNN 架构为主。


🧠 3. 引入 Mamba 模型的动机

  • Transformer 在 NLP 和高阶视觉任务中取得成功,具备全局建模能力,但在低级视觉中的应用仍有限。

  • Mamba 模型作为一种新的状态空间序列建模架构:

    • 更高效(支持线性扩展)

    • 能处理长序列建模任务

    • 在多个尺度和数据集上超越 Transformer

  • 本文尝试将 Mamba 引入 SR 任务,探索其在高效建模长距离依赖信息方面的潜力。


🧱 4. DVMSR 模型结构简介

  • 基础架构:DVMSR 以视觉 Mamba 为核心构建。

  • 模块组成

    • RSSB(Residual State Space Block):残差状态空间模块,构建模型主干。

    • 每个 RSSB 内部堆叠多个 ViMM(Visual Mamba Module)

  • ViMM 结构

    • 单向状态空间模型(SSM) → 长距离建模

    • 残差连接 → 稳定训练

    • SiLU 激活函数 → 提升非线性表达能力

这些设计帮助 DVMSR 达到更大感受野、快速收敛、高建模效率。


🧪5. 知识蒸馏策略

  • 引入教师-学生结构

    • 教师模型:参数较大的 Mamba 网络

    • 学生模型:轻量 DVMSR

  • 教师网络引导学生学习更有效的表示,以实现:

    • 更高的重建精度

    • 更小的模型体积

    • 更快的推理速度

✅ 此策略特别适合高效 SR 任务中的轻量网络训练。


🎯6. 作者贡献总结

  1. 提出一种结合状态空间建模的轻量视觉 Mamba 架构,在 SR 任务中展现出良好建模能力与效率。

  2. 设计了与 Mamba 结构配套的特征蒸馏机制,提升网络训练效果。

  3. 在多个实验中验证了模型的有效性,在参数更少的情况下仍保持良好 PSNR 与 SSIM。


✍️7. 个人理解与思考

  • 创新点突出:首次将视觉 Mamba 架构引入高效 SR 任务,结合 SSM 和残差设计是亮点。

  • 应用前景广阔:特别适合边缘计算、移动设备等对推理速度和模型大小有要求的场景。


相关工作


✨ Part1:Lightweight Super Resolution(轻量级超分辨率)

🔎 原文讲了什么?

  1. SRCNN(2014) 是第一个将深度学习引入单图像超分辨率(SISR)的工作,掀起了后续的研究热潮。

  2. 随着研究深入,出现了很多针对真实场景的改进方法:

    • GAN:用生成对抗网络提升图像质量和感知效果。

    • 退化建模、多任务学习、系统评估:更好地适应真实图像退化情况和实际应用需求。

  3. 部署环境限制:移动端、边缘设备计算资源有限,因此模型必须小而强大

  4. 为了提高效率,出现了一系列轻量化方法:

    • FSRCNN:用反卷积替代双线性插值,减少计算。

    • VDSR / DRCN / DRRN / LapSRN / MemNet:在模型结构上深度优化,引入残差、递归、金字塔、记忆机制等。

    • IMDN / RFDN / RLFN / DIPNet:聚焦信息蒸馏、结构简化、重参数化,在保持性能的同时进一步提高速度。

  5. DIPNet 获得 2023 NTIRE 高效 SR 挑战赛冠军

🧠 总结重点:

  • 研究从早期追求“性能最优”转向“效率与性能并重”。

  • 信息蒸馏、结构重用、递归设计等技术为轻量级 SR 奠定了基础。

  • 本文提出的 DVMSR 就是站在这些“轻量高效”方法基础上的进一步创新,探索了非 CNN 架构(即 Mamba)+ 蒸馏的融合设计


✨ Part 2:State Space Models in Vision(视觉任务中的状态空间模型)

🔎 原文讲了什么?

  1. 状态空间模型(SSM)的经典代表是卡尔曼滤波器,用于动态系统中的状态估计。

  2. 新一代 SSM —— Mamba(曼巴)架构

    • 能高效建模长距离依赖

    • 计算上具有线性扩展性(比 Transformer 更省资源)

  3. Mamba 本来应用于 NLP,现在已逐渐扩展到视觉任务

    • 视频理解:建模时间维度上的长依赖

    • 图像分类、生物医学分割、遥感图像、多模态学习

  4. 有研究提出将 Mamba 用于低级视觉任务(如图像修复),取得不错效果。

  5. 本文在这些探索的基础上,首次提出将 Mamba 应用于图像超分辨率任务,并结合知识蒸馏,取得“精度+效率”的双赢效果。

🧠 总结重点:

  • Mamba 是 Transformer 的高效替代者,具备建模长依赖关系的优势。

  • 本文是首批尝试将 Mamba 应用于高效超分辨率的工作之一,结合知识蒸馏以提升轻量模型表现。


✨ Part 3:Feature Distillation(特征蒸馏)

🔎 原文讲了什么?

  1. 知识蒸馏(Knowledge Distillation,KD):小模型在大模型(教师)引导下学习特征,是一种有效的压缩方法。

  2. 蒸馏方式不要求师生结构一致,可广泛适用于不同网络架构。

  3. 蒸馏技术从最初的Softmax 蒸馏发展到:

    • 中间层蒸馏:利用卷积层输出、倒数第二层等中间特征,保留更多语义细节。

  4. 蒸馏在 SR 任务中的应用日益广泛,并被证实可以提升小模型的性能。

  5. 本文采用 教师网络输出的特征图 作为蒸馏目标,对学生模型进行训练。

🧠 总结重点:

  • 蒸馏方法为提升轻量模型性能提供了有效手段;

  • 本文通过蒸馏策略,使 DVMSR 能在模型小的同时保证超分效果优良;

  • 不需要结构对齐,适配性强,适合 Mamba 这种新架构。


📌 整体小结


🔍 相关工作总结

1️⃣ 轻量级超分辨率

传统超分网络虽精度高但计算开销大,难以部署于移动或边缘设备。为解决这一问题,研究者们发展了如 FSRCNN、IMDN、RFDN 等系列轻量网络,结合结构重用、残差连接、信息蒸馏等手段,有效减少模型参数与计算量。2023 年 NTIRE 高效 SR 竞赛冠军 DIPNet 进一步证明轻量网络的重要性。

2️⃣ 状态空间模型(Mamba)在视觉任务中的应用

Mamba 架构以其高效的长距离依赖建模能力,在 NLP 中表现出色,并逐步拓展至视频分类、图像分类等视觉任务中。近期研究表明其在低级视觉任务(如图像修复)中也具有潜力。本文首次尝试将 Mamba 引入图像超分辨率领域,提出以 ViMM 模块为核心的 DVMSR 架构。

3️⃣ 知识蒸馏在超分任务中的应用

为了进一步提升轻量模型的性能,本文引入了知识蒸馏策略。通过使用预训练教师模型的中间特征图作为监督信号,DVMSR 在推理速度快、参数少的前提下,也能获得较高的超分重建质量。

方法

Motivation

1. 核心问题

现有方法的局限性:

  • CNN方法(如IMDN/RFDN):依赖局部卷积,难以建模远距离像素依赖,限制重建质量。
  • Transformer方法:虽能捕获全局上下文,但计算复杂度高(如自注意力机制),不适合轻量级SR场景。

2. Mamba的潜力
理论优势:

  • 长距离建模:通过状态空间模型(SSM)实现线性复杂度的全局依赖捕获。
  • 高效计算:序列长度增加时计算量仅线性增长(Transformer为二次增长)。

未解问题:Mamba在底层视觉(如SR)中的有效性尚未验证。

3. 动机验证工具
局部注意力映射(LAM)

功能:量化输入像素对重建结果的贡献程度(图2中红色标记为关键像素)。

关键发现:

  • DVMSR的扩散指数(DI)显著高于CNN/Transformer,证明其能利用更广范围的像素信息。
  • 可视化显示Mamba重建的细节更清晰(如边缘和纹理)。

4. 方法目标

  • 核心创新:将Mamba的长程建模+高效计算特性引入高效SR任务。
  • 对比优势:参数量/计算量接近轻量CNN,性能逼近Transformer。通过LAM实验验证其长距离依赖建模能力。

5. 研究意义

  • 新方向:首次系统性探索Mamba在SR任务中的适用性。
  • 实用价值:为轻量级SR模型提供「全局感知+低计算」的新方案。

Preliminaries

Mamba 利用状态空间模型(SSM)来实现对长序列(如图像行、视频帧)的高效建模,并通过将连续系统离散化,获得能在深度学习中训练的可微结构。

1. 状态空间模型基本定义(连续形式)

SSM 的定义形式如下:

h′(t) = A h(t) + B x(t)   (隐藏状态的微分方程)
y(t) = C h(t)             (输出是隐藏状态的线性变换)

解释:

  • 这是一个连续时间系统(continuous-time system),以输入序列 x(t)驱动隐藏状态 h(t),进而输出 y(t)。

  • 这个思想来自控制论中常见的模型,比如卡尔曼滤波、物理系统建模等。

其中:

  • h(t)\epsilon \mathbb{R}^{N}:隐藏状态向量
  • A\epsilon \mathbb{R}^{N\times N}:状态转移矩阵
  • B\epsilon \mathbb{R}^{N\times 1}:输入到状态的权重
  • C\epsilon \mathbb{R}^{1\times N}:状态到输出的映射

2. 离散化:从连续系统变成神经网络可训练结构

离散化公式:

Ā = exp(ΔA)
B̄ = (ΔA)⁻¹ (exp(ΔA) − I) ⋅ ΔB

解释:

  • 为了在神经网络中使用,我们需将微分形式转化为“步进”的离散形式(也就是从t\rightarrow t+1

  • ZOH(Zero-Order Hold)是一种常见的离散化方法,它近似连续时间信号在每一小段时间内保持常值。

3. 离散状态空间模型(适用于深度学习)

离散后得到的更新公式:

h_{t}=\overline{A}h_{t-1}+\overline{B}x_{t}

y_{t}=Ch_{t}

解释:

  • 这就是我们在模型中迭代计算的方式。每个时刻的状态由前一个状态和当前输入共同决定,输出则是当前状态的映射。

  • 可以看作是一个结构化的、线性递归神经网络(Linear RNN)

4.在 Mamba 模型中的意义

  • Mamba 用这种结构代替了传统的 Self-Attention(如 Transformer)或 CNN,来实现长依赖建模。

  • 优势是线性计算复杂度(O(n)),比 Attention 的 O(n²) 高效得多。

  • 而且是可微的模块,可以嵌入到图像/视频/多模态任务中。

小结

  1. 状态空间模型(SSM)源自控制系统,用一组线性方程建模输入、状态与输出的关系,适用于处理长序列。

  2. Mamba 模型通过 ZOH 将连续系统离散化,得到可用于深度学习训练的递推公式。

  3. 相比于 Transformer,Mamba 在序列建模中具有线性复杂度与更强的长依赖建模能力,并已扩展到视觉、语言等多模态任务。

Overall network architecture

DVMSR 网络的整体架构如图3所示。DVMSR 主要由三个模块构成:特征提取卷积层、多个堆叠的残差状态空间模块(RSSB),以及一个重建模块

  1. 输入是一个尺寸为 H×W,通道数为 Cin的低分辨率图像;使用一个卷积层提取浅层特征,得到 F0​,用于后续的残差连接。
  2. 利用一系列的 RSSB 模块和一个 3×3 卷积层 HConv(⋅)来进行深度特征提取。接着,我们通过一个全局残差连接将浅层特征 F0F_0F0​ 与深层特征 FD融合,
  3. 最后通过重建模块恢复高分辨率图像。在重建模块中,使用 pixel-shuffle 方法对融合特征进行上采样,生成最终的高清图像。

如图3所示,每个 RSSB 包含两个 Vision Mamba 模块(ViMM)和一个带有残差连接的 3×3 卷积层。

  • ViMM 是基于 Mamba 架构的视觉模块;

  • 每个 RSSB 内部包含两个 ViMM,加一个卷积层,并通过残差连接将输入与输出相加;

  • 这种结构可以增强时序建模能力,适用于视觉任务中的长距离依赖建模。

Mamba network

🧠 ViMM(Vision Mamba Module)模块介绍:

Mamba 网络的结构如图4所示,即视觉 Mamba 模块(ViMM),采用单向序列建模方式。

  • ViMM 是把 Mamba 引入视觉任务的一个模块,核心思想是用 状态空间模型(SSM) 进行序列建模,模拟长距离依赖。

  • 在视觉任务中,输入的图像特征 X 被展开为类似 token 的序列,然后按“时序”的方式进行建模(虽然本质是空间上的序列)。

🪄 步骤 1:输入归一化

输入序列 X\epsilon \mathbb{R}^{H\times W\times C}首先经过 Layer Normalization(LN)层进行归一化。

  • 图像的每个像素点的通道向量会进行归一化,增强训练稳定性;

  • 通常 LN 是对最后一个维度(即通道维)做归一化处理。


🔁 步骤 2:线性映射 + 升维

然后对归一化后的序列做线性变换,将通道数从 C扩展为 λC。

  • 这是为了给后续的状态建模提供更多特征空间;

  • λ是一个扩展因子,通常是 2 或 4,表示升维比例。


🧱 步骤 3:使用 1D 卷积 + SSM 模型计算X_{1}

接着,将线性变换后的特征送入 1D 卷积层,再进入状态空间模块(SSM),得到中间结果X_{1} ​:

X_{1}=SSM(Conv1d(Linear(LN(X))))

  • 卷积是为了引入局部建模;

  • SSM 模块可以看作是一个轻量的序列处理器(类似 Transformer 但更高效),擅长捕捉长距离依赖。


✨ 步骤 4:门控机制计算 X{_{2}}

并行地,再用另一条分支将归一化后的输入做线性映射 + SiLU 激活函数,得到门控向量X{_{2}}

X{_{2}}=SiLU(Linear(LN(X)))

  • 这是用于对 X_{1} 做元素级控制的门控通道;

  • SiLU 是一种光滑的激活函数,形式是 SiLU(x)=x\cdot \sigma (x),它比 ReLU 更柔和,适合表达细粒度变化。


🔗 步骤 5:融合与残差连接

最后将 X_{1} ​ 和 ​X{_{2}} 做 Hadamard 乘积(即元素乘),再通过线性映射,最后加上残差连接:

X^{_{out}}=Linear(X_{1}\odot X_{2})+X

  • ⊙ 是 Hadamard 乘积,表示逐元素相乘;

  • 再通过线性变换映射回原通道维度 C,并加上原始输入 X,形成残差连接,保留输入信息。

🧩 总结一下结构流程:

输入 X ∈ [H, W, C]
    │
LayerNorm(归一化)
    ├──→ Linear → Conv1d → SSM ────→ X1
    └──→ Linear → SiLU            → X2
                           ↓
                    X1 ⊙ X2 → Linear → +X(残差)→ Xout
🧠 模块优势:
  • ViMM 使用 轻量级状态空间建模(SSM) 替代了传统的自注意力;

  • 通过 双分支门控机制 增强了表达能力;

  • 模块计算效率高,适合部署在资源受限设备上(比如轻量超分模型中);

  • 带有 残差结构,帮助梯度更好传播。

门控机制(Gating Mechanism)?

门控机制是一种通过“控制信号”来调节信息流动的机制。最经典的例子就是 RNN 里的 LSTM/GRU——里面的“遗忘门”、“输入门”就是用来控制“保留多少、忘掉多少”。

在深度学习中,门控机制一般形式如下:

Output = Gate ⊙ Value
  • Gate:一个控制信号(通常经过激活函数,如 Sigmoid/SiLU)

  • Value:要处理的主分支特征

  • ⊙:表示 Hadamard 乘积(逐元素相乘)

这个乘法操作可以理解为“打个权重”,让某些信息通过、某些信息被抑制

那什么是“双分支门控”?

双分支门控机制(Two-Branch Gating Mechanism)指的是:

将输入特征 X 分成两条计算路径(分支),分别生成:

  • 一个是信息分支:提取主要特征(在 ViMM 中是经过 Conv1d 和 SSM 的X_{1}​)

  • 一个是门控分支:计算一个“控制信号”或“门值”(ViMM 中是X{_{2}} ,用了 Linear + SiLU)

最后两者做元素级乘积:

X^{_{out}}=Linear(X_{1}\odot X_{2})+X

这就像是给特征加了一个“调音器”:

只有那些“门”值高的通道,才会让特征顺利通过;门值低的,就会被抑制

📌 为什么要这样设计?

  1. 信息选择性增强
    不同的通道、空间位置的重要性是不一样的。门控机制能帮模型“学会关注重点”

  2. 模型更具表达能力
    比单一路径强,尤其在轻量模型中,可以用很少的参数实现灵活的特征调整。

  3. 与残差结合,梯度更稳定
    输出还加了原始输入残差,让训练更稳定,信息保留更充分。

🖼️ 用一句话总结结构(类比):

“一个人(模型)做决定之前(输出结果),左脑(主分支)分析问题,右脑(门控分支)判断是否采纳,然后再决定说出口(最终输出)。”

🚀 小结:

项目内容
机制名称双分支门控机制
主要构成主分支(信息提取)+ 门控分支(控制信号)
关键操作元素级乘法(Hadamard Product)
作用控制特征流通,提升表达能力,增加非线性

🧠 门控机制 vs 注意力机制

项目门控机制(Gating)注意力机制(Attention)
目标控制信息流通,突出重点赋予不同位置/通道不同权重
核心操作元素级乘法:Gate ⊙ Value权重加权求和:Σ (Weight ⊗ Value)
门/权重来源通过一条分支动态生成 Gate通过 Query/Key/Value 计算 Attention Score
作用方式控制某一位置/通道“放大或抑制”控制某一位置对其他位置的关注度
本质局部注意力(不显式建图)显式建图的全局注意力
  • 注意力机制:通常是全局加权,比如 Transformer 是每个 token 对所有 token 建图,计算注意力分数;

  • 门控机制:更像是局部权重控制,用轻量级结构(比如 Linear + 激活)学习每个位置/通道的权重,计算代价低,非常适合用在轻量模型或边缘设备上(比如 DVMSR 这种超分模型)。

📌 类比一个生活场景:

模型结构类比说明
注意力机制像在会议上,每个人都听所有人发言,然后决定重点关注谁(全局互动)
门控机制像给每个员工发一个“工作许可”按钮(控制当前人是否继续做事)

Distillation strategy

🌟 什么是蒸馏(Distillation)?

在深度学习中,知识蒸馏(Knowledge Distillation)的本质是:

用一个性能更强的大模型(教师)去“指导”一个更小或更轻量的模型(学生),让它也学会类似的表示和能力。

这样可以:

  • 保证轻量模型精度不掉太多

  • 提升小模型的泛化能力


📚 DVMSR 中的蒸馏结构(来自 Fig. 5)

论文中提到,他们引入了一个叫 Deep Feature Distillation Strategy 的方法,主要包括几个关键部分:

🧠 教师网络(Teacher Network):T(·)

  • 它是一个大模型/强模型

  • 在蒸馏时保持 固定不变(不更新参数)

  • 对输入图像提取出深层次特征,作为学生学习的“目标”

🧒 学生网络(Student Network):S(·)

  • 就是我们正在训练的 DVMSR 模型

  • 它不仅要学会还原高分辨率图像,还要学会模仿教师的中间特征


✍️ 损失函数解析(Loss Function)

他们的总损失函数是:

L_{out}=\lambda _{dis}L_{dis}+\lambda {_{1}}L_{1}

其中各部分是:

名称表达式含义
Ldis(蒸馏损失)\left \| T (I_{LR})-S(I_{LR}) \right \|_{1}教师和学生的特征差距,鼓励学生“学得像老师”
L1(重建损失)\left \| I_{HR}-S(I_{LR}) \right \|_{1}学生输出图像与真实高分图像的差异
λdis, λ1都设为 1控制两种损失的权重(论文里默认相等)

也就是说,学生模型既要:

  • 还原图像好(L1)

  • 特征学得像老师(Ldis)

这是一个双目标学习,强化模型学习深层表示能力。

🎯 为什么这样设计?

因为对于图像超分任务来说,仅仅看输出图像和 GT 的 L1 差距还不够,如果学生模型的中间特征表达能力不足,就算图像看起来差不多,可能细节信息不对

  • 加入教师指导的中间特征对齐,可以让学生更好地学到细节结构、纹理等高阶语义信息。
总结

DVMSR 的蒸馏策略通过引入教师模型的中间特征作为引导,让学生模型在还原高分图像的同时,学到更深更丰富的图像表达,提升了性能和泛化能力。

实验

数据集和指标

在本文中,使用具有 3450 张图像的 DF2K (DIV2K + Flickr2K) [48] 从头开始训练所提出的模型。在测试过程中,我们选择了五个标准基准数据集:Set5 [3]、Set14 [58]、BSD100 [41]、Urban100 [16] 和 Manga109 [42]。低分辨率图像是通过 MATLAB 中的“双立方”下采样从真实图像生成的。通过丢弃图像周围的 4 像素边界来测量的 PSNR/SSIM,并在 Y 通道上计算的 PSNR/SSIM 报告为定量指标。

实现细节

在训练过程中,我们将输入patch size: 256 × 256,并使用随机旋转和水平翻转进行数据增强。批处理大小设置为 128,迭代总数为 500k。初始学习率设置为 2 × 10−4。我们采用多步骤学习率策略,当迭代分别达到 250000、400000、450000 和 475000 时,学习率将减半。使用 β1 = 0.9 和 β2 = 0.99 的 Adam 优化器来训练模型。

Distillation training.在教师学习阶段,我们利用 2K 分辨率的 DF2K 数据集来训练教师网络,该网络包括 8 个 RSSB 和 2 个 ViMM 模块,具有 192 个通道。在蒸馏训练阶段,我们将 DF2K 数据集用于学生网络,其中包含 4 个 RSSB 和 2 个 ViMM 块,具有 60 个通道。

模型 SwinIR & DVMSR 

我们的调查重点是 Mamba 在超分辨率 (SR) 任务中的表现。在图 2 中,我们展示了使用 LAM 的 DVMSR 出色的远程建模能力。此外,我们还在模型复杂性方面将 DVMSR 与基于 transformer 的模型 SwinIR 进行了比较。SwinIR 在 PSNR 方面的性能比 DVMSR 高出 0.23 dB,但代价是参数数量大约是 DVMSR 的两倍,FLOPS 明显更高,推理时间长约 20 倍。这些发现表明,基于 Mamba 的模型有望实现高效的 SR。

1.性能对比

  • 精度(PSNR):SwinIR(29.20 dB)略优于DVMSR(28.97 dB)
  • 速度(Time):DVMSR(0.048s)比SwinIR(0.865s)快约18倍

2.复杂度指标

  • 参数量:DVMSR(0.42M)仅为SwinIR(0.93M)的45.6%,显示更紧凑的模型设计。
  • 计算量(FLOPs):DVMSR(20.17G)减少71.5%,得益于状态空间模型(SSM)的线性复杂度特性。
  • 内存占用:DVMSR(1094MB)降低24.8%,更适合资源受限场景。

3.关键发现

  • 效率-精度权衡:DVMSR以微小PSNR损失换取显著加速,适合实时超分辨率任务。
  • 激活值相同(26.7387):表明两者特征图尺寸设计一致,差异主要源于计算方式(ViMM vs. Transformer)。

总结

我们提出了轻量级超分网络 DVMSR,结合 Vision Mamba 模块与蒸馏策略。网络由特征提取、多个残差状态空间块(RSSB)和重建模块构成,具备建模远程依赖的能力。通过引入教师模型监督,有效提升了学生模型性能。尽管本工作展示了 Mamba 在图像超分中的潜力,但仍有待进一步深入探索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值