超分论文精读：DVMSR—Distillated Vision Mamba for Efficient Super-Resolution-CSDN博客

本文链接：https://blog.csdn.net/m0_68654818/article/details/147192852

原文链接：CVPR 2024 Open Access Repository

Pytorch开源代码：https://github.com/nathan66666/DVMSR.git

摘要

高效图像超分辨率（Efficient Image Super-Resolution, SR） 旨在通过最小化计算复杂度和网络参数量来加速SR网络推理，同时保持性能。现有基于卷积神经网络（CNN）的高效图像超分辨率方法已取得先进成果，但鲜有研究尝试利用Mamba的长程建模能力和高效计算特性（该特性在高层视觉任务中表现优异）。本文提出DVMSR——一种结合视觉Mamba（Vision Mamba）和蒸馏策略的新型轻量级图像SR网络。

DVMSR的网络结构包含三个模块：特征提取卷积层、多个堆叠的残差状态空间块（RSSB）和重建模块。其中，深度特征提取模块由若干RSSB组成，每个RSSB包含多个视觉Mamba模块（ViMM）和残差连接。为在保持性能的同时提升效率，我们采用蒸馏策略优化视觉Mamba网络：利用教师网络的丰富表征知识作为轻量级学生网络输出的额外监督。大量实验表明，DVMSR在模型参数量上优于当前最高效的SR方法，同时保持PSNR和SSIM性能。

关键词：图像超分辨率、视觉Mamba、残差状态空间块、模型蒸馏、轻量网络

总结

核心创新

提出DVMSR，首个将视觉Mamba（ViMM）引入图像超分辨率的轻量级网络，利用Mamba的长程依赖建模能力和低计算复杂度优势。
设计残差状态空间块（RSSB）作为主干模块，结合ViMM与残差连接，平衡性能与效率。
采用蒸馏策略，通过教师网络监督轻量学生网络，进一步提升性能。

优势

高效轻量：在减少参数量的情况下，保持甚至超越现有CNN-based高效SR方法的PSNR/SSIM指标。
开源代码：提供完整实现，便于复现和应用。

意义

为高效SR任务提供了新思路，证明Mamba结构在底层视觉任务（如超分）中的潜力。
蒸馏策略的引入为轻量模型性能优化提供了可行方案。

引言

🔍 1. 研究背景与意义

图像超分辨率（SR） 是图像处理中的一项基础任务，目标是将低分辨率图像重建为高分辨率图像。
随着深度学习的发展，越来越多的 CNN 架构被应用于 SR 任务中，显著提升了性能。
然而在实际应用中（如移动端、边缘设备），除了精度，还需关注模型的效率，包括：
- 推理时间
- 参数数量
- 计算量（FLOPS）
- 激活值大小
- 网络深度
因此，“高效超分辨率模型”成为当前研究热点。

🧩 2. 相关工作回顾

IMDN（2019）：引入信息多重蒸馏模块（IMD Module），AIM 竞赛冠军。
RFDN（2020）：基于残差学习优化 IMDN，提高重建效果。
RLFN（2022）：精简蒸馏连接结构，进一步提升推理效率。
NTIRE 2022：高效 SR 赛道冠军方案结合知识蒸馏与剪枝，提升效率同时缩小模型规模。

✅ 这一系列模型为构建高效 SR 网络提供了宝贵思路，但都仍以 CNN 架构为主。

🧠 3. 引入 Mamba 模型的动机

Transformer 在 NLP 和高阶视觉任务中取得成功，具备全局建模能力，但在低级视觉中的应用仍有限。
Mamba 模型作为一种新的状态空间序列建模架构：
- 更高效（支持线性扩展）
- 能处理长序列建模任务
- 在多个尺度和数据集上超越 Transformer
本文尝试将 Mamba 引入 SR 任务，探索其在高效建模长距离依赖信息方面的潜力。

🧱 4. DVMSR 模型结构简介

基础架构：DVMSR 以视觉 Mamba 为核心构建。
模块组成：
- RSSB（Residual State Space Block）：残差状态空间模块，构建模型主干。
- 每个 RSSB 内部堆叠多个 ViMM（Visual Mamba Module）
ViMM 结构：
- 单向状态空间模型（SSM） → 长距离建模
- 残差连接 → 稳定训练
- SiLU 激活函数 → 提升非线性表达能力

这些设计帮助 DVMSR 达到更大感受野、快速收敛、高建模效率。

🧪5. 知识蒸馏策略

引入教师-学生结构：
- 教师模型：参数较大的 Mamba 网络
- 学生模型：轻量 DVMSR
教师网络引导学生学习更有效的表示，以实现：
- 更高的重建精度
- 更小的模型体积
- 更快的推理速度

✅ 此策略特别适合高效 SR 任务中的轻量网络训练。

🎯6. 作者贡献总结

提出一种结合状态空间建模的轻量视觉 Mamba 架构，在 SR 任务中展现出良好建模能力与效率。
设计了与 Mamba 结构配套的特征蒸馏机制，提升网络训练效果。
在多个实验中验证了模型的有效性，在参数更少的情况下仍保持良好 PSNR 与 SSIM。

✍️7. 个人理解与思考

✅ 创新点突出：首次将视觉 Mamba 架构引入高效 SR 任务，结合 SSM 和残差设计是亮点。
✅ 应用前景广阔：特别适合边缘计算、移动设备等对推理速度和模型大小有要求的场景。

方法

Motivation

1. 核心问题

现有方法的局限性：

CNN方法（如IMDN/RFDN）：依赖局部卷积，难以建模远距离像素依赖，限制重建质量。
Transformer方法：虽能捕获全局上下文，但计算复杂度高（如自注意力机制），不适合轻量级SR场景。

2. Mamba的潜力
理论优势：

长距离建模：通过状态空间模型（SSM）实现线性复杂度的全局依赖捕获。
高效计算：序列长度增加时计算量仅线性增长（Transformer为二次增长）。

未解问题：Mamba在底层视觉（如SR）中的有效性尚未验证。

3. 动机验证工具
局部注意力映射（LAM）：

功能：量化输入像素对重建结果的贡献程度（图2中红色标记为关键像素）。

关键发现：

DVMSR的扩散指数（DI）显著高于CNN/Transformer，证明其能利用更广范围的像素信息。
可视化显示Mamba重建的细节更清晰（如边缘和纹理）。

4. 方法目标

核心创新：将Mamba的长程建模+高效计算特性引入高效SR任务。
对比优势：参数量/计算量接近轻量CNN，性能逼近Transformer。通过LAM实验验证其长距离依赖建模能力。

5. 研究意义

新方向：首次系统性探索Mamba在SR任务中的适用性。
实用价值：为轻量级SR模型提供「全局感知+低计算」的新方案。

Preliminaries

Mamba 利用状态空间模型（SSM）来实现对长序列（如图像行、视频帧）的高效建模，并通过将连续系统离散化，获得能在深度学习中训练的可微结构。

1. 状态空间模型基本定义（连续形式）

SSM 的定义形式如下：

h′(t) = A h(t) + B x(t)   （隐藏状态的微分方程）
y(t) = C h(t)             （输出是隐藏状态的线性变换）

解释：

这是一个连续时间系统（continuous-time system），以输入序列 x(t)驱动隐藏状态 h(t)，进而输出 y(t)。
这个思想来自控制论中常见的模型，比如卡尔曼滤波、物理系统建模等。

其中：

$h(t)\epsilon \mathbb{R}^{N}$ :隐藏状态向量
$A\epsilon \mathbb{R}^{N\times N}$ :状态转移矩阵
$B\epsilon \mathbb{R}^{N\times 1}$ :输入到状态的权重
$C\epsilon \mathbb{R}^{1\times N}$ :状态到输出的映射

2. 离散化：从连续系统变成神经网络可训练结构

离散化公式：

Ā = exp(ΔA)
B̄ = (ΔA)⁻¹ (exp(ΔA) − I) ⋅ ΔB

解释：

为了在神经网络中使用，我们需将微分形式转化为“步进”的离散形式（也就是从 $t\rightarrow t+1$ ）
ZOH（Zero-Order Hold）是一种常见的离散化方法，它近似连续时间信号在每一小段时间内保持常值。

3. 离散状态空间模型（适用于深度学习）

离散后得到的更新公式：

$h_{t}=\overline{A}h_{t-1}+\overline{B}x_{t}$

$y_{t}=Ch_{t}$

解释：

这就是我们在模型中迭代计算的方式。每个时刻的状态由前一个状态和当前输入共同决定，输出则是当前状态的映射。
可以看作是一个结构化的、线性递归神经网络（Linear RNN）。

4.在 Mamba 模型中的意义

Mamba 用这种结构代替了传统的 Self-Attention（如 Transformer）或 CNN，来实现长依赖建模。
优势是线性计算复杂度（O(n)），比 Attention 的 O(n²) 高效得多。
而且是可微的模块，可以嵌入到图像/视频/多模态任务中。

小结

状态空间模型（SSM）源自控制系统，用一组线性方程建模输入、状态与输出的关系，适用于处理长序列。
Mamba 模型通过 ZOH 将连续系统离散化，得到可用于深度学习训练的递推公式。
相比于 Transformer，Mamba 在序列建模中具有线性复杂度与更强的长依赖建模能力，并已扩展到视觉、语言等多模态任务。

Overall network architecture

DVMSR 网络的整体架构如图3所示。DVMSR 主要由三个模块构成：特征提取卷积层、多个堆叠的残差状态空间模块（RSSB），以及一个重建模块。

输入是一个尺寸为 H×W，通道数为 Cin的低分辨率图像；使用一个卷积层提取浅层特征，得到 F0，用于后续的残差连接。
利用一系列的 RSSB 模块和一个 3×3 卷积层 HConv(⋅)来进行深度特征提取。接着，我们通过一个全局残差连接将浅层特征 F0F_0F0 与深层特征 FD融合，
最后通过重建模块恢复高分辨率图像。在重建模块中，使用 pixel-shuffle 方法对融合特征进行上采样，生成最终的高清图像。

如图3所示，每个 RSSB 包含两个 Vision Mamba 模块（ViMM）和一个带有残差连接的 3×3 卷积层。

ViMM 是基于 Mamba 架构的视觉模块；
每个 RSSB 内部包含两个 ViMM，加一个卷积层，并通过残差连接将输入与输出相加；
这种结构可以增强时序建模能力，适用于视觉任务中的长距离依赖建模。

Mamba network

🧠 ViMM（Vision Mamba Module）模块介绍：

Mamba 网络的结构如图4所示，即视觉 Mamba 模块（ViMM），采用单向序列建模方式。

ViMM 是把 Mamba 引入视觉任务的一个模块，核心思想是用 状态空间模型（SSM） 进行序列建模，模拟长距离依赖。
在视觉任务中，输入的图像特征 X 被展开为类似 token 的序列，然后按“时序”的方式进行建模（虽然本质是空间上的序列）。

🪄 步骤 1：输入归一化

输入序列 $X\epsilon \mathbb{R}^{H\times W\times C}$ 首先经过 Layer Normalization（LN）层进行归一化。

图像的每个像素点的通道向量会进行归一化，增强训练稳定性；
通常 LN 是对最后一个维度（即通道维）做归一化处理。

🔁 步骤 2：线性映射 + 升维

然后对归一化后的序列做线性变换，将通道数从 C扩展为 λC。

这是为了给后续的状态建模提供更多特征空间；
λ是一个扩展因子，通常是 2 或 4，表示升维比例。

🧱 步骤 3：使用 1D 卷积 + SSM 模型计算 $X_{1}$

接着，将线性变换后的特征送入 1D 卷积层，再进入状态空间模块（SSM），得到中间结果 $X_{1}$ ：

$X_{1}=SSM(Conv1d(Linear(LN(X))))$

卷积是为了引入局部建模；
SSM 模块可以看作是一个轻量的序列处理器（类似 Transformer 但更高效），擅长捕捉长距离依赖。

✨ 步骤 4：门控机制计算 $X{_{2}}$

并行地，再用另一条分支将归一化后的输入做线性映射 + SiLU 激活函数，得到门控向量 $X{_{2}}$

$X{_{2}}=SiLU(Linear(LN(X)))$

这是用于对 $X_{1}$ 做元素级控制的门控通道；
SiLU 是一种光滑的激活函数，形式是 $SiLU(x)=x\cdot \sigma (x)$ ，它比 ReLU 更柔和，适合表达细粒度变化。

🔗 步骤 5：融合与残差连接

最后将 $X_{1}$  和  $X{_{2}}$ 做 Hadamard 乘积（即元素乘），再通过线性映射，最后加上残差连接：

$X^{_{out}}=Linear(X_{1}\odot X_{2})+X$

⊙ 是 Hadamard 乘积，表示逐元素相乘；
再通过线性变换映射回原通道维度 C，并加上原始输入 X，形成残差连接，保留输入信息。

🧩 总结一下结构流程：

输入 X ∈ [H, W, C]
    │
LayerNorm（归一化）
    ├──→ Linear → Conv1d → SSM ────→ X1
    └──→ Linear → SiLU            → X2
                           ↓
                    X1 ⊙ X2 → Linear → +X（残差）→ Xout

🧠 模块优势：

ViMM 使用 轻量级状态空间建模（SSM） 替代了传统的自注意力；
通过 双分支门控机制 增强了表达能力；
模块计算效率高，适合部署在资源受限设备上（比如轻量超分模型中）；
带有 残差结构，帮助梯度更好传播。

门控机制（Gating Mechanism）？

门控机制是一种通过“控制信号”来调节信息流动的机制。最经典的例子就是 RNN 里的 LSTM/GRU——里面的“遗忘门”、“输入门”就是用来控制“保留多少、忘掉多少”。

在深度学习中，门控机制一般形式如下：

Output = Gate ⊙ Value

Gate：一个控制信号（通常经过激活函数，如 Sigmoid/SiLU）
Value：要处理的主分支特征
⊙：表示 Hadamard 乘积（逐元素相乘）

这个乘法操作可以理解为“打个权重”，让某些信息通过、某些信息被抑制。

那什么是“双分支门控”？

双分支门控机制（Two-Branch Gating Mechanism）指的是：

将输入特征 X 分成两条计算路径（分支），分别生成：

一个是信息分支：提取主要特征（在 ViMM 中是经过 Conv1d 和 SSM 的 $X_{1}$ ）

一个是门控分支：计算一个“控制信号”或“门值”（ViMM 中是 $X{_{2}}$ ，用了 Linear + SiLU）

最后两者做元素级乘积：

$X^{_{out}}=Linear(X_{1}\odot X_{2})+X$

这就像是给特征加了一个“调音器”：

只有那些“门”值高的通道，才会让特征顺利通过；门值低的，就会被抑制。

📌 为什么要这样设计？

信息选择性增强
不同的通道、空间位置的重要性是不一样的。门控机制能帮模型“学会关注重点”。
模型更具表达能力
比单一路径强，尤其在轻量模型中，可以用很少的参数实现灵活的特征调整。
与残差结合，梯度更稳定
输出还加了原始输入残差，让训练更稳定，信息保留更充分。

🖼️ 用一句话总结结构（类比）：

“一个人（模型）做决定之前（输出结果），左脑（主分支）分析问题，右脑（门控分支）判断是否采纳，然后再决定说出口（最终输出）。”

🚀 小结：

项目	内容
机制名称	双分支门控机制
主要构成	主分支（信息提取）+ 门控分支（控制信号）
关键操作	元素级乘法（Hadamard Product）
作用	控制特征流通，提升表达能力，增加非线性

🧠 门控机制 vs 注意力机制

项目	门控机制（Gating）	注意力机制（Attention）
目标	控制信息流通，突出重点	赋予不同位置/通道不同权重
核心操作	元素级乘法：`Gate ⊙ Value`	权重加权求和：`Σ (Weight ⊗ Value)`
门/权重来源	通过一条分支动态生成 `Gate`	通过 Query/Key/Value 计算 `Attention Score`
作用方式	控制某一位置/通道“放大或抑制”	控制某一位置对其他位置的关注度
本质	局部注意力（不显式建图）	显式建图的全局注意力

注意力机制：通常是全局加权，比如 Transformer 是每个 token 对所有 token 建图，计算注意力分数；
门控机制：更像是局部权重控制，用轻量级结构（比如 Linear + 激活）学习每个位置/通道的权重，计算代价低，非常适合用在轻量模型或边缘设备上（比如 DVMSR 这种超分模型）。

📌 类比一个生活场景：

模型结构	类比说明
注意力机制	像在会议上，每个人都听所有人发言，然后决定重点关注谁（全局互动）
门控机制	像给每个员工发一个“工作许可”按钮（控制当前人是否继续做事）

Distillation strategy

🌟 什么是蒸馏（Distillation）？

在深度学习中，知识蒸馏（Knowledge Distillation）的本质是：

用一个性能更强的大模型（教师）去“指导”一个更小或更轻量的模型（学生），让它也学会类似的表示和能力。

这样可以：

保证轻量模型精度不掉太多
提升小模型的泛化能力

📚 DVMSR 中的蒸馏结构（来自 Fig. 5）

论文中提到，他们引入了一个叫 Deep Feature Distillation Strategy 的方法，主要包括几个关键部分：

🧠 教师网络（Teacher Network）：T(·)

它是一个大模型/强模型
在蒸馏时保持 固定不变（不更新参数）
对输入图像提取出深层次特征，作为学生学习的“目标”

🧒 学生网络（Student Network）：S(·)

就是我们正在训练的 DVMSR 模型
它不仅要学会还原高分辨率图像，还要学会模仿教师的中间特征

✍️ 损失函数解析（Loss Function）

他们的总损失函数是：

$L_{out}=\lambda _{dis}L_{dis}+\lambda {_{1}}L_{1}$

其中各部分是：

名称	表达式	含义
Ldis（蒸馏损失）	$\left \\| T (I_{LR})-S(I_{LR}) \right \\|_{1}$	教师和学生的特征差距，鼓励学生“学得像老师”
L1（重建损失）	$\left \\| I_{HR}-S(I_{LR}) \right \\|_{1}$	学生输出图像与真实高分图像的差异
λdis, λ1	都设为 1	控制两种损失的权重（论文里默认相等）

也就是说，学生模型既要：

还原图像好（L1）
特征学得像老师（Ldis）

这是一个双目标学习，强化模型学习深层表示能力。

🎯 为什么这样设计？

因为对于图像超分任务来说，仅仅看输出图像和 GT 的 L1 差距还不够，如果学生模型的中间特征表达能力不足，就算图像看起来差不多，可能细节信息不对

加入教师指导的中间特征对齐，可以让学生更好地学到细节结构、纹理等高阶语义信息。

总结

DVMSR 的蒸馏策略通过引入教师模型的中间特征作为引导，让学生模型在还原高分图像的同时，学到更深更丰富的图像表达，提升了性能和泛化能力。

实验

数据集和指标

在本文中，使用具有 3450 张图像的 DF2K （DIV2K + Flickr2K） [48] 从头开始训练所提出的模型。在测试过程中，我们选择了五个标准基准数据集：Set5 [3]、Set14 [58]、BSD100 [41]、Urban100 [16] 和 Manga109 [42]。低分辨率图像是通过 MATLAB 中的“双立方”下采样从真实图像生成的。通过丢弃图像周围的 4 像素边界来测量的 PSNR/SSIM，并在 Y 通道上计算的 PSNR/SSIM 报告为定量指标。

实现细节

在训练过程中，我们将输入patch size: 256 × 256，并使用随机旋转和水平翻转进行数据增强。批处理大小设置为 128，迭代总数为 500k。初始学习率设置为 2 × 10−4。我们采用多步骤学习率策略，当迭代分别达到 250000、400000、450000 和 475000 时，学习率将减半。使用 β1 = 0.9 和 β2 = 0.99 的 Adam 优化器来训练模型。

Distillation training.在教师学习阶段，我们利用 2K 分辨率的 DF2K 数据集来训练教师网络，该网络包括 8 个 RSSB 和 2 个 ViMM 模块，具有 192 个通道。在蒸馏训练阶段，我们将 DF2K 数据集用于学生网络，其中包含 4 个 RSSB 和 2 个 ViMM 块，具有 60 个通道。

模型 SwinIR & DVMSR

我们的调查重点是 Mamba 在超分辨率（SR）任务中的表现。在图 2 中，我们展示了使用 LAM 的 DVMSR 出色的远程建模能力。此外，我们还在模型复杂性方面将 DVMSR 与基于 transformer 的模型 SwinIR 进行了比较。SwinIR 在 PSNR 方面的性能比 DVMSR 高出 0.23 dB，但代价是参数数量大约是 DVMSR 的两倍，FLOPS 明显更高，推理时间长约 20 倍。这些发现表明，基于 Mamba 的模型有望实现高效的 SR。

1.性能对比