点击下方“计算机书童”卡片,每天获取顶刊论文解读
完整版论文中文解读PDF请加入知识星球获取
题目:MambaIR: A Simple Baseline for Image Restoration with State-Space Model
MambaIR:基于Mamba模型的图像恢复简单基线
作者:Hang Guo, Jinmin Li, Tao Dai, Zhihao Ouyang, Xudong Ren, Shu-Tao Xia
源码:https://github.com/csguoh/MambaIR
论文创新点
首次将状态空间模型应用于图像恢复:作者首次将Mamba这一先进的状态空间模型引入到图像恢复任务中,提出了MambaIR,作为CNN和Transformer方法的简单但有效的替代方案。
提出残差状态空间块(RSSB):为了解决标准Mamba在图像恢复中的局部像素遗忘和通道冗余问题,作者设计了残差状态空间块(RSSB),通过引入局部卷积和通道注意力机制,显著提升了模型的性能。
全局感受野与线性复杂度的结合:MambaIR通过并行扫描算法和状态空间方程,实现了全局感受野与线性复杂度的结合,解决了现有方法在全局建模和高效计算之间的权衡问题。
广泛的实验验证:作者在多个图像恢复任务(如图像超分辨率、图像去噪等)上进行了广泛的实验验证,结果表明MambaIR在多个基准数据集上均优于现有的强基线方法,展示了其在图像恢复中的强大潜力。
摘要
近年来,图像恢复领域取得了显著进展,主要归功于现代深度神经网络(如CNN和Transformer)的发展。然而,现有的恢复骨干网络在全局感受野和高效计算之间面临困境,限制了其在实际应用中的应用。最近,选择性结构化状态空间模型(尤其是改进版Mamba)在长程依赖建模方面展现出巨大潜力,具有线性复杂度,为解决上述困境提供了一种方法。然而,标准的Mamba在低级视觉任务中仍面临局部像素遗忘和通道冗余等挑战。在本文中,作者提出了一种简单但有效的基线模型,名为MambaIR,通过引入局部增强和通道注意力来改进原始Mamba。通过这种方式,MambaIR利用了局部像素相似性并减少了通道冗余。大量实验证明了作者方法的优越性,例如,MambaIR在图像超分辨率任务中比SwinIR高出0.45dB,且具有相似的计算成本但拥有全局感受野。
关键词
图像恢复, 状态空间模型, Mamba
3 方法
总体架构
如图2所示,MambaIR由三个阶段组成:浅层特征提取、深层特征提取和高质量重建。给定低质量(LQ)输入图像,作者首先使用卷积层从浅层特征提取中生成浅层特征,其中和表示输入图像的高度和宽度,是通道数。随后,浅层特征经过深层特征提取阶段以获取第层的深层特征,。该阶段由多个残差状态空间组(RSSG)堆叠而成,每个RSSG包含若干残差状态空间块(RSSB)。此外,在每个组末尾引入额外的卷积层以细化从RSSB提取的特征。最后,作者使用元素级求和来获得高质量重建阶段的输入,用于重建高质量(HQ)输出图像。
残差状态空间块
在之前的基于Transformer的恢复网络中,块设计主要遵循Norm Attention Norm MLP流程。尽管Attention和SSM都可以建模全局依赖性,但作者发现这两个模块的行为不同(详见补充材料),简单地将Attention替换为SSM只能获得次优结果。因此,为基于Mamba的恢复网络定制全新的块结构是有前景的。
为此,作者提出了残差状态空间块(RSSB)以适应SSM块用于恢复。如图2(a)所示,给定输入深层特征,作者首先使用LayerNorm(LN),然后使用视觉状态空间模块(VSSM)捕捉空间长期依赖性。此外,作者还使用可学习比例因子来控制跳跃连接的信息:
此外,由于SSM处理展平特征图作为1D token序列,序列中邻近像素的数量受到展平策略的极大影响。例如,当采用四向展开策略时,锚点像素只能感知四个最近的邻居(见图3(a)),即2D特征图中的某些空间接近像素在1D token序列中距离较远,这种过度距离可能导致局部像素遗忘。为此,作者在VSSM后引入额外的局部卷积以帮助恢复邻近相似性。具体来说,作者首先对进行LayerNorm归一化,然后使用卷积层补偿局部特征。为了保持效率,卷积层采用瓶颈结构,即通道首先通过因子压缩以获得形状为的特征,然后进行通道扩展以恢复原始形状。
此外,SSM通常引入较大的隐藏状态数量以记忆非常长程的依赖关系,作者在图3(b)中可视化了不同通道的激活结果,发现存在显著的通道冗余。为了促进不同通道的表达能力,作者在RSSB中引入了通道注意力(CA)。通过这种方式,SSM可以在后续通道注意力选择关键通道后,专注于学习多样化的通道表示,从而避免通道冗余。最后,另一个可调比例因子用于残差连接以获得RSSB的最终输出。上述过程可以表示为:
视觉状态空间模块
为了保持效率,基于Transformer的恢复网络通常将输入划分为小patch或采用移位窗口注意力,阻碍了整个图像级别的交互。受Mamba在长程建模中具有线性复杂度的成功启发,作者引入了视觉状态空间模块用于图像恢复。
视觉状态空间模块(VSSM)可以通过状态空间方程捕捉长程依赖性,VSSM的架构如图2(b)所示。遵循[44],输入特征将通过两个并行分支。在第一个分支中,特征通道通过线性层扩展到,其中是预定义的通道扩展因子,随后是深度卷积、SiLU激活函数、2D-SSM层和LayerNorm。在第二个分支中,特征通道也通过线性层扩展到,随后是SiLU激活函数。之后,两个分支的特征通过Hadamard积进行聚合。最后,通道数投影回以生成与输入形状相同的输出:
其中DWConv表示深度卷积,表示Hadamard积。
2D选择性扫描模块
标准的Mamba以因果方式处理输入数据,因此只能捕捉扫描部分数据内的信息。这种特性非常适合涉及顺序性质的NLP任务,但在转移到非因果数据(如图像)时面临显著挑战。为了更好地利用2D空间信息,作者遵循[44]并引入了2D选择性扫描模块(2D-SSM)。如图2(c)所示,2D图像特征通过沿四个不同方向(左上到右下、右下到左上、右上到左下、左下到右上)扫描展平为1D序列。然后根据离散状态空间方程捕捉每个序列的长程依赖性。最后,所有序列通过求和操作合并,随后进行重塑操作以恢复2D结构。
4 实验
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
#论 文 推 广#
让你的论文工作被更多人看到
你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编