ECCV 2024 | ModelMambaIR:基于Mamba模型用于图像恢复的简单基线

点击下方“计算机书童”卡片,每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

完整版论文中文解读PDF请加入知识星球获取

0cc954913c665e1f5645099654dc57f8.jpeg

论文信息
题目:MambaIR: A Simple Baseline for Image Restoration with State-Space Model
MambaIR:基于Mamba模型的图像恢复简单基线
作者:Hang Guo, Jinmin Li, Tao Dai, Zhihao Ouyang, Xudong Ren, Shu-Tao Xia
源码:https://github.com/csguoh/MambaIR

论文创新点

  1. 首次将状态空间模型应用于图像恢复:作者首次将Mamba这一先进的状态空间模型引入到图像恢复任务中,提出了MambaIR,作为CNN和Transformer方法的简单但有效的替代方案。

  2. 提出残差状态空间块(RSSB):为了解决标准Mamba在图像恢复中的局部像素遗忘和通道冗余问题,作者设计了残差状态空间块(RSSB),通过引入局部卷积通道注意力机制,显著提升了模型的性能。

  3. 全局感受野与线性复杂度的结合:MambaIR通过并行扫描算法状态空间方程,实现了全局感受野线性复杂度的结合,解决了现有方法在全局建模和高效计算之间的权衡问题。

  4. 广泛的实验验证:作者在多个图像恢复任务(如图像超分辨率图像去噪等)上进行了广泛的实验验证,结果表明MambaIR在多个基准数据集上均优于现有的强基线方法,展示了其在图像恢复中的强大潜力。

摘要

近年来,图像恢复领域取得了显著进展,主要归功于现代深度神经网络(如CNN和Transformer)的发展。然而,现有的恢复骨干网络在全局感受野和高效计算之间面临困境,限制了其在实际应用中的应用。最近,选择性结构化状态空间模型(尤其是改进版Mamba)在长程依赖建模方面展现出巨大潜力,具有线性复杂度,为解决上述困境提供了一种方法。然而,标准的Mamba在低级视觉任务中仍面临局部像素遗忘和通道冗余等挑战。在本文中,作者提出了一种简单但有效的基线模型,名为MambaIR,通过引入局部增强和通道注意力来改进原始Mamba。通过这种方式,MambaIR利用了局部像素相似性并减少了通道冗余。大量实验证明了作者方法的优越性,例如,MambaIR在图像超分辨率任务中比SwinIR高出0.45dB,且具有相似的计算成本但拥有全局感受野。

关键词

图像恢复, 状态空间模型, Mamba

3 方法

总体架构

如图2所示,MambaIR由三个阶段组成:浅层特征提取、深层特征提取和高质量重建。给定低质量(LQ)输入图像,作者首先使用卷积层从浅层特征提取中生成浅层特征,其中和表示输入图像的高度和宽度,是通道数。随后,浅层特征经过深层特征提取阶段以获取第层的深层特征,。该阶段由多个残差状态空间组(RSSG)堆叠而成,每个RSSG包含若干残差状态空间块(RSSB)。此外,在每个组末尾引入额外的卷积层以细化从RSSB提取的特征。最后,作者使用元素级求和来获得高质量重建阶段的输入,用于重建高质量(HQ)输出图像。

f17c6171337dfc1d9d9941ae69b24cce.png

残差状态空间块

在之前的基于Transformer的恢复网络中,块设计主要遵循Norm Attention Norm MLP流程。尽管Attention和SSM都可以建模全局依赖性,但作者发现这两个模块的行为不同(详见补充材料),简单地将Attention替换为SSM只能获得次优结果。因此,为基于Mamba的恢复网络定制全新的块结构是有前景的。

为此,作者提出了残差状态空间块(RSSB)以适应SSM块用于恢复。如图2(a)所示,给定输入深层特征,作者首先使用LayerNorm(LN),然后使用视觉状态空间模块(VSSM)捕捉空间长期依赖性。此外,作者还使用可学习比例因子来控制跳跃连接的信息:

此外,由于SSM处理展平特征图作为1D token序列,序列中邻近像素的数量受到展平策略的极大影响。例如,当采用四向展开策略时,锚点像素只能感知四个最近的邻居(见图3(a)),即2D特征图中的某些空间接近像素在1D token序列中距离较远,这种过度距离可能导致局部像素遗忘。为此,作者在VSSM后引入额外的局部卷积以帮助恢复邻近相似性。具体来说,作者首先对进行LayerNorm归一化,然后使用卷积层补偿局部特征。为了保持效率,卷积层采用瓶颈结构,即通道首先通过因子压缩以获得形状为的特征,然后进行通道扩展以恢复原始形状。

331655eb18874fc9b1c1232cd03cec62.png

此外,SSM通常引入较大的隐藏状态数量以记忆非常长程的依赖关系,作者在图3(b)中可视化了不同通道的激活结果,发现存在显著的通道冗余。为了促进不同通道的表达能力,作者在RSSB中引入了通道注意力(CA)。通过这种方式,SSM可以在后续通道注意力选择关键通道后,专注于学习多样化的通道表示,从而避免通道冗余。最后,另一个可调比例因子用于残差连接以获得RSSB的最终输出。上述过程可以表示为:

视觉状态空间模块

为了保持效率,基于Transformer的恢复网络通常将输入划分为小patch或采用移位窗口注意力,阻碍了整个图像级别的交互。受Mamba在长程建模中具有线性复杂度的成功启发,作者引入了视觉状态空间模块用于图像恢复。

视觉状态空间模块(VSSM)可以通过状态空间方程捕捉长程依赖性,VSSM的架构如图2(b)所示。遵循[44],输入特征将通过两个并行分支。在第一个分支中,特征通道通过线性层扩展到,其中是预定义的通道扩展因子,随后是深度卷积、SiLU激活函数、2D-SSM层和LayerNorm。在第二个分支中,特征通道也通过线性层扩展到,随后是SiLU激活函数。之后,两个分支的特征通过Hadamard积进行聚合。最后,通道数投影回以生成与输入形状相同的输出:

其中DWConv表示深度卷积,表示Hadamard积。

2D选择性扫描模块

标准的Mamba以因果方式处理输入数据,因此只能捕捉扫描部分数据内的信息。这种特性非常适合涉及顺序性质的NLP任务,但在转移到非因果数据(如图像)时面临显著挑战。为了更好地利用2D空间信息,作者遵循[44]并引入了2D选择性扫描模块(2D-SSM)。如图2(c)所示,2D图像特征通过沿四个不同方向(左上到右下、右下到左上、右上到左下、左下到右上)扫描展平为1D序列。然后根据离散状态空间方程捕捉每个序列的长程依赖性。最后,所有序列通过求和操作合并,随后进行重塑操作以恢复2D结构。

4 实验

d91ba5f89b64a31862c8084c0631063d.pngb7a254592ad818a150f1e35155542bd6.jpeg8a6b907e01ff470a03442c0cfb6b00f3.pngbf6362fde7996e3f91a42a4393968f14.png

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

fcf8bbeb8db31b475fc315c582b0a120.gif

#论  文  推  广#

 让你的论文工作被更多人看到 

你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题

投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

f07b7107a88fe0d0e11b48a873ee59a6.png

△长按添加 计算机书童 小编

34d6463f53f34217d2bcf7bfaedfe50b.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值