超越SwinIR,Mamba入局图像复原,达成新SOTA

本文首发:AIWalker

https://arxiv.org/abs/2402.15648
https://github.com/csguoh/MambaIR

本文概述

最近,选择性结构化状态空间模型(例如 Mamba)在具有线性复杂性的远程依赖关系建模方面表现出了巨大的潜力,但它在低级计算机视觉中仍处于探索之中。

在这项工作中,我们引入了一个简单但强大的基准模型,名为 MambaIR,用于图像恢复。具体来说,我们提出残差状态空间块作为核心组件,它采用卷积和通道注意力来增强普通曼巴的能力。通过这种方式,我们的 MambaIR 利用局部补丁重现先验以及通道交互来生成特定于恢复的特征表示。

大量实验证明了我们方法的优越性,例如,使用类似的计算成本但具有全局感受野,MambaIR 的性能比基于 Transformer 的基线 SwinIR 提高了 0.36dB

本文贡献

  • 第一个通过大量实验制定 MambaIR 来调整状态空间模型以进行低级图像恢复,MambaIR 是 CNN 和 Transformer 的简单但有效的替代方案。
  • 提出了剩余状态空间块(RSSB),它可以通过局部空间先验和通道交互来增强原始Mamba 的能力。
  • 对各种任务的广泛实验表明,所提MambaIR 优于基于 Transformer 的强大基线,可为图像恢复提供强大且有前途的骨干模型解决方案。

本文动机

动机部分引自作者解析《性能超越SwinIR!MambaIR: 基于Mamba的图像复原基准模型》,链接为https://zhuanlan.zhihu.com/p/684248751

Transformer模型已经在底层视觉领域取得了十分瞩目的成果,例如IPT,SwinIR等等。最近随着先进的状态空间模型Mamba的出现以及其在NLP中的喜人表现,使用Mamba来做各类视觉任务变得十分有趣。

对于图像复原任务来说,我们总结出Mamba相较于之前的CNN和Transformer具有如下优势:

  • 对于CNN来说,CNN具有静态权重以及局部感受野,这大大限制了模型利用更多像素的能力,正如HAT指出的那样。而Mamba则具有全局的感受野,可以以整个图像作为token序列作为输入
  • 对于Transformer来说,虽然标准的注意力机制具有全局感受野,但是在图像复原任务中使用这一机制将会带来无法接受的计算代价,因此为了折中,目前的工作大多使用了SwinTR的机制,但是这同样限制了感受野同时window的边缘也容易产生伪影。

下面是MambaIR与基于CNN的方法(EDSR,RCAN)和基于Transformer的方法(SwinIR,HAT)在有效感受野上的对比结果,可以看到MambaIR具有正幅图像范围的感受野,从而可以更加充分地利用图像块重复先验。

本文方案

MambaIR的主要目的是提出一个简单的baseline模型,并方便之后的进一步研究改进。因此在模型设计上,作者遵循了之前图像复原任务的大致流程,即浅层特征提取,深层特征提取,以及高质量图像重建。

我们提出了剩余状态空间块(RSSB)来改进具有特定恢复先验的原始SSM块。具体来说,我们考虑局部补丁重复以及通道交互以协助Mamba中的远程空间成型。如图2(a)所示,给定输入深度特征 F D l ∈ R H × W × C F_D^l \in \mathbb{R}^{H \times W \times C} FDlRH×W×C我们首先使用Layernorm(LN),然后使用视觉状态空间模块(VSSM来捕获空间长-期限依赖性。之后,我们还在跳过连接中使用可学习的比例因子s以获得更好性能:
Z l = V S S M ( L N ( F D l ) ) + s ⋅ F D l Z^l = VSSM(LN(F_D^l)) + s\cdot F_D^l Zl=VSSM(LN(FDl))+sFDl

之后,我们使用另一个 LayerNorm 来规范化 Z l Z^l Zl.然后使用卷积层对空间局部相似性先验进行建模。为了减轻通道冗余和效率,卷积层采用瓶颈结构,即通道首先按因子 γ \gamma γ压缩得到形状 R H × W × C γ R^{H\times W \times \frac{C}{\gamma}} RH×W×γC的特征,然后我们进行通道扩展以恢复原始形状。此外,为了对通道之间的交互进行建模,我们引入了通道注意层(CA)[22],然后在残差连接中引入另一个可调比例因子以获得最终输出。该过程描述如下:
F D l + 1 = C A ( C o n v ( L N ( Z l ) ) ) + s ′ ⋅ Z l F_D^{l+1} = CA(Conv(LN(Z^l)))+ s^{'} \cdot Z^l FDl+1=CA(Conv(LN(Zl)))+sZl

Vision State-Space Module

为了保持效率,基于 Transformer 的恢复网络通常将输入分成小块 或采用移位窗口注意力,从而阻碍了整个图像级别的交互。受到 Mamba 在具有线性复杂性的远程建模方面的成功的激励,我们将视觉状态空间模块引入图像恢复。计算过程如下:

本文实验

推荐阅读

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIWalker-Happy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值