SwinIR: Image Restoration Using Swin Transformer

一、Abstract

二、Introduction

三、Method

四、Conclusion

一、Abstract

        图像恢复是一个长期存在的低级视觉问题,旨在从低质量图像中恢复高质量图像(例如,缩小、噪声和压缩图像)。虽然最先进的图像恢复方法是基于CNN,但很少有人尝试transform,这在高级视觉任务中显示出令人印象深刻的性能。

        在本文中,我们提出了一种基于 Swin Transformer 的图像恢复的强大基线模型 SwinIR。SwinIR由三部分组成: 浅层特征提取、深层特征提取和高质量图像重建。特别是,深度特征提取模块由几个残差 Swin Transformer 块 (RSTB) 组成,每个块具有多个 Swin Transformer 层以及残差连接。

二、Introduction

        大多数基于cnn的方法侧重于精细的架构设计,如残差学习和密集连接。但是存在两个源于基本卷积层的问题。一是图像和卷积核之间的交互是内容无关的。使用相同的卷积核来恢复不同的图像区域可能不是最好的选择。二是在局部处理的原理下,卷积不能有效地进行远程依赖建模

        作为CNN的替代方案,Transformer设计了一种自注意机制来捕捉上下文之间的全局交互。然而,用于图像恢复的vision transformer通常将输入图像分割成固定大小的小块(如48×48),并对每个小块进行独立处理。这种策略不可避免地会产生两个弊端。一是边界像素不能利用补丁外的邻近像素进行图像恢复。二是修复后的图像可能会在每个补丁周围引入边界伪影。虽然这个问题可以通过补丁重叠来缓解,但它会带来额外的计算负担。

        Swin Transformer集成了CNN和Transformer的优点,显示出了很大的前景。一方面,由于局部注意机制,它具有CNN处理大尺寸图像的优势。另一方面,它具有Transformer的优点,可以使用移位窗口方案对远程依赖关系进行建模。

        与流行的基于cnn的图像恢复模型相比,基于transformer的SwinIR具有以下几个优点: (1)图像内容和注意力权重之间基于内容的交互,可以解释为空间变化的卷积。 (2)通过移动窗口机制实现了远程依赖建模。 (3)参数少,性能好。

三、Method

1. 浅层特征提取:

        ILQ作为输入。使用3×3卷积层HSF(·)提取浅层特征 F0。

2. 深层特征提取

  • F0作为输入进入深层特征提取模块(它包含 K 个残差 Swin Transformer 块 (RSTB) 和 3 × 3 卷积层)。

  • RSTB: 每一层的输出都会成为下一层的输入,直到最后一个Swin Transformer层的输出被用作RSTB的最终输出。在残差连接之前加入一个卷积层,用于进一步处理通过Swin Transformer层得到的特征。残差连接能够减少训练中的梯度消失问题,并提高模型对复杂特征的学习能力。

  • Swin Transformer Layer (STL) 是 Swin Transformer 架构中的核心组件,它在标准的多头自注意力机制上进行了创新,以适应计算机视觉任务。​​​​​​

  • LayerNorm(LN)层:在MLP之前,每个局部窗口的特征都会通过一个LayerNorm层。LayerNorm是一种归一化技术,它通过减去均值并除以标准差来稳定特征的分布,有助于加快训练过程并提高模型性能。

  • MSA多头自注意力:允许模型在处理序列数据时同时关注序列的多个位置,从而捕获全局依赖关系

  • MLP多层感知机:MLP位于自注意力层之后,用于进一步处理和转换特征。它通过增加模型的非线性能力,使得模型能够学习更复杂的数据表示。 在MSA之后,使用一个包含两个全连接层的MLP来进一步转换特征。这两个全连接层之间使用GELU激活函数,这是一种非线性激活函数,有助于增加模型的表达能力。

3. 高质量图像重建:

        浅层特征F0与深层特征Fdf 相加 通过重建函数Hrec 得到高质量图像。使用亚像素卷积层 对特征进行上采样。

4. Loss function

        对于图像SR,我们通过最小化L1像素损失来优化SwinIR的参数。

四、Conclusion

        在本文中,我们提出了一种基于 Swin Transformer 的图像恢复模型 SwinIR。
        该模型由三部分组成:浅层特征提取、深层特征提取和 HR 重建模块。
        特别是,我们使用一堆残差 Swin Transformer 块 (RSTB) 进行深度特征提取,每个 RSTB 由 Swin Transformer 层、卷积层和残差连接组成。大量的实验表明,SwinIR在三个具有代表性的图像恢复任务和六种不同的设置上实现了最先进的性能:经典的图像SR、轻量级图像SR、真实世界的图像SR、灰度图像去噪、彩色图像去噪和JPEG压缩伪影减少,证明了所提出的SwinIR的有效性和可泛化性。未来,我们将把模型扩展到其他恢复任务,如图像去模糊和去雨。

  • 18
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值