论文精读-SwinIR Image Restoration Using Swin Transformer

看不见的罗辑

已于 2024-07-14 15:36:57 修改

阅读量1.8k

点赞数 10

文章标签：图像处理图像恢复超分辨率重建去噪 JPEG压缩伪影视觉Transformer

于 2024-05-18 11:35:43 首次发布

本文链接：https://blog.csdn.net/a284365/article/details/139022526

版权

论文精读-SwinIR: Image Restoration Using Swin Transformer

SwinIR:使用 Swin Transformer进行图像恢复

参数量：SR 11.8M、JPEG压缩伪影 11.5M、去噪 12.0M

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

优点：1、提出了新的网络结构。它采用分块设计。包括浅层特征提取：cnn提取，得到低维特征。深层特征提取：使用残差连接（过程可融合不同维度的特征）+Swin transformer+CNN特征增强，得到高纬特征。高质量图像重建：融合浅特征和深特征。

2、针对不同任务设计了相应的损失函数，针对SR使用图像重建模块函数，并使用L1像素损失。针对去噪和JPEG压缩使用残差学习构建LQ和HQ图像之间的残差，并使用Charbonnier损失。

3、消融实验清晰，对比了不同参数的效果，并给出了与先进模型的比较

小结：总体使用深度学习（设计了新的基于SWIN的网络结构）的方法进行图像恢复，针对图像恢复中超分（低尺度）和去噪（噪声），JPEG压缩伪影（压缩图像）3种代表性任务使用不同的损失函数。

如果无法查看图片请查看：论文精读-SwinIR Image Restoration Using Swin Transformer

概述

图像恢复是一个长期存在的低级视觉问题，其目的是从低质量图像(例如，低尺度、噪声和压缩图像)中恢复高质量图像。虽然最先进的图像恢复方法是基于卷积神经网络的，但很少有人尝试用变形金刚在高级视觉任务中表现出令人印象深刻的表现。在本文中，我们提出了一个基于Swin Transformer 的强基线模型SwinIR 用于图像恢复。SwinIR 包括三个部分:浅层特征提取、深层特征提取和高质量图像重建。其中，深度特征提取模块由多个残差Swin Transformer 块(RSTB)组成，每个残差块都有多个Swin Transformer 层和残差连接。我们对图像超分辨率(包括经典图像、轻量级图像和真实图像超分辨率)、图像去噪(包括灰度图像和彩色图像去噪)和JPEG 压缩伪影减少三个具有代表性的任务进行了实验。实验结果表明，SwinIR 在不同任务上的性能优于最先进的方法，最高可达0.14 ~ 0.45dB，而参数总数可减少67%。

背景介绍

大多数基于 cnn 的方法侧重于精细的架构设计，如残差学习[43,51]和密集连接[97,81]。虽然与传统的基于模型的方法相比，性能有了明显的提高方法[73,14,28]，它们通常会遇到两个源于基本卷积层的基本问题。首先，图像和卷积核之间的交互是内容无关的。使用相同的卷积核来恢复不同的图像区域可能不是最好的选择。其次，在局部处理的原理下，卷积对于远程依赖建模是无效的。

作为 CNN 的替代方案，Transformer[76]设计了一种自注意机制来捕捉上下文之间的全局交互，并在几个视觉问题中显示出良好的性能[6,74,19,56]。然而，用于图像恢复的视觉变形金刚[9,5]通常将输入图像分割成固定大小的小块(如 48×48)，并对每个小块进行独立处理。这样的策略不可避免地会产生两个弊端。

1、首先，边界像素不能利用补丁之外的邻近像素进行图像恢复。（使用3x3卷积）

2、其次，修复后的图像可能会在每个补丁周围引入边界伪影。虽然这个问题可以通过斑块重叠来缓解，但它会带来额外的计算负担。

最近， Swin Transformer[56] 集成了 CNN 和Transformer 的优点，显示出很大的前景。

一方面，由于局部注意机制，它具有 CNN处理大尺寸图像的优势。

另一方面，它又具有 Transformer 的优势，可以用移位窗口方案（固定分区与移动分区）对远程依赖进行建模。

方法

概述

本文提出了一种基于 Swin Transformer 的图像恢复模型—SwinIR。更具体地说，SwinIR 包括三个模块:浅层特征提取、深层特征提取和高质量图像重建模块。浅层特征提取模块使用卷积层提取浅层特征，直接传输到重建模块，从而保留低频信息。深度特征提取模块主要由残差 SwinTransformer 块(RSTB)组成，每个残差块利用多个 SwinTransformer 层进行局部关注和跨窗口交互。此外，我们在块的末尾添加了一个卷积层用于特征增强，并使用残差连接为特征聚合提供了一条捷径。最后，在重建模块中融合浅特征和深特征，实现高质量的图像重建。

与流行的基于 cnn 的图像恢复模型相比，基于transformer 的 SwinIR 具有以下几个优点:

(1)图像内容和注意力权重之间基于内容的交互，可以解释为空间变化的卷积[13,21,75]。

(2)通过移位窗口机制实现远程依赖建模。

(3)参数更少，性能更好。例如，如图 1 所示，与现有的图像 SR 方法相比，SwinIR 以更少的参数获得了更好的PSNR。

网络体系结构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1、浅层特征提取

给定一个低质量(LQ)输入ILQ∈RH×W ×C in (H、W和 Cin分别为图像高度、宽度和输入通道号)，我们使用一个 3 ×3 卷积层 HSFnull(·)提取浅层特征 F0∈RH×W ×C as

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

卷积层擅长早期视觉处理，导致优化更稳定，结果更好[86]。它还提供了一种将输入图像空间映射到高维特征空间的简单方法。

2、深层特征提取

从 F0中提取深度特征 FDF∈RH×W ×C为

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 HDF(·)为深度特征提取模块，包含 K 个残差 Swin Transformer 块(RSTB)和一个 3 ×3 卷积层。更具体地说，中间特征 F1 F2 ，……FK 和输出深度特征 FDF 逐块提取为

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 HRSTBi (·)表示第 i 个 RSTB层，HCONV是最后一
个卷积层。

使用卷积层在特征提取的末端可以将卷积运算的归纳偏置带入到基于transformer 的网络中，为后期浅层和深层特征的聚合奠定更好的基础。

3、特征融合（图像重建）

针对超分，IRHQ通过将浅层和深层特征聚合

[外链图片转存中…(img-vYsp7cTc-1716003176503)]

浅层特征主要包含低频，深层特征侧重于恢复丢失的高频。SwinIR 通过较长的跳线连接，将低频信息直接传递给重构模块，帮助深度特征提取模块专注于高频信息，稳定训练。

对于重构模块的实现，我们使用亚像素卷积层[68]对特征进行上采样。

对于不需要上采样的任务，如图像去噪和 JPEG 压缩伪影减少，使用单个卷积层进行重建。此外，我们使用残差学习来重建 LQ 和 HQ 图像之间的残差，而不是 HQ 图像。其公式为

[外链图片转存中…(img-HbmHXEZW-1716003176503)]

式中，HSwinIR(·)为 SwinIR函数。

4、损失函数

1、针对SR，L1像素损失（与之前工作相同，为了凸显网络结构的有效性）：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

IHQ是真实的HQ图像，而IRHQ是前面网络输出结果。

2、针对图像去噪和减少 JPEG压缩伪影，我们使用Charbonnier 损失：

经验设置偏置项为10^-3

残差Swin Transformer块

RSTB是由Swin Transformer 层(STL)和卷积层组成的残差块。给定输入特征 Fi,0 在第 i 个 RSTB 中，我们首先提取中间特征Fi,1, Fi,2，…， Fi,L × L Swin Transformer 层为

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 HSTLi,j (·) 为第 i 个 RSTB 中的第 j 个 Swin Transformer 层。然后，我们在残差连接前添加一个卷积层。
RSTB的输出公式为

其中Hconvi是第i个RSTB卷积层

优点：

1、虽然 Transformer 可以被视为空间变化卷积的具体实例[21,75]，但具有空间不变滤波器的卷积层可以增强 SwinIR 的平移等方差。

2、残差连接提供了从不同块到重建模块的基于特征的连接，允许不同级别特征的聚合。

Swin Transformer 层

Swin Transformer 层(STL)[56]是基于原始 Transformer 层的标准多头自关注[76]。其主要区别在于局部注意和移位窗口机制。

1、将HxWxC的输入转换为MxM的局部窗口（padding)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中HW/M^2是新窗口数量

2、分别计算每个窗口的局部注意力（标准自注意力）

其中 B 为可学习的相对位置编码。在实践中，遵循[76]，我们并行执行注意函数 h 次，并将多头自我注意(MSA)的结果连接起来。

（transformer encoder)

3、使用MLP进行进一步的特征转换，该感知器具有两个完全连接的层，它们之间具有GELU非线性。

在 MSA和 MLP之前都添加了 LayerNorm(LN)层，两个模块都使用了剩余连接。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是，当为不同的层固定分区时，没有跨本地窗口的连接。因此，常规和移位的窗口分区交替使用以实现跨窗口连接[56]，其中移位的窗口分区意味着将特征移动

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传分割前的像素。

实验

1、通道数、RSTB（Residual Swin Transformer Block）数、STL(Swin Transformer Layer)数

对于信道数，虽然性能不断增加，但参数总数呈二次增长。为了平衡性能和模型大小，我们在其余实验中选择 180 作为通道数。

对于 RSTB 数和层数，性能增益逐渐趋于饱和。我们为它们都选择 6，以获得一个相对较小的模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2、patch大小和训练图像数量

训练数据量越大，patch size越大，最终效果越好。

4、RSTB残差连接与卷积影响

1）、残差连接。Pos

2）、3x3卷积可以提取局部邻近特征。Pos

3）、1x1,几乎无影响。

4）、多个3x3卷积会减少参数量，但是会影响模型性能。Neg

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实验结果：

1、在基准数据集上，与最先进的经典图像 SR 方法进行定量比较(平均 PSNR/SSIM)。最佳和次佳表现分别为红色和蓝色。在×8上的结果在附录中提供。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2、在基准数据集上与最先进的轻量级图像 SR方法进行定量比较(平均 PSNR/SSIM)。最佳和次佳表现分别用红色和蓝色表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3、在基准数据集上使用最先进的 JPEG 压缩伪影减少方法进行定量比较(平均 PSNR/SSIM/PSNR- b)。最佳和次佳性能分别用红色和蓝色表示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4、与最先进的灰度图像去噪方法在基准数据集上的定量比较(平均 PSNR)。最佳和次佳表现分别为红色和蓝色。

5、与最先进的彩色图像去噪方法在基准数据集上的定量比较(平均 PSNR)。最佳和次佳表现分别为红色和蓝色。

[外链图片转存中…(img-oNyBcROt-1716003176506)]

QA

（待补充）

Q:图像超分辨率(包括经典图像、轻量级图像和真实图像超分辨率)、图像去噪(包括灰度图像和彩色图像去噪)和JPEG 压缩伪影减少？

Q:密集连接？残差块，密集块

Q:局部处理？

Q:图像和卷积核之间的交互是内容无关的?
A:所有位置共享相同权重，也就是不同内容，使用相同的权重。即权重与内容无关，所以进行卷积时，图像与卷积核实际是内容无关的。

Q:一方面，由于局部注意机制，它具有 CNN处理大尺寸图像的优势。另一方面，它又具有 Transformer 的优势，可以用移位窗口方案对远程依赖进行建模?

Q:卷积层提取浅层特征，低频信息？高频信息？
A:低频信息通常指的是图像中变化较慢或较为平滑的区域，这些区域的像素值变化不大，代表图像中的基本结构和大的形态特征。
高频：图像中变化迅速或具有明显边缘、纹理等特征的区域，这些区域的像素值变化剧烈，代表图像中的小细节和边缘信息。
图像的频率分析：
傅里叶变换：通过傅里叶变换，可以将图像从空间域转换到频率域，分析图像的频率成分。在频率域中，低频信息位于变换结果的中心，而高频信息分布在边缘。
滤波器：可以使用低通滤波器来提取图像的低频信息，使用高通滤波器来提取高频信息。低通滤波器允许低频信号通过，而阻止高频信号；高通滤波器则相反。
应用：
图像去噪：通过去除或减少高频信息，可以减少图像中的噪声。
边缘检测：通过增强高频信息，可以突出图像中的边缘和细节，常用于边缘检测算法。
图像锐化：通过增强高频信息，可以使图像看起来更清晰。
图像压缩：在JPEG等压缩算法中，通常会去除一些高频信息以减少数据量，因为人眼对高频细节的敏感度较低。

Q:sr方法？psnr?

Q:卷积本质？为什么可以将图像转为高维表示？

Q:swin transformer layer(STL)?

Q:上采样与下采样？

Q:L1正则化？

Q:Transformer 可以被视为空间变化卷积的具体实例？

A:可形变卷积DCN。

Q:最后一个cnn是怎么增强特征的？

A:CNN能够捕捉局部特征并逐渐抽象化，末端增加CNN可以帮助网络进一步细化特征表示，提取更高层次的抽象特征。其次，如果非DWConv，末端的CNN可以通过卷积操作混合不同通道的特征，实现特征的交叉融合，提高特征的表达能力。

Q:卷积运算的归纳偏置?

A:卷积的一些优点，比如局部连接，参数共享，局部特征整合…

Q:HREC与HSwinIR?

Q:vit中MLP不同层使用固定分区与移位窗口分区？

A:MLP不使用

Q:平滑，要么过于锐化，无法恢复丰富的纹理？

A:锐化的目的是为了凸显边缘和纹理等细节，让图像更清晰。同时，通过强调边缘差异，锐化可以提高图像的局部对比度。。平滑则是为了减少图像的随机噪声，让图像看上去更干净更自然。
平滑方法：
平均滤波：使用邻域内像素的平均值来替换中心像素。
高斯滤波：应用高斯函数作为权重的加权平均，以实现更自然的模糊效果。
中值滤波：用邻域内的中值替换中心像素，对椒盐噪声特别有效。
应用场景：
去噪：在图像中存在随机噪声时使用。
特征预处理：在某些机器视觉算法中，平滑可以作为特征提取的预处理步骤。

锐化方法：
拉普拉斯算子：通过计算图像的二阶导数来突出边缘。
非锐化掩蔽（Unsharp Masking, USM）：从原始图像中减去其模糊版本，然后放大差异。
高通滤波：使用高通滤波器来提取图像的高频成分，即边缘和细节。
应用场景：
打印和显示：在打印或显示图像前，锐化可以提高图像的视觉质量。
特征增强：在图像分析和机器视觉中，锐化有助于突出重要的视觉特征。

两者区别：
视觉效果：平滑使图像看起来更柔和，而锐化使图像看起来更清晰。
噪声处理：平滑有助于减少噪声，而锐化可能会使噪声更加明显。
细节处理：平滑会减少图像细节，而锐化会增强细节。
应用目的：平滑通常用于去噪和模糊处理，锐化用于增强视觉特征和提高清晰度。

Q:边界伪影？
A:棋盘效应，一般是kernel_size%stride！=0。边界伪影：图像过度不平滑，信息交互不够造成的
Q:swinir没有使用下采样，每次Attention局限在窗口内，他是怎么进行全局空间信息交互的？
swinir的全局特征交互通过mlp实现，但是全局空间信息，没有看到怎么实现的，即使使用了sw-msa，也只能关注附近的窗口，无法关注全局空间信息。
[Ref:Liang J, Cao J, Sun G, et al. Swinir: Image restoration using swin transformer[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 1833-1844.]