SwinFIR：用快速傅里叶卷积重建SwinIR和改进的图像超分辨率训练

最新推荐文章于 2024-11-21 21:22:31 发布

JOYCE_Leo16

最新推荐文章于 2024-11-21 21:22:31 发布

阅读量2.7k

点赞数 5

分类专栏：超分辨率文章标签： transformer 超分辨率重建计算机视觉深度学习

本文链接：https://blog.csdn.net/leonardotu/article/details/133886274

版权

超分辨率专栏收录该内容

8 篇文章

订阅专栏

文章探讨了如何通过SwinFIR算法改进图像超分辨率，提出使用快速傅里叶卷积替代局部注意力，结合数据增强和特征集成提升性能。实验结果显示SwinFIR在Manga109等数据集上表现出色，优于SwinIR方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved
Training for Image Super-Resolution

文章目录

前言

一、Introduction

二、Network Architecture

1. Classical Image Super-Resolution

2. Lightweight Image Super-Resolution

3. Stereo Image Super-Resolution

四、Conclusion

前言

论文：https://arxiv.org/pdf/2208.11247.pdf

一、Introduction

与基于 CNN 的方法相比，基于 Transformer 的方法由于能够对远程依赖性进行建模，因此取得了令人印象深刻的图像恢复性能。然而，SwinIR 等算法采用基于窗口的局部注意力策略来平衡性能和计算开销，这限制了使用大感受野来捕获全局信息并在早期层中建立长依赖关系。

为了进一步提高获取全局信息的效率，本文提出了SwinFIR算法来扩展SwinIR算法，通过替换快速傅里叶卷积（FFC）组件，它具有图像范围的感受野。我们还重新审视了其他高级技术，即，数据增强、预训练和特征集成以提高图像重建的效果。并且我们的特征集成方法使得模型的性能在不增加训练和测试时间的情况下得到了很大的提高。

我们将我们的算法应用于多个流行的大规模基准测试，并与现有方法相比，达到了最先进的性能。例如，我们的SwinFIR在Manga109数据集上实现了32.83 dB的PSNR，比最先进的SwinIR方法高出0.8 dB，这是一个显著的改进。

二、Network Architecture

全局信息对于图像超分辨率（SR）是必不可少的，因为它可以激活更多的像素，有利于提高图像重建性能。因此，为了利用全局信息，我们重新审视了SwinIR架构，并引入了一个新的模型，专门为SR任务，称为SwinFIR。

基于快速傅里叶卷积（FFC）[5]的空间频率块（SFB）取代了SwinIR的深度特征提取模块的卷积层，是SwinFIR的本质创新。SFB由两个分支组成：空间和频率模型。在频域分支中采用FFC提取全局信息，在空域分支中采用基于CNN的残差模块增强局部特征表达。

除了SFB模块，我们还回顾了各种方法来提高图像的超分辨率性能，如数据增强，损失函数，预训练策略，后处理等。基于像素域的数据增强（DA）在高层次任务中得到了广泛应用并取得了令人瞩目的成果，但在超分辨率（SR）任务中却鲜有研究。

本文的贡献如下：

（1）我们重新审视SwinIR架构，并介绍了空间频率块（SFB）专门设计用于利用全局信息SR任务，称为SwinFIR。SFB是基于快速傅立叶卷积（FFC）的，用于提取更全面、详细和稳定的特征。SFB由两个分支组成：空间和频率模型。我们使用FFC在频率分支中提取全局信息，在空间分支中提取残差模块，以增强局部特征表达。

（2）我们重新审视了低级别任务中的各种数据增强方法，并证明了有效的数据增强方法，如通道混洗和混合，可以大大提高图像超分辨率的性能。我们的方法打破了惯性思维，数据增强方法，如插入新的像素会影响SR的性能。

（3）我们提出了一种全新的集成策略，称为特征集成，它集成了多个训练模型，以获得更好，更全面的模型，而不增加训练和测试时间，是一种零成本的方法，以提高性能。

1、Methodlogy

在本文中，我们重新审视了提高图像超分辨率的策略，涉及很少或没有额外的模型参数和计算。从SwinIR到SwinFIR的演变轨迹如图2所示。LAM证明了全局信息对于图像超分辨率（SR）是必不可少的，因为它可以激活更多的像素并且有利于提高图像重建性能。因此，我们首先重新审视SwinIR架构，并介绍空间频率块（SFB）专门设计用于利用SR任务中的全球信息。然后，我们用更稳定的Charbonnier Loss代替L1 Loss。集成，我们提出了一种新的后处理技术，命名为特征集成，以提高模型的稳定性，而不延长训练和测试周期。

2、Model Design

受SwinIR的启发，我们提出了使用Swin Transformer和快速傅立叶卷积的SwinFIR，如图3所示。SwinFIR由三个模块组成：浅层特征提取、深层特征提取和高质量（HQ）图像重建模块。

浅层特征提取和高质量（HQ）图像重建模块采用与SwinIR相同的配置。残余Swin Transformer块（RSTB）是具有Swin Transformer层（STL）和SwinIR中的卷积层的残余块。它们都具有局部感受野，不能提取输入图像的全局信息。快速傅立叶卷积具有提取全局特征的能力，因此我们用快速傅立叶卷积代替3×3的卷积，并引入残差模块，将全局特征和局部特征融合，称为空间频率块（SFB），以提高模型的表示能力。

SFB网络架构如图3（c）所示，由两个主要组件组成：左侧是空间常规卷积操作，右侧是快速傅立叶卷积（FFC）。我们连接左右输出，并执行卷积操作以获得最终结果。公式如下：

其中X是来自STL的特征图。 $H_{SFB}$ （·）表示SFB模块， $X_{SFB}$ 是SFB的各种操作之后的输出特征图。我们将X发送到两个不同的域， $X_{spatial}$ 和 $X_{frequency}$ 。在空间域中利用 $X_{spatial}$ ，并且 $X_{frequency}$ 旨在捕获频域中的长距离上下文，

其中 $H_{spatial}$ （·）是空间卷积模块，并且 $H_{frequency}$ （·）表示频率FFC模块。左空间卷积模块是用于经典SR的残差模块和用于轻量级SR的沙漏残差模块，分别如3（c）和4（b）所示。与单层卷积相比，我们插入了残差连接和卷积层，以增加模型的表现力。实验表明，这种简单的修改可以显著提高性能。 $X_{spatial}$ 也表示为：

其中 $H_{CLC}$ （·）表示头部和尾部的3×3卷积层，LeakyReLU操作在卷积层之间进行。

3、Loss Function

除了神经网络的结构外，损失函数也决定了模型能否取得良好的效果。在低级视觉任务中，如超分辨率和去模糊，L2，L1 ，感知和对抗损失函数通常用于优化神经网络。然而，我们使用Charbonnier损失函数来优化我们的SwinFIR，以获得比其他损失函数更好的性能。在训练阶段，通过训练数据来最小化损失函数以更新参数，N表示训练图像的数量。Charbonnier损失函数如下，其中θ表示SwinFIR的参数。

4、Data Augmentation

在本文中，除了翻转和旋转，我们重新审视基于像素域的数据增强对图像超分辨率的影响，如RGB通道混洗，混合，混合，剪切混合和剪切混合。

RGB通道混洗随机混洗输入图像的RGB通道以进行颜色增强。Mixup将两个图像按照一定的比例随机混合。混合随机添加固定像素到输入图像。CutMix和CutMixup是Mixup和Cutout的组合。

我们在图2中说明了各种数据增强如何影响Set5数据集上图像超分辨率的性能。所有的技术，除了CutMix和CutMixup破坏视觉连续性，用于数据增强，并取得了性能增益。

三、Experiments

我们重新审视了SwinIR的长期依赖建模能力，并提出了一种基于快速傅立叶卷积（FFC）的高效全局特征提取器。

具体来说，我们用空间频率块（SFB）替换SwinIR的RSTB中的卷积层。对于经典图像SR，我们使用与SwinIR相同的配置。我们还研究了SR的性能如何受到大窗口和补丁大小的影响。因此，我们在工作中使用更大的窗口大小12和补丁大小60。对于轻量级图像SR，我们还根据SwinIR将RSTB数量和通道数量分别减少到4和60。然而，我们在第二个和第三个RSTB中使用5个STL来加速训练和推理时间。

我们在NAFSSR和HAT之后将SwinFIR扩展到SwinFIRSSR，并在立体图像超分辨率任务中验证了我们的方法的有效性，如图6所示。HAT提出了残余混合注意力组（RHAG）来激活图像超分辨率Transformer中更多的像素，以提高性能。RHAG包含N个混合注意块（HAB）、一个重叠交叉注意块（OCAB）和一个3×3卷积层，我们用快速傅立叶卷积代替3×3卷积，并引入残差模块（SFB）融合全局和局部特征，提高模型的表示能力。我们还遵循NAFSSR出席和融合的左/右视点功能，使用立体交叉注意模块（SCAM）。

1. Classical Image Super-Resolution

DIV2K数据集用于训练基于CNN的方法EDSR，RCAN，SAN，IGNN，RNAN，HAN和NLSA。基于Vision Transformer的网络包括IPT、SwinIR和EDT。IPT和EDT是在ImageNet数据集上训练的，而EDT是在DF2K数据集上微调的，以获得更好的性能。SwinIR仅在DF2K数据集上训练。在EDT之后，我们的SwinFIR首先在ImageNet上进行训练，然后在DF2K数据集上进行微调。表1显示了经典SR的基准数据集的定量结果。

2. Lightweight Image Super-Resolution

我们在轻量级SwinFIR中用Hourglass SFB代替SFB，命名为SwinFIR-T。我们将SwinFIRT与SOTA轻量级SR方法进行比较，包括SRCNN [11]，LapSRN [22]，DRRN [37]，CARN-M [1]，SRFBN-S [27]，IMDN [19]，SwinIR（小尺寸）和EDTT。SwinFIR显著提高了图像SR性能，并实现了所有指标的最佳结果，如表2中的定量比较所示。

3. Stereo Image Super-Resolution

我们进行了一系列的实验，在立体图像SR和比较SwinFIRSSR其他SR方法。单图像SR方法包括EDSR、RCAN和RDN，而立体图像SR方法包括StereoSR、PASSRnet、SRRes+SAM、IMSSRnet、iPASSR、SSRDE-FNet和NAFSSR。所有模型都在800个Flickr 1024和60个Middlebury图像上训练。我们的SwinFIRSSR超越了所有单一和立体图像SR方法，如表3所示。