论文地址:https://arxiv.org/abs/2201.11279
代码地址:https://github.com/zudi-lin/rcan-it
论文小结
本文的工作,就是重新审视之前的RCAN,然后做实验来规范化SR任务的训练流程。
此外,作者得出一个结论:尽管RCAN是一个非常大的SR架构,拥有超过400个卷积层,但作者认为限制模型能力的主要问题仍然是欠拟合而不是过拟合。
增加训练迭代次数,能明显提高模型性能。而应用正则化技术通常会降低预测结果。作者将自己的模型表示为RCAN-it。(Residual Channel Attention Network,-it stands for imporved training)
总得来说,收获点就一句话:模型性能受限于欠拟合而不是过拟合。所以使用更大的训练步幅(因为原始训练没陷入长时间的收敛平原,仍在缓慢上升),减少使用正则化技术。
论文简介
通过更先进的训练策略,本文使用RCAN,在Manga109数据集的 × 2 \times2 ×2任务上得到了 0.44 d B 0.44 dB 0.44dB的PSNR值提升,达到了 39.88 d B 39.88dB 39.88dB。这个指标已经足够优秀,可以媲美或者超过SOTA算法,比如CRAN和SwinIR。
结合自集成推断(self-ensemble inference),PSNR可以进一步提升到 40.04 d B 40.04dB 40.04dB,优于现有的所有方法,不管带不带自集成推断结构。
在广泛使用的DF2K数据集上,作者发现模型性能受限于欠拟合而不是过拟合。所以,作者基于这个观察,可以得出几个结论:
首先,简单地增加训练迭代次数可以明显提高分数,而正则化技术通常会降低SR模型的性能。
其次,使用最先进的优化器和学习率调度策略的大批量训练方案(large-batch training scheme),该模型可以在减少4倍的训练时间情况下,匹配原始的训练结果。
第三,将ReLU更改为SiLU,这样简单的架构修改,可以实现延长两倍训练时间的类似训练结果。
第四,使用 × 2 \times2 ×2模型作为 × 3 \times3 ×3模型和 × 4 \times4 ×4模型的初始化,可以减少训练时间和成本,同时仍然获得有竞争力的性能。
有一些工作为了保证训练的稳定性,使用warm-up技术来避免学习率突然上升。
像LAMB这样的优化器,通过分层自适应机制对Adam优化器进行了改进。
与超分任务不同,图像识别的主要挑战是过度拟合。所以权重衰减、更强的数据增强,Mixup和随机深度等正则化技术通常会提高深度分类模型的准确性。本文证明了深度超分模型的性能受到欠拟合的限制。
方法介绍
网络结构
RCAN是当时较为流行的一种SR架构,其是对EDSR等工作进行了三点主要改进。
(1)它在每个残差块的第二个 3 × 3 3\times3 3×3卷积层之后使用SE Blocks(squeeze-excitation)或者channel-attention block来对不同通道进行重新加权。
(2)它有新颖的残差设计,其带有长跳跃连接,以绕过低频信息并有利于更好地学习高频细节。
(3)RCAN是一个非常深的架构,具有很大的模型容量,因为它有 200 200 200个残差块和 400 400 400多个卷积层。
本文的工作基本保持RCAN架构不变。在架构角度上,唯一的修改就是使用SiLU(Sigmoid Linear Unit,也成为了Swish)激活函数代替了原始的ReLU激活函数。Swish激活函数的表示如下:其中 σ ( x ) \sigma(x) σ(x)是sigmoid函数。 f ( x ) = x ∗ σ ( x ) (1) f(x)=x*\sigma(x)\tag{1} f(x)=