AnimeSR：可学习的降质算子与新的真实世界动漫VSR数据集-CSDN博客

本文链接：https://blog.csdn.net/Srhyme/article/details/124475229

在这里插入图片描述
作者单位：腾讯PCG ARC实验室
论文链接：https://arxiv.org/pdf/2206.07038
笔者言： Xintao大佬团队的又一力作，本文针对真实动漫VSR提出了一个新的动画数据集，此外将真实世界降质算子扩展成可学习的算子，在NIQE等评价指标上实现了SOTA。

看点

本文汇总了三个实现动漫VSR的三个关键改进措施：

最近的真实世界VSR方法的退化大多使用没有学习能力的基本算子，如模糊、噪声和压缩。本文建议从真实的LQ动画中学习这些基本算子，并将学习到的算子加入到退化过程中。这种基于神经网络的基本操作可以帮助更好地捕捉真实退化的分布。
建立了一个大尺度的HQ动画数据集AVC，以便对动画VSR进行训练和评估。
研究了一种高效的多尺度网络结构AnimeSR，它利用了单向循环网络的高效性和滑窗方法的有效性，达到比以前先进的方法更好的性能。

在这里插入图片描述

方法

AVC数据集

训练集AVC-Train包含553个高质量的剪辑，共55300帧。测试集AVC-Test包含30个片段，共3000帧。为了评估实际场景中的方法，本文还构建了一个真实世界的测试集AVC-RealLQ，它由44个低质量片段组成，下图显示了数据集的一些示例。
在这里插入图片描述

降质合成中的可学习基本算子

由于缺乏LR-HR训练对，最近的工作设计尽可能接近真实世界的退化模型，然后利用降质模型从HR中合成LR。上述降质可描述为n步： $x = D^n(y)=(D_n◦···◦D_1)(y)$ 经典的降质模型中基本算子包括模糊、噪声、缩放、JPEG/FFMPEG压缩等。这些算子不具有任何学习能力，这在本质上限制了它们对真实世界降质的合成能力，如下图a。另一类采用大型神经网络和对抗学习方法合成LR样本。然而，利用一个大的神经网络来学习整个退化过程和分布是一个挑战。这些方法只对有限范围的图像有效，而且通常会产生令人不快的伪影，如下图b。本文建议学习用于降质合成的基本算子。与使用一个大型网络的方法不同，本文使用两三个卷积层训练微小的神经网络，以捕捉真实退化的主要特征，神经网络后续纳入降质合成过程。神经算子是可学习的，并且能够合成那些经典算子无法模拟的真实退化。可学习的基本算子极大地扩展了退化空间，可以覆盖更多真实的退化。
在这里插入图片描述

输入缩放策略

本文使用LR-HR对以监督的方式训练可学习的基本算子。然而，获得真实世界LQ视频的LR-HR对用于训练是具有挑战性的。对于真实的LQ动画，本文使用基本算子训练退化模型获得初步结果，如下图。正如预期的那样，输出并不令人满意。通过使用不同的缩放因子（×1—×0.3）来调整输入的大小。可以观察到，随着输入分辨率的降低，伪影逐渐减少。但是过大的降尺度因子会导致细节/信息的丢失。其中，通过在这些视频样本上缩放×0.5的输入，可以在伪影消除和细节损失之间取得良好的平衡。因此，可以手动选择一个满意的输出作为伪HR，称为“输入缩放策略”。
在这里插入图片描述

可学习的基本算子

本文挑选了几个具有代表性的真实世界的LQ动画来训练可学习的基本算子。首先筛选VSR模型在原比例上表现较差，但在合适的比例因子下可以产生较好结果的LQ视频，并确定每个视频的最佳缩放因子。每段LQ视频采集大约2000帧，将它们输入到VSR网络中，获得伪HR样本。然后使用LR—伪HR对训练可学习的基本算子。神经算子由3个3 × 3卷积层组成，隐通道维数为64。在卷积层之间使用LeakyReLU激活。本文从不同的LQ视频中训练出三个可学习的基本算子，并将它们放入一个池中。在每次训练迭代时从池中随机选择一个，并将其纳入退化过程中。

网络架构

实际动画VSR中的网络结构要求在性能和效率之间取得良好的平衡。目前的实用模型如Real-ESRGAN和RealBasicVSR通常采用非常大的网络，处理非常耗时，占用大量资源。当现有视频超分辨率达到4K/8K分辨率时，这一缺点会变得更加严重。在实际VSR中通常采用单向循环结构。然而，后续帧的缺失阻碍了时间信息的利用。因此在高效的单向结构的基础上，本文进一步采用了滑动窗口结构。循环块接收一个 ${LR_{t−1},LR_t, LR_{t+1}}$ 帧序列。
在这里插入图片描述
如上图b，循环块中采用10个残差块的多层级设计。采用三个量表，×1，×0.5和×0.25并为这三个量表分配了5、3和2个块。本文在AnimeSR中不使用光流，因为作者根据经验发现光流不会带来明显的视觉改善。此外，光流的计算也降低了训练和推理的速度。

实验

消融实验

数据集、退化模型、多尺度结构和可学习的基本算子(LBO)的消融实验
在这里插入图片描述

定量评估

作者认为NR-IQA指标并不总是与视觉质量一致，特别是在更精细的尺度上，所用的MANIQA比NIQE更符合感知视觉质量。
在这里插入图片描述

定性评估

在这里插入图片描述

笔者总结

本文出自xintao大佬团队，AnimeSR的主要贡献如下：从真实的LQ动画中学习降质算子以更好地捕捉真实退化的分布；构建了一个大规模的HQ动画视频数据集AVC以便于动画VSR的训练和评估；有效的“输入缩放策略”使学习这些神经操作成为可能；进一步研究了一种高效的多尺度网络结构使AnimeSR实现SOTA。针对整篇文章，笔者认为：

输入缩放策略略显主观，更加客观的筛选方案时候是否是后续可以继续研究的内容呢，其次，过往单项VSR的输入为 $LR_{t-1}$ 和 $LR_t$ ，本文将 $LR_{t+1}$ 加入输出作为滑窗的创新点略显强求， $LR_{t+1}$ 也作为输入是否就非严格意义上的‘unidirectional’了呢？
文中在训练集的选取上是使用光流过滤静态场景，但是在VSR中提及使用光流的效果不佳，这部分没有实验或者理论的论证。所以是否是光流本身的问题导致的效果不好，使用其他的对齐方法呢？还是数据集中的运动范围单一所导致的呢？笔者认为还需更加详细的论证。
本文更多的采用MANIQA作为定量的评估指标，是否可以添加稍多的评估指标例如NRQM、PI、BRISQUE等，此外，人工合成数据是否也算是真实世界中的一种呢？