作者单位:汉阳大学
论文链接:https://arxiv.org/pdf/2103.10081.pdf
编者言:本文采样半监督的方式训练VSR网络,并为知识蒸馏与基于自监督的SR任务的结合开辟了一个有趣的研究方向。
看点
自监督的SISR方法显示了不错的效果,但是扩展到视频超分方面还有待研究。摄像机或物体的前后运动在多帧中产生不同尺度的重复patch,较大的patch可能比相邻帧中相应的较小的patch包含更详细的信息,这些额外的细节有助于增强重建质量。为此,本文提出了一种基于patch复发性的自监督方法,允许VSR网络在测试时调整自身参数来测试视频帧。通过在时空上利用自相似补丁,本方法提高了预训练VSR网络的性能并产生了时间一致的视频帧。此外还使用提出的测试时知识蒸馏技术,以更少的硬件资源加快了自适应速度。
方法
大尺度VSR的伪数据集
下图展示了如何在测试自适应时如何组建数据集。观察到,在ground-truth上,大patch的缩小版和对应的小patch的视觉质量是相似的(图a)。然而,这一特性与传统VSR网络预测的HR帧不符。大patch的缩小版质量要比相应的小patch的质量好得多(图b),因为LR的小patch
b
L
R
\textbf b_{LR}
bLR包含很少的细节,因此对于VSR网络生成高质量的对应补丁是非歧视性的。此外,LR的小patch
b
L
R
\textbf b_{LR}
bLR和大patch的进一步缩小版
a
L
R
\textbf a_{LR}
aLR是相似的,因为a中的附加细节也被大尺度的下采样所衰减。
基于上述发现,本文通过输入帧创建伪训练数据集去增强预训练模型的性能,其中a作为训练标签,
a
L
R
\textbf a_{LR}
aLR作为输入。使用这个数据集可以对预训练的VSR网络进行微调(图c)。然后,经过微调的网络可以通过相应的patch a来提高
b
L
R
\textbf b_{LR}
bLR的分辨率,从而包含额外的细节(图d)。
没有patch对的适应
上述需要在恢复的HR帧中找到一对对应的patch。然而,寻找这些对应的patch是一项困难的任务,即使使用patch-match算法也需要花费大量的时间。为了缓解这个问题,在假设 a L R \textbf a_{LR} aLR和 b L R \textbf b_{LR} bLR分布相似的情况下使用一个简单的随机方案,这在不显式搜索a的情况下改进了b。具体说,首先随机选取A,然后下采样得到a和 a L R \textbf a_{LR} aLR,这样可以生成大量的伪训练数据集。从统计学上讲,这个数据集中高复发性的patch可能会被多次纳入。因此在自适应的过程中,可以很容易地将不同尺度上高度重复出现的patch对传递给VSR网络,并且由于CNN具有的平移同变性,VSR网络可以在没有精确对应的情况下进行微调。
自监督适应过程
首先利用预训练的VSR网络
f
θ
\textbf f_θ
fθ获得初始超分辨帧序列{
Y
t
\textbf Y_t
Yt}。然后从{
Y
t
\textbf Y_t
Yt}中随机选择一帧,并随机裁剪一个patch
Y
p
\textbf Y_p
Yp。然后将
Y
p
\textbf Y_p
Yp按随机比例因子缩小以生成伪标签
y
\textbf y
y和一个相应的伪LR
y
L
R
\textbf y_{LR}
yLR。利用该伪数据集,使用MSE最小化伪目标与网络输出的距离来更新网络参数,算法流程图如下。
通过知识蒸馏的高效适应
测试时自适应算法虽然可以提高SR性能,但当预训练网络
f
θ
\textbf f_θ
fθ很大时耗时较长。本文引入了一种借助知识蒸馏技术的高效自适应算法来缓解此问题。具体说,将教师定义为一个大的网络,而将学生定义为一个较小的网络。常规的蒸馏是在训练阶段使用ground-truth进行的,而该方法仅使用教师网络生成的伪数据集在测试时为学生网络提供有用的信息。无需复杂的技术(如特征蒸馏)就可以降低计算复杂性并同时提高SR性能,如下图。
实验
消融实验
将patch选取范围为单帧定义为低复发,将patch选取范围为视频定义为高复发,实验如下:
伪数据集制作中不同下采样因子的消融实验:
知识蒸馏的高效适应实验
E
D
V
R
L
{EDVR}_L
EDVRL有大约2100万个参数,
E
D
V
R
S
{EDVR}_S
EDVRS有大约330万个参数,对比
E
D
V
R
L
→
L
{EDVR}_{L→L}
EDVRL→L,
E
D
V
R
S
/
L
→
S
{EDVR}_{S/L→S}
EDVRS/L→S适应时间缩短一半,对比
E
D
V
R
S
→
S
{EDVR}_{S→S}
EDVRS→S,
E
D
V
R
L
→
S
{EDVR}_{L→S}
EDVRL→S性能上升0.36dB,如下图
定量评估
在VID4和REDS上的定量评估
适应前后的时间一致性定量评估