论文:视频超分的快速时空残差网络
文章检索出处: 2019 CVPR
读后感:模型单看架构图就能了解七八,语言不够精简。唯一亮点为模型可行性分析部分,但是稍显难懂晦涩。
摘要和简介
为了同时利用视频的空间和时间信息,三维(3D)卷积是一种很好的方法。但是,直接使用3D卷积会导致计算复杂度过高,限制了模型的深度,从而影响性能。本文提出了一种新的快速时空残差网络(FSTRN),实现了SOTR的效果。具体地说:
- 提出了一种快速时空残差块(FRB),它将每个三维滤波器划分为两个三维滤波器的乘积,可以大大降低计算负荷,同时通过更深的网络结构来提高性能。
- 设计了一种直接连接低分和高分空间的跨空间残差学习方法(CRL),可以大大减轻特征融合和缩放部分的计算负担
快速时空残差网络
网络架构 (描述较细,可选看非流程图部分)
FSTRN 主要由四个部分构成:LR浅特征提取网(LFENet)、快速时空残差块(FRBs)、LR特征融合和上采样SR网(LSRNet)、LR空间残差学习(LRL)和跨空间残差学习(CRL)组成的全局残差学习(GRL)。
LFENet使用C3D层从LR视频中提取特征:其中,
F
0
L
F_0^L
F0L是提取的特征图的输出,
H
L
F
E
(
⋅
)
H_{LFE}(·)
HLFE(⋅)代表C3D操作。
F
0
L
F_0^L
F0L随后用于LR空间的全局残差学习,并作为FRBs的输入进行进一步的特征提取。
FRBs用于提取LFENet输出上的时空特征。假设使用d个FRB,第一个FRB处理LFENet的输出,随后的FRB对前一个FRB输出进一步提取特征,那么第可以表示为:
其中
H
F
R
B
,
d
H_{FRB,d}
HFRB,d表示第d个FRB。除了FRBs之外,我们还进行了LR空间残差学习(LRL),以进一步提高LR空间中的特征学习。
其中
F
L
R
L
L
F_{LRL}^L
FLRLL利用复合函数
H
L
R
L
H_{LRL}
HLRL实现LRL的输出特征映射。在有效提取LRL特征后,我们使用一个C3D进行特征融合,然后使用一个反卷积进行上采样,再使用一个C3D进行LSRNet中特征通道的调优。输出
F
S
R
L
F^L_{SR}
FSRL,表示为:
其中,HLSR(·)表示LSRNet操作。最终,网络输出由LSRNet的
F
S
R
L
F^L_{SR}
FSRL和附加LR到HR空间的全局残差组成,形成HR空间的跨空间残差学习(CRL)。从LR空间到HR空间的输入的SR映射表示为
F
S
R
H
F_{SR}^H
FSRH,则FSTRN的输出可得为:
H
F
S
T
R
N
H_{FSTRN}
HFSTRN为所提的FSTRN方法函数,整体流图如下。
快速时空残差块
从2D卷积到3D卷积需要更多的参数,就伴随着更多的计算。为了解决这个问题,我们把C3D分解为两个时空C3Ds — 从
k
k
k x
k
k
k x
k
k
k到1 x
k
k
k x
k
k
k加
k
k
k x 1 x 1。此外,我们还将激活函数从ReLU改为PReLU,负部分的斜率是从数据中得知的,而不是预定义的。故FRB可以表示为:
其中,
σ
\sigma
σ为PReLU激活函数。
W
d
,
s
W_{d,s}
Wd,s,
W
d
,
t
W_{d,t}
Wd,t分别对应FRB中空间卷积和时间卷积的权值,没有显示偏差项。因此,我们建立一个更大的基于C3D的模型,使得在有限的计算资源下,更好进行视频超分。
全局残差学习
对于SR任务,输入和输出是高度相关的,所以输入和输出之间的残差连接被广泛使用。然而,之前的工作要么是在放大的输入上执行残差学习,要么是直接在输入-输出空间上执行残差连接,再特征融合和上采样,这都会给这些层带来很大的压力。针对这些问题,我们提出了LR空间和HR空间上的全局残差学习(GRL),它主要包括LR空间残差学习(LRL)和跨空间残差学习(CRL)两部分。
在FRBs中引入LR空间残差学习(LRL)。我们为它使用一个跟随参数矫正线性单元(PReLU)的残差连接。考虑到输入帧之间的高度相似性,我们还引入了dropout层来增强网络的泛化能力。因此LRL的输出
F
L
R
L
L
F_{LRL}^L
FLRLL为:
其中
σ
L
\sigma_L
σL为PReLU与dropout的组合函数。
跨空间残差学习(CRL)使用一个简单的SR映射将LR视频直接映射到HR空间,然后添加到LSRNet结果中,形成HR空间的全局残差学习。具体来说,CRL在输出中引入了一个内插的LR,这可以极大地减轻LSRNet的负担,帮助改进SR的结果。LR到HR空间的映射可以表示为:
其中
F
S
R
H
F_{SR}^H
FSRH是HR空间上的超分输入映射。
H
C
R
L
H_{CRL}
HCRL表示映射函数。映射函数的选择尽可能简单,以避免引入太多的额外计算成本,包括双线性、最近、双三次、面积和基于反褶积的插值。
理论分析
对FSTRN的泛化能力和可行性进行了分析,此处不过多论述,若有需求请参考原文。
实验
实施细节
使用25 YUV当做数据集,并对视频序列数据进行了数据增强。在裁剪过程中,我们取大空间尺寸为144×144,时间step为5,空间和时间步长(strides)分别设置为32和10。此外,我们考虑了训练卷的翻转和调换版本。特别地,我们将原始图像旋转90°并水平和垂直翻转。这样,我们可以从原始的视频数据生成到13020个。在此之后,训练和测试的LR输入生成过程被分为两个阶段:用一个标准偏差为2的高斯滤波器平滑每个原始帧,并使用双三次方法对前一帧进行向下采样。另外,为了在测试阶段保持输出帧数与原始视频相等,对测试视频头部和尾部进行帧填充。经验设置FRBs的数量和学习率分别为5和0.3。使用Adam优化器来最小化标准反向传播的损失函数。我们从1e - 4的步长开始,当训练损失停止下降时,我们把它减少了10倍。批处理大小是根据GPU内存大小设置的。使用Charbonnier损失函数,ε = 1e − 3。
对比实验
FRB和C3D块参数量和复杂度比较:
消融实验
量化评估
与SOTR模型的对比:
仅供学习使用,请勿转载。