视频超分:FSTRN(Fast Spatio-Temporal Residual Network for Video Super-Resolution)

在这里插入图片描述

论文:视频超分的快速时空残差网络
文章检索出处: 2019 CVPR
读后感:模型单看架构图就能了解七八,语言不够精简。唯一亮点为模型可行性分析部分,但是稍显难懂晦涩。

摘要和简介

为了同时利用视频的空间和时间信息,三维(3D)卷积是一种很好的方法。但是,直接使用3D卷积会导致计算复杂度过高,限制了模型的深度,从而影响性能。本文提出了一种新的快速时空残差网络(FSTRN),实现了SOTR的效果。具体地说:

  1. 提出了一种快速时空残差块(FRB),它将每个三维滤波器划分为两个三维滤波器的乘积,可以大大降低计算负荷,同时通过更深的网络结构来提高性能。
  2. 设计了一种直接连接低分和高分空间的跨空间残差学习方法(CRL),可以大大减轻特征融合和缩放部分的计算负担

在这里插入图片描述

快速时空残差网络

网络架构 (描述较细,可选看非流程图部分)

FSTRN 主要由四个部分构成:LR浅特征提取网(LFENet)、快速时空残差块(FRBs)、LR特征融合和上采样SR网(LSRNet)、LR空间残差学习(LRL)和跨空间残差学习(CRL)组成的全局残差学习(GRL)。
LFENet使用C3D层从LR视频中提取特征:在这里插入图片描述其中, F 0 L F_0^L F0L是提取的特征图的输出, H L F E ( ⋅ ) H_{LFE}(·) HLFE()代表C3D操作。 F 0 L F_0^L F0L随后用于LR空间的全局残差学习,并作为FRBs的输入进行进一步的特征提取。
FRBs用于提取LFENet输出上的时空特征。假设使用d个FRB,第一个FRB处理LFENet的输出,随后的FRB对前一个FRB输出进一步提取特征,那么第可以表示为:
在这里插入图片描述
其中 H F R B , d H_{FRB,d} HFRB,d表示第d个FRB。除了FRBs之外,我们还进行了LR空间残差学习(LRL),以进一步提高LR空间中的特征学习。
在这里插入图片描述
其中 F L R L L F_{LRL}^L FLRLL利用复合函数 H L R L H_{LRL} HLRL实现LRL的输出特征映射。在有效提取LRL特征后,我们使用一个C3D进行特征融合,然后使用一个反卷积进行上采样,再使用一个C3D进行LSRNet中特征通道的调优。输出 F S R L F^L_{SR} FSRL,表示为:
在这里插入图片描述
其中,HLSR(·)表示LSRNet操作。最终,网络输出由LSRNet的 F S R L F^L_{SR} FSRL和附加LR到HR空间的全局残差组成,形成HR空间的跨空间残差学习(CRL)。从LR空间到HR空间的输入的SR映射表示为 F S R H F_{SR}^H FSRH,则FSTRN的输出可得为:
在这里插入图片描述 H F S T R N H_{FSTRN} HFSTRN为所提的FSTRN方法函数,整体流图如下。

在这里插入图片描述

快速时空残差块

从2D卷积到3D卷积需要更多的参数,就伴随着更多的计算。为了解决这个问题,我们把C3D分解为两个时空C3Ds — 从 k k k x k k k x k k k到1 x k k k x k k k k k k x 1 x 1。此外,我们还将激活函数从ReLU改为PReLU,负部分的斜率是从数据中得知的,而不是预定义的。故FRB可以表示为:在这里插入图片描述
其中, σ \sigma σ为PReLU激活函数。 W d , s W_{d,s} Wd,s, W d , t W_{d,t} Wd,t分别对应FRB中空间卷积和时间卷积的权值,没有显示偏差项。因此,我们建立一个更大的基于C3D的模型,使得在有限的计算资源下,更好进行视频超分。
在这里插入图片描述

全局残差学习

对于SR任务,输入和输出是高度相关的,所以输入和输出之间的残差连接被广泛使用。然而,之前的工作要么是在放大的输入上执行残差学习,要么是直接在输入-输出空间上执行残差连接,再特征融合和上采样,这都会给这些层带来很大的压力。针对这些问题,我们提出了LR空间和HR空间上的全局残差学习(GRL),它主要包括LR空间残差学习(LRL)和跨空间残差学习(CRL)两部分。
在FRBs中引入LR空间残差学习(LRL)。我们为它使用一个跟随参数矫正线性单元(PReLU)的残差连接。考虑到输入帧之间的高度相似性,我们还引入了dropout层来增强网络的泛化能力。因此LRL的输出 F L R L L F_{LRL}^L FLRLL为:
在这里插入图片描述
其中 σ L \sigma_L σL为PReLU与dropout的组合函数。
跨空间残差学习(CRL)使用一个简单的SR映射将LR视频直接映射到HR空间,然后添加到LSRNet结果中,形成HR空间的全局残差学习。具体来说,CRL在输出中引入了一个内插的LR,这可以极大地减轻LSRNet的负担,帮助改进SR的结果。LR到HR空间的映射可以表示为:
在这里插入图片描述
其中 F S R H F_{SR}^H FSRH是HR空间上的超分输入映射。 H C R L H_{CRL} HCRL表示映射函数。映射函数的选择尽可能简单,以避免引入太多的额外计算成本,包括双线性、最近、双三次、面积和基于反褶积的插值。


理论分析

对FSTRN的泛化能力和可行性进行了分析,此处不过多论述,若有需求请参考原文。
在这里插入图片描述在这里插入图片描述在这里插入图片描述


实验

实施细节

使用25 YUV当做数据集,并对视频序列数据进行了数据增强。在裁剪过程中,我们取大空间尺寸为144×144,时间step为5,空间和时间步长(strides)分别设置为32和10。此外,我们考虑了训练卷的翻转和调换版本。特别地,我们将原始图像旋转90°并水平和垂直翻转。这样,我们可以从原始的视频数据生成到13020个。在此之后,训练和测试的LR输入生成过程被分为两个阶段:用一个标准偏差为2的高斯滤波器平滑每个原始帧,并使用双三次方法对前一帧进行向下采样。另外,为了在测试阶段保持输出帧数与原始视频相等,对测试视频头部和尾部进行帧填充。经验设置FRBs的数量和学习率分别为5和0.3。使用Adam优化器来最小化标准反向传播的损失函数。我们从1e - 4的步长开始,当训练损失停止下降时,我们把它减少了10倍。批处理大小是根据GPU内存大小设置的。使用Charbonnier损失函数,ε = 1e − 3。

对比实验

FRB和C3D块参数量和复杂度比较:
在这里插入图片描述

消融实验

在这里插入图片描述

量化评估

与SOTR模型的对比:
在这里插入图片描述
在这里插入图片描述
仅供学习使用,请勿转载。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值