视频超分：FSTRN（Fast Spatio-Temporal Residual Network for Video Super-Resolution）

WangsyUQ

已于 2022-06-06 22:31:24 修改

阅读量1.1k

点赞数 2

分类专栏：视频超分(VSR) 文章标签：深度学习计算机视觉

于 2020-10-21 20:59:37 首次发布

本文链接：https://blog.csdn.net/Srhyme/article/details/109196584

版权

视频超分(VSR) 专栏收录该内容

54 篇文章 104 订阅

订阅专栏

在这里插入图片描述

论文：视频超分的快速时空残差网络
文章检索出处： 2019 CVPR
读后感：模型单看架构图就能了解七八，语言不够精简。唯一亮点为模型可行性分析部分，但是稍显难懂晦涩。

摘要和简介

为了同时利用视频的空间和时间信息，三维(3D)卷积是一种很好的方法。但是，直接使用3D卷积会导致计算复杂度过高，限制了模型的深度，从而影响性能。本文提出了一种新的快速时空残差网络(FSTRN)，实现了SOTR的效果。具体地说：

提出了一种快速时空残差块(FRB)，它将每个三维滤波器划分为两个三维滤波器的乘积，可以大大降低计算负荷，同时通过更深的网络结构来提高性能。
设计了一种直接连接低分和高分空间的跨空间残差学习方法(CRL)，可以大大减轻特征融合和缩放部分的计算负担

在这里插入图片描述

快速时空残差网络

网络架构 (描述较细，可选看非流程图部分)

FSTRN 主要由四个部分构成：LR浅特征提取网(LFENet)、快速时空残差块(FRBs)、LR特征融合和上采样SR网(LSRNet)、LR空间残差学习(LRL)和跨空间残差学习(CRL)组成的全局残差学习(GRL)。
LFENet使用C3D层从LR视频中提取特征：在这里插入图片描述其中， $F_0^L$ 是提取的特征图的输出， $H_{LFE}(·)$ 代表C3D操作。 $F_0^L$ 随后用于LR空间的全局残差学习，并作为FRBs的输入进行进一步的特征提取。
FRBs用于提取LFENet输出上的时空特征。假设使用d个FRB，第一个FRB处理LFENet的输出，随后的FRB对前一个FRB输出进一步提取特征，那么第可以表示为：
在这里插入图片描述
其中 $H_{FRB,d}$ 表示第d个FRB。除了FRBs之外，我们还进行了LR空间残差学习(LRL)，以进一步提高LR空间中的特征学习。

其中 $F_{LRL}^L$ 利用复合函数 $H_{LRL}$ 实现LRL的输出特征映射。在有效提取LRL特征后，我们使用一个C3D进行特征融合，然后使用一个反卷积进行上采样，再使用一个C3D进行LSRNet中特征通道的调优。输出 $F^L_{SR}$ ，表示为:
在这里插入图片描述
其中，HLSR(·)表示LSRNet操作。最终，网络输出由LSRNet的 $F^L_{SR}$ 和附加LR到HR空间的全局残差组成，形成HR空间的跨空间残差学习(CRL)。从LR空间到HR空间的输入的SR映射表示为 $F_{SR}^H$ ，则FSTRN的输出可得为:
$H_{FSTRN}$ 为所提的FSTRN方法函数，整体流图如下。

在这里插入图片描述

快速时空残差块

从2D卷积到3D卷积需要更多的参数，就伴随着更多的计算。为了解决这个问题，我们把C3D分解为两个时空C3Ds — 从 $k$ x $k$ x $k$ 到1 x $k$ x $k$ 加 $k$ x 1 x 1。此外，我们还将激活函数从ReLU改为PReLU，负部分的斜率是从数据中得知的，而不是预定义的。故FRB可以表示为: 在这里插入图片描述
其中， $\sigma$ 为PReLU激活函数。 $W_{d,s}$ , $W_{d,t}$ 分别对应FRB中空间卷积和时间卷积的权值，没有显示偏差项。因此，我们建立一个更大的基于C3D的模型，使得在有限的计算资源下，更好进行视频超分。

全局残差学习

对于SR任务，输入和输出是高度相关的，所以输入和输出之间的残差连接被广泛使用。然而，之前的工作要么是在放大的输入上执行残差学习，要么是直接在输入-输出空间上执行残差连接，再特征融合和上采样，这都会给这些层带来很大的压力。针对这些问题，我们提出了LR空间和HR空间上的全局残差学习(GRL)，它主要包括LR空间残差学习(LRL)和跨空间残差学习(CRL)两部分。
在FRBs中引入LR空间残差学习(LRL)。我们为它使用一个跟随参数矫正线性单元(PReLU)的残差连接。考虑到输入帧之间的高度相似性，我们还引入了dropout层来增强网络的泛化能力。因此LRL的输出 $F_{LRL}^L$ 为：
在这里插入图片描述
其中 $\sigma_L$ 为PReLU与dropout的组合函数。
跨空间残差学习(CRL)使用一个简单的SR映射将LR视频直接映射到HR空间，然后添加到LSRNet结果中，形成HR空间的全局残差学习。具体来说，CRL在输出中引入了一个内插的LR，这可以极大地减轻LSRNet的负担，帮助改进SR的结果。LR到HR空间的映射可以表示为:
在这里插入图片描述
其中 $F_{SR}^H$ 是HR空间上的超分输入映射。 $H_{CRL}$ 表示映射函数。映射函数的选择尽可能简单，以避免引入太多的额外计算成本，包括双线性、最近、双三次、面积和基于反褶积的插值。

理论分析

对FSTRN的泛化能力和可行性进行了分析，此处不过多论述，若有需求请参考原文。
在这里插入图片描述

实验

实施细节

使用25 YUV当做数据集，并对视频序列数据进行了数据增强。在裁剪过程中，我们取大空间尺寸为144×144，时间step为5，空间和时间步长(strides)分别设置为32和10。此外，我们考虑了训练卷的翻转和调换版本。特别地，我们将原始图像旋转90°并水平和垂直翻转。这样，我们可以从原始的视频数据生成到13020个。在此之后，训练和测试的LR输入生成过程被分为两个阶段:用一个标准偏差为2的高斯滤波器平滑每个原始帧，并使用双三次方法对前一帧进行向下采样。另外，为了在测试阶段保持输出帧数与原始视频相等，对测试视频头部和尾部进行帧填充。经验设置FRBs的数量和学习率分别为5和0.3。使用Adam优化器来最小化标准反向传播的损失函数。我们从1e - 4的步长开始，当训练损失停止下降时，我们把它减少了10倍。批处理大小是根据GPU内存大小设置的。使用Charbonnier损失函数，ε = 1e − 3。

对比实验

FRB和C3D块参数量和复杂度比较：
在这里插入图片描述

消融实验

在这里插入图片描述

量化评估

与SOTR模型的对比：
在这里插入图片描述

仅供学习使用，请勿转载。

WangsyUQ

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
视频超分：FSTRN（Fast Spatio-Temporal Residual Network for Video Super-Resolution）

论文：视频超分的快速时空残差网络文章检索出处： 2019 CVPR读后感：模型单看架构图就能了解七八，语言不够精简。唯一亮点为模型可行性分析部分，但是稍显难懂晦涩。为了同时利用视频的空间和时间信息，三维(3D)卷积是一种很好的方法。但是，直接使用3D卷积会导致计算复杂度过高，限制了模型的深度，从而影响性能。本文提出了一种新的快速时空残差网络(FSTRN)，实现了SOTR的效果。具体地说：FSTRN 主要由四个部分构成：LR浅特征提取网(LFENet)、快速时空残差块(FRBs)、LR特征融合和上采样
复制链接

扫一扫

专栏目录