视频超分：RISTN（Residual Invertible Spatio-Temporal Network for Video Super-Resolution）

WangsyUQ

已于 2022-06-06 22:28:08 修改

阅读量1.2k

点赞数

分类专栏：视频超分(VSR) 文章标签：计算机视觉算法深度学习

于 2021-01-03 21:59:12 首次发布

本文链接：https://blog.csdn.net/Srhyme/article/details/112131598

版权

视频超分(VSR) 专栏收录该内容

54 篇文章 108 订阅

订阅专栏

在这里插入图片描述
论文：用于视频超分辨率的残差可逆时空网络
代码：https://github.com/lizhuangzi/RISTN
文章检索出处：AAAI 2019

看点

本文提出了一种新的端到端架构，称为残差可逆时空网络（RISTN），与现有的基于循环卷积网络的方法相比，RISTN方法更深入，效率更高，且实现了STOA，主要贡献如下：
1）设计了一种轻量级残差可逆块（RIB），以更好地保持LR帧和相应的SR帧之间的空间信息。在RIB中，引入残差连接来学习细粒度特征表示，同时降低了信息的丢失。
2）提出了一种新的残差密集卷积LSTM（RDCLSTM）。它不仅可以捕获连续视频帧的时间信息，而且可以有效地转换不同层次的空间特征。
3）提出了一种稀疏特征融合策略，用于结合空间和时间特征重建最终输出。稀疏特征融合可以自适应地选择信息特征，并对低质量和高质量视频帧之间的映射进行建模。
在这里插入图片描述

方法

overview

RISTN的结构如下图所示。在空间分量中，将连续的LR帧输入到padding层，随后的两个并行残差可逆块（RIB）具有不同的结构和层数，以利用层次特征。将前一个RIB的输出特征映射串联起来，然后输入到下一个平行的RIB块中。在时域部分，利用残差密集卷积LSTM（RDC-LSTM）网络对特征图进行处理。在重建部分，利用稀疏特征融合方法，对空间和时间特征图进行融合，融合后的特征图上采样到目标的HR大小。最后，采用重构层恢复RGB信道的HR帧。
在这里插入图片描述

残差可逆块

输出帧应该具有和LR帧相同的结构信息，以往的工作无法充分使用特征的空间信息。在可逆块算法中，它将输入的所有信息保留在任何中间位置。然而，可逆块的可逆性限制了它学习丰富重建特征的能力。为此，本文提出了一种残差可逆块（RIB），构造了残差连接，并设计了并行可逆块来学习LR和HR帧之间的差异，如下图所示。
在这里插入图片描述
RIB中特征可以计算为：

其中，X代表中间特征， $F_i$ ，i∈[1，2，…，n−1]，称为卷积瓶颈。卷积瓶颈包括卷积层、批量归一化和ReLU激活函数。所以，整个RIB的输出为：

其中， $X_{Fea}$ 为输入特征，[,]表示concat。可以看出，RIB是一种内存高效的结构，在每个卷积瓶颈之后只计算一半的特征映射）。且IB生成的级联特征映射试图逼近输入和目标输出特征映射之间的差异，因此RIB中的IBs可以学习LR和HR帧之间的差异。

快捷连接的LSTM

在该组件中，采用卷积LSTM（C-LSTM）来挖掘连续帧的信息特征。与传统的一维LSTM不同，C-LSTM从相邻的时间戳中获取二维特征。为了充分利用时间一致性，将C-LSTM构造为一个双向体系结构，且添加了一些跳层连接，如下图所示。
在这里插入图片描述
C-LSTM还存在一些不足。随着网络深度的增加，原有的C-LSTM的性能无法得到相应的提升。此外，消失梯度问题也很严重。因此，为了更好地进行特征变换，本文提出了三种具有快捷连接的变体，残差连接LSTM（RC-LSTM），其目的是优化输入和输出的残差值。它善于学习信息的多样性和解决梯度问题。稠密连接LSTM（DC-LSTM），它利用了不同单元级别的分层特征，缓解了消失梯度问题。最终的模型残差稠密连接LSTM（RDC-LSTM），它结合了残差连接和稠密连接的优点，两者相辅相成。实验也验证了快捷连接的有效性。

稀疏特征融合

以往的研究忽略了重建部分时空特征的结合。本文使用稀疏策略来融合空间和时间特征。由于连续的LSTM层导致特征退化，在最终的重建中需要考虑原始的空间信息。稀疏性被用来选择有用的特征图以降低过拟合的风险。提出的稀疏特征融合方法的流程图如下图所示。
在这里插入图片描述
利用mapping层将时间特征转换为与空间特征相同的空间。假设空间特征映射通道数为 $c_1$ ，时间特征映射通道数为 $c_2$ 。定义 $c=2×c_1$ ，特征映射 $x_{concat}$ 可以表示为：

其中，W是滤波器。然后，设计了一个稀疏矩阵 $SM∈\mathbb R^{c×c/2}$ ，用于选择有用的特征映射，并对特征通道进行自适应压缩。 $X_{fuse}$ 可以计算为：
在这里插入图片描述
其中“×”表示矩阵乘法。此外，在训练损失中，SM的稀疏性由一个L1正则项控制。

重建中的上采样

在重建分量中，构造反卷积层，将特征图向上采样到HR分辨率。在以前基于RCNs的方法中，最初使用双三次插值对LR帧进行上采样，并将上采样的帧放入网络中。此外，插值方法对于求解SR问题是不具信息性的。本文在重建组件中采用反卷积层作为上采样层，变换后的特征在网络末端进行上采样。不同于亚像素卷积，反卷积层自适应地允许任意信道数作为输入，而不是固定数目。本文采用了两个堆叠的3×3反卷积层对特征图进行上采样。

损失

首先在ImageNet数据集上对空间网络进行预训练，采用像素均方误差（MSE）作为损失函数。然后，在视频数据集上训练RISTN，训练损失L可以表示为：
在这里插入图片描述
其中k为连续帧总数，T=0为当前帧，λ为用户设置的超参数，SM为融合部分的稀疏矩阵。L1范数可以确保SM的稀疏性。

实验

数据集

从ImageNet中随机抽取50000幅图像进行空间网络预训练。从699pic.com网站以及vimeo.com网站共收集195条1080p视频。将采集到的视频按缩小2倍，并随机剪裁成5800个（200×200）HR视频序列，采用BI降质。每个序列中使用5个连续的视频帧进行训练。

消融实验

用放弃残差连接的可逆块（IB）和不使用基可逆结构的残差块（RB）以及其他模型的结构对RIB的有效性进行消融实验。
在这里插入图片描述
作者说，虽然RDN性能好，但是他占地大啊，所以它总体不好。
对各种LSTM的结构进行消融实验。

（有个问题是，为什么在3层的时候RC会比RDC效果还好呢，作者的解释是浅层结构中，密集连接的特征映射少，这不利于利用信息特征。感觉有些牵强）