视频超分:RISTN(Residual Invertible Spatio-Temporal Network for Video Super-Resolution)

在这里插入图片描述
论文:用于视频超分辨率的残差可逆时空网络
代码:https://github.com/lizhuangzi/RISTN
文章检索出处:AAAI 2019

看点

本文提出了一种新的端到端架构,称为残差可逆时空网络(RISTN),与现有的基于循环卷积网络的方法相比,RISTN方法更深入,效率更高,且实现了STOA,主要贡献如下:
1)设计了一种轻量级残差可逆块(RIB),以更好地保持LR帧和相应的SR帧之间的空间信息。在RIB中,引入残差连接来学习细粒度特征表示,同时降低了信息的丢失。
2)提出了一种新的残差密集卷积LSTM(RDCLSTM)。它不仅可以捕获连续视频帧的时间信息,而且可以有效地转换不同层次的空间特征。
3)提出了一种稀疏特征融合策略,用于结合空间和时间特征重建最终输出。稀疏特征融合可以自适应地选择信息特征,并对低质量和高质量视频帧之间的映射进行建模。
在这里插入图片描述

方法

overview

RISTN的结构如下图所示。在空间分量中,将连续的LR帧输入到padding层,随后的两个并行残差可逆块(RIB)具有不同的结构和层数,以利用层次特征。将前一个RIB的输出特征映射串联起来,然后输入到下一个平行的RIB块中。在时域部分,利用残差密集卷积LSTM(RDC-LSTM)网络对特征图进行处理。在重建部分,利用稀疏特征融合方法,对空间和时间特征图进行融合,融合后的特征图上采样到目标的HR大小。最后,采用重构层恢复RGB信道的HR帧。
在这里插入图片描述

残差可逆块

输出帧应该具有和LR帧相同的结构信息,以往的工作无法充分使用特征的空间信息。在可逆块算法中,它将输入的所有信息保留在任何中间位置。然而,可逆块的可逆性限制了它学习丰富重建特征的能力。为此,本文提出了一种残差可逆块(RIB),构造了残差连接,并设计了并行可逆块来学习LR和HR帧之间的差异,如下图所示。
在这里插入图片描述
RIB中特征可以计算为:
在这里插入图片描述
其中,X代表中间特征, F i F_i Fi,i∈[1,2,…,n−1],称为卷积瓶颈。卷积瓶颈包括卷积层、批量归一化和ReLU激活函数。所以,整个RIB的输出为:
在这里插入图片描述
其中, X F e a X_{Fea} XFea为输入特征,[,]表示concat。可以看出,RIB是一种内存高效的结构,在每个卷积瓶颈之后只计算一半的特征映射)。且IB生成的级联特征映射试图逼近输入和目标输出特征映射之间的差异,因此RIB中的IBs可以学习LR和HR帧之间的差异。

快捷连接的LSTM

在该组件中,采用卷积LSTM(C-LSTM)来挖掘连续帧的信息特征。与传统的一维LSTM不同,C-LSTM从相邻的时间戳中获取二维特征。为了充分利用时间一致性,将C-LSTM构造为一个双向体系结构,且添加了一些跳层连接,如下图所示。
在这里插入图片描述
C-LSTM还存在一些不足。随着网络深度的增加,原有的C-LSTM的性能无法得到相应的提升。此外,消失梯度问题也很严重。因此,为了更好地进行特征变换,本文提出了三种具有快捷连接的变体,残差连接LSTM(RC-LSTM),其目的是优化输入和输出的残差值。它善于学习信息的多样性和解决梯度问题。稠密连接LSTM(DC-LSTM),它利用了不同单元级别的分层特征,缓解了消失梯度问题。最终的模型残差稠密连接LSTM(RDC-LSTM),它结合了残差连接和稠密连接的优点,两者相辅相成。实验也验证了快捷连接的有效性。

稀疏特征融合

以往的研究忽略了重建部分时空特征的结合。本文使用稀疏策略来融合空间和时间特征。由于连续的LSTM层导致特征退化,在最终的重建中需要考虑原始的空间信息。稀疏性被用来选择有用的特征图以降低过拟合的风险。提出的稀疏特征融合方法的流程图如下图所示。
在这里插入图片描述
利用mapping层将时间特征转换为与空间特征相同的空间。假设空间特征映射通道数为 c 1 c_1 c1,时间特征映射通道数为 c 2 c_2 c2。定义 c = 2 × c 1 c=2×c_1 c=2×c1,特征映射 x c o n c a t x_{concat} xconcat可以表示为:
在这里插入图片描述
其中,W是滤波器。然后,设计了一个稀疏矩阵 S M ∈ R c × c / 2 SM∈\mathbb R^{c×c/2} SMRc×c/2,用于选择有用的特征映射,并对特征通道进行自适应压缩。 X f u s e X_{fuse} Xfuse可以计算为:
在这里插入图片描述
其中“×”表示矩阵乘法。此外,在训练损失中,SM的稀疏性由一个L1正则项控制。

重建中的上采样

在重建分量中,构造反卷积层,将特征图向上采样到HR分辨率。在以前基于RCNs的方法中,最初使用双三次插值对LR帧进行上采样,并将上采样的帧放入网络中。此外,插值方法对于求解SR问题是不具信息性的。本文在重建组件中采用反卷积层作为上采样层,变换后的特征在网络末端进行上采样。不同于亚像素卷积,反卷积层自适应地允许任意信道数作为输入,而不是固定数目。本文采用了两个堆叠的3×3反卷积层对特征图进行上采样。

损失

首先在ImageNet数据集上对空间网络进行预训练,采用像素均方误差(MSE)作为损失函数。然后,在视频数据集上训练RISTN,训练损失L可以表示为:
在这里插入图片描述
其中k为连续帧总数,T=0为当前帧,λ为用户设置的超参数,SM为融合部分的稀疏矩阵。L1范数可以确保SM的稀疏性。

实验

数据集

从ImageNet中随机抽取50000幅图像进行空间网络预训练。从699pic.com网站以及vimeo.com网站共收集195条1080p视频。将采集到的视频按缩小2倍,并随机剪裁成5800个(200×200)HR视频序列,采用BI降质。每个序列中使用5个连续的视频帧进行训练。

消融实验

用放弃残差连接的可逆块(IB)和不使用基可逆结构的残差块(RB)以及其他模型的结构对RIB的有效性进行消融实验。
在这里插入图片描述
作者说,虽然RDN性能好,但是他占地大啊,所以它总体不好。
对各种LSTM的结构进行消融实验。
在这里插入图片描述
(有个问题是,为什么在3层的时候RC会比RDC效果还好呢,作者的解释是浅层结构中,密集连接的特征映射少,这不利于利用信息特征。感觉有些牵强)

量化评估

为了验证稀疏融合的有效性,引入了无融合RISTN(RISTN-NF)和密集融合RISTN(RISTN-DF)。
在这里插入图片描述
运行时间的量化。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值