这篇文章的重点在于Robust,也就是说作者提出的方法都有利于网络的稳定和减少错误的发生。VSR任务的架构分为对齐和融合SR。在对齐部分作者提出了spatial alignment network时间对齐网络;在融合SR部分作者提出了空间自适应网络temporal adaptive neural network。
原文链接:RVSR: Robust Video Super-Resolution With Learned Temporal Dynamics【2017 ICCV】
参考文章:超分之Robust VSR with Learned Temporal Dynamics
RVSR: Robust Video Super-Resolution With Learned Temporal Dynamics
Abstract
SISR任务都是充分利用单张图像的空间信息,而VSR任务,因为有时间上相邻的多帧,所以帧间的时间信息也非常重要。非常复杂的运动很难建模,不当的处理会对图像重建产生不利的影响。怎样合理高效的利用帧间的时间信息就非常关键了。因此作者从两个方面提出了想法:
- 提出了空间自适应神经网络temporal adaptive neural network。可以自适应的确定最优的时间依赖的尺度(融合几个连续帧),在融合使用不同时间尺度的滤波器。
- 提出了时间对齐网络spatial alignment network。为了减小相邻帧之间的运动复杂度。减小运动补偿的误差对后续网络训练的影响,从而达到更高的稳定性和鲁棒性。
- 时间对齐网络和空间自适应融合网络是串联结构,从而使整个网络成为一个端到端训练的网络。
1 Introduction
作者为了提高网络的稳定性
,从减小网络误差的目的出发提出了两种针对光流估计不精确的问题改进的方法。整体网络分为两个部分:空间对齐网络和时间自适应网络串联组成。
对齐模块在基于光流的方法中,非常的依赖运动估计的准确性。平滑微小的运动非常容易捕捉还原,如果出现复杂大幅度的运动,那么在运动估计的时候很容易出现大的误差,(在大运动的过程中,很难猜测是怎样的一个轨迹)。而不精确的运动估计会严重影响到SR的效果。
-
基于这个问题,作者在提出了时间自适应网络,能够稳定地处理各种类型的运动,并自适应地选择最佳的时间依赖范围,以减轻连续帧之间错误运动估计的不利影响。该网络将经过运动补偿的多个对齐的LR帧作为输入,并应用不同时间大小的滤波器来生成多个HR帧估计图像。同时根据网络中的另一条分支推断出的运动补偿置信度,自适应地聚合生成的多个HR估计。(受GoogLeNet Inception module的启发)对光流质量的改进:①高计算成本的方式DBLP ②仅从单一固定时间尺度提取运动信息VSRCNN。而该模型是通过网络在不完美的运动补偿中学习寻找一种平衡,从而达到鲁棒性。
-
除了在时间域对运动信息进行建模外,还可以在空间域对运动进行补偿,从而有助于时间域的建模。作者发现基于复杂光流的方法可能不是最佳的,因为复杂运动的估计误差会对后续的SR产生不利影响。因此,只需估计
少量的空间变换参数
,就可以减少运动的复杂性,并且为对齐不同帧提供了一种更加稳定的方法。提出了一种空间对齐网络,推导出合适的帧之间的空间变换,并生成对齐的支持帧。该方法需要的时间短,可与时域自适应网络级联,联合训练。
2 Temporal Adaptive Neural Network
对于VSR,最主要的就是如何利用时间信息来处理各种类型的运动。作者设计了一种能自适应的学习最优时间尺度。主要分为两个部分:多个SR重建分支和时间调制分支组成。用N种时间滤波器各自超分得到SR图像 H t i H_t^i Hti;时间调制分支获取前面N个分支的注意力权重;使用权重融合前面N张SR图像 H t i H_t^i Hti得到最后输出 H t H_t Ht。
SR前向分支:
一共有N条分支 { B i } i = 1 N \{B_i\}^N_{i=1} {
Bi}i=1N(N种时间尺度),每条使用不同数量的时间滤波器,各自独立完成SR重建工作,得到不同的重建图像 H t i H_t^i Hti。第 i i i条分支 B i Bi Bi,输入为 2 i − 1 2i-1 2i−1个相邻帧,采用最简单的早期融合对 2 i − 1 2i-1 2i−1个相邻帧进行拼接,该融合方式下输入格式为 ( B a t c h , ( 2 i − 1 ) ∗ c , H , W ) (Batch, (2i-1)*c, H, W) (Batch,(2i−1)∗c,H,W),其中c是每一帧的通道数。然后输入SR网络,在本文中使用的是ESPCN,也可以使用其他结构,比如SRCNN等。
时间调制分支:
用于选择最优的时间尺度(这里其实是选择最优的时间尺度权重分配,并不是N选1),是pixel-wise级的。它具有和SR前向分支相同的网络结构。不同于SR前向分支,该分支输入为前向分支中最长时间序列,即 2 N − 1 2N-1 2N−1个连续帧,这样做也是为了更加全面的覆盖前向分支所有的输入情况。该分支的输出是 N N N张权重图 W i W_i Wi,将每张权重图和前面分支的输出 H t i H_t^i Hti进行元素相乘,最后将N个结果相加得到最后的输出 H t H_t Ht。 H t = ∑ i W i ⊙ H i t , i ∈ { 1 , ⋯ , N } H_t = \sum_i W_i\odot H_i^t, i\in\{1,\cdots,N\} Ht=i∑Wi⊙Hit,i∈{
1,⋯,N}
LOSS:
时间自适应网络的损失函数使用L2LOSS:
min Θ ∑ j ∣ ∣ F ( y ( j ) ; Θ ) − x