论文提出在以往的视频超分辨率中采用的滑动窗口的方式,有效地将问题视为大量独立的多帧超分辨率任务,但是该方法有主要缺点:1)每个输入帧被多次处理,增加了计算成本;2)每个输出帧独立地根据输入帧进行估计,限制了系统产生时间上一致结果的能力。
该论文提出了一个端到端的可训练的帧递归视频超分辨率网络,该方法将先前估计的HR帧作为后续迭代的输入。这种方法首先保证了每个输入帧只需处理一次,这大大降低了计算成本;同时这种方法可以将先前HR估计帧传播到后面的帧,这一方面有助于模型重新创建精细细节,另一方面可以保证生成时间上一致的视频。
网络结构
FRVSR框架主要由以下5个部分组成:
- 光流估计网络FNet:该网络根据 I t − 1 L R I_{t-1}^{LR} It−1LR和 I t L R I_t^{LR} ItLR产生标准化低分辨率光流图: F L R = F N e t ( I t − 1 L R , I t L R ) ∈ [ − 1 , 1 ] H × W × 2 F^{LR}=FNet(I_{t-1}^{LR},I_t^{LR})\in[-1,1]^{H\times W \times 2} FLR=FNet(It−1LR,ItLR)∈[−1,1]H×W×2FNet的具体网络结构如下图所示:
光流网络FNet的设计遵循简单的编码器编码器式架构,以增加卷积的感受野。 - 上采样光流:使用双线性插值放大光流图,得到一个HR光流图(对光流上采样): F H R = U P ( F L R ) ∈ [ − 1 , 1 ] s H × s W × 2 F^{HR}=UP(F^{LR})\in[-1,1]^{sH\times sW \times 2} FHR=UP(FLR)∈[−1,1]sH×sW×2
- 将上采样的光流与前一