【CVPR2020视频超分辨率】Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution 阅读笔记

在这里插入图片描述


paper:Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

code:Zooming-Slow-Mo-CVPR-2020

简介

本文探讨了时空视频超分辨率任务,即从低帧速率、低分辨率的视频中生成高分辨率的慢动作视频。一个简单的解决方案是将其分成两个子任务:视频帧插值(VFI)和视频超分辨率(VSR)。然而,时间域的内插和空间域的超分是有内在相关性的。如果分成两阶段操作,则不能充分利用视频的自然属性。另外,目前的VFI或VSR网络需要大的帧合成模块及超分重建模块来预测高质量的视频帧,这使得两阶段方法具有较大的模型尺寸,从而导致计算量很大,非常耗时。为了克服这些问题,文章提出了一种单步时空视频超分辨率模型,它直接从LFR,LR(低帧率、低分辨率)视频合成高分辨率慢动作视频。该方法没有像VFI网络那样合成原本不存在的LR视频帧,而是首先通过所提出的时域特征内插网络(feature temporal interpolation network),来插入LR帧特征。然后,我们提出了一个可变形的ConvLSTM来同时对齐和聚合时间信息,以便更好地利用时域特征。最后,采用了重建网络预测HR慢动作视频帧。在基准数据集上的大量实验表明,所提出的方法不仅具有较好的定量和定性表现,而且比目前最新的两阶段方法(如DAIN+EDVR和DAIN+RBPN)快3倍以上。



文章主要贡献

本文的主要贡献有三个方面:

(1)提出了一种单步时空超分辨率网络模型,它可以在统一的框架内同时处理时间域的帧内插和空间域的超分辨率。我们的单步方法比分为两步的方法更有效地利用了两个子问题之间的内在联系。由于只需要一个帧重建网络,而不是像两阶段方法中使用两个大型网络,所以计算的效率也更高。

(2) 提出了一种基于可变形采样的帧特征时态中介网络。我们设计了一种新的可变形convlsm来显式地增强时间对齐能力,并利用全局时间上下文来处理视频中的大运动。

(3) 我们的单阶段方法在Vid4和Vimeo数据集上都实现了最先进的STVSR性能。它比两阶段的网络快3倍,同时模型尺寸减少了近4倍。


本文方法介绍

目标:从低帧率、低分辨率视频合成高分辨率慢动作视频。
在这里插入图片描述

网络一共包括四个部分:

feature extractor

frame feature temporal interpolation module

deformable ConvLSTM

HR frame reconstructor

在这里插入图片描述


特征提取部分由一个卷积层和k1个残差块构成。
在这里插入图片描述


时间域帧特征插值模块
在这里插入图片描述
图上公式中T1(·)和T3(·)是两个采样函数,Φ1和Φ3是相应的采样参数,两个采样函数的网络结构相同,只是参数不同。

T1(·)应捕获F1L和F2L之间的前向运动信息,T3(·)应捕获F3L和F2L之间的后向运动信息。

但是

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值