视频超分辨论文解读之Rubost Video Super-Resolution with Learned Temporal Dynamis


前言

此篇论文是2017在IEEE International Conference on Computer Vision (ICCV)上发表的。在此之前如何有效的利用空间信息仍然是一个挑战,因为复杂地运动很难建模,如果处理不当可能会引入不利的影响。
本论文从这两个方面来解决这个问题。

  • 时间自适应神经网络(temporal adaptive neural network)
  • 空间对齐网络(spatial alignment network)

一、时间自适应神经网络

1.网络架构

在这里插入图片描述

1.1SR推理分支(SR inference branch)

这里使用了一个基于神经网络的SR模型(该论文使用的是ESCPN,也可以使用SRCNN等SR模型),并在SR推理分支中使用它,每个分支输入2i-1个帧,输出一个HR估计帧。

1.2 时间调制分支(Temporal modulation branch)

该分支的目的是选择一个最优的时间尺度(且他的网络结构和SR推理分支是一样的)。并在像素级自适应地结合所有基于运动信息的HR估计帧。

训练时,先单独训练每个SR reference branch。然后当训练时间调制分支时,使用合成模型初始化SR RB
所有SR推理分支和时间调制分支被合并并共同学习在一个统一的网络中。考虑到不同时间尺度上的运动信息,从所有SR推理分支的估计中聚合最终估计的HR帧。
训练时,先单独训练每个SR reference branch。然后当训练时间调制分支时,使用合成模型初始化SR RB

二、空间对齐方法

1.整流光流对准(Rectified Optical Flow Alignment)

将一个patch级别的运动简化为整数平移,以避免可能导致模糊或混叠的插值。对于一个给定的板块及其光流,分别通过四舍五入改板块中所有像素的平均水平位移和垂直位移来估计沿水平方向和垂直方向的整数平移。

2.空间对齐网络(Spatial Alignment Network)

在这里插入图片描述
这个网络和空间转换网络有大同小异之处(STN)
先是输入一个LR source frame 和 LR reference frame,将这两帧输入到局部网络(localization net)进行预测空间变换参数 θST(该参数是与用整流光流对准中得到的GT θST来学习空间变换参数。使用的损失函数是MSE。)然后将学习到的θST和LR source frame 送入到ST layer得到一个对齐后的LR frame。

总结

这篇论文的创新点在于:

  1. 使用整流光流对准:与传统的光流对准方法相比,这种对准方法避免了会出现的模糊或混叠的插值。
  2. 引入了新的对齐方法,空间对齐网络:可高效的进行推理,使用SR模型来进行端到端的训练。
  3. 时间自适应神经网络:进行最优的时间尺度的选择。

时间自适应性和空间对齐增强了对复杂运动的鲁棒性,有利于视频超分。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值