(VESPCN)Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation

 一、简介

1、目的

  • 作者的目的是引进一个spatio-temporal sub-pixel convolution networks,能够处理视频图像超分辨,并且做到实时速度。还提出了一个将动作补偿和视频超分辨联合起来的算法,并且可以端到端训练

  • 与单帧模型相比,时空网络即可以减少计算,又可以维持输出质量。

2、introduction

  • 超分辨问题一直是信号处理领域中的一大挑战。在多帧超分辨问题中,假设能够对同一场景的不同观察,它们所共有的显示冗余(explicit redundancy)可以用来限制求解空间。视频超分问题中的先验:同一场景的视频图像可被单幅图像和运动模式所近似

  • 在之前的ESPCN方法中,已经能够做到非常快速的超分辨了,但是简单地用来处理每一帧视频便没有利用帧之间的关联信息。而VSRnet虽然有联合地处理多个输入帧,但是动作补偿算法不当,速度较慢,不能做到实时。

  • Spatial transformer networks可以推断两个图像间的映射参数,并且成功运用于无监督光流特征编码中,但还未有人尝试用其进行视频运动补偿

  • 作者用的结构是,用spatio-temporal networks进行超分辨,其中early fusion,slow fusion等来处理时间维度。另外还基于spatial transformers建立了运动补偿框架,与时空模型相结合,就可以得到非常好的video SR with motion compensation。

二、主要内容

1、Subpixel convolution SR

2、Spatio-temporal networks

    Spatio-temporal networks可以处理输入为许多帧的情况,多个帧融合的方法有early fusion,slow fusion,3D convolution三种。其中3D convolution是slow fusion的权重共享的形式。时空网络的输入数据因此便是时空信息块。

3、Spatial transformer motion compensation

    之后,作者采用的框架为下图。首先一个网络估计粗糙的光流,并生成粗糙的目标帧,这两个再和原始两个帧输入网络,得到精细的光流,和粗糙光流一起得到最后的帧。输出使用tanh激活层(输出激活用于表示归一化空间中的像素位移,使得+_1的位移意味着从图像的中心到边界的最大位移)。其中,wrap过程就是一个重采样操作,通过估计的光流提供的坐标信息,将input中对应位置的像素值填充到指定的位置,得到输出。为了训练这个网络,作者设置了MSE损失和Huber loss两种损失。 

 

三、实验

  • 实验用的是CDVL数据集,包含115个HD视频。其中100个视频用来训练,随机提取得到3000个训练对sample。根据网络结构来决定这个sample是单张图还是一组图像序列。

  • 实验的结果简而言之,就是:

  1. 多帧效果好于单帧,但帧数太多性能也会下降,可能是因为帧数多了噪声也随之变多

  2. slow fusion在网络变深时效果才好于early fusion。

  3. 有补偿的效果好于没补偿的。首先,图5展示了MC的效果,图6和表3展示了加了MC后的优越性。

  • 和别的方法相比,用的Vid4数据集。指标除了PSNR,SSIM,还有MOVIE(有考虑到视频质量和时间一致性)。结果不用多说,自然是VESPCN更好。

 

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值