（VESPCN）Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation

最新推荐文章于 2024-08-15 09:26:25 发布

hi,world

最新推荐文章于 2024-08-15 09:26:25 发布

阅读量5.6k

点赞数 3

分类专栏：超分--视频文章标签： VESPCN 视频超分

本文链接：https://blog.csdn.net/u014447845/article/details/89928794

版权

超分--视频专栏收录该内容

1 篇文章 2 订阅

订阅专栏

一、简介

1、目的

作者的目的是引进一个spatio-temporal sub-pixel convolution networks，能够处理视频图像超分辨，并且做到实时速度。还提出了一个将动作补偿和视频超分辨联合起来的算法，并且可以端到端训练。
与单帧模型相比，时空网络即可以减少计算，又可以维持输出质量。

2、introduction

超分辨问题一直是信号处理领域中的一大挑战。在多帧超分辨问题中，假设能够对同一场景的不同观察，它们所共有的显示冗余（explicit redundancy）可以用来限制求解空间。视频超分问题中的先验：同一场景的视频图像可被单幅图像和运动模式所近似。
在之前的ESPCN方法中，已经能够做到非常快速的超分辨了，但是简单地用来处理每一帧视频便没有利用帧之间的关联信息。而VSRnet虽然有联合地处理多个输入帧，但是动作补偿算法不当，速度较慢，不能做到实时。
Spatial transformer networks可以推断两个图像间的映射参数，并且成功运用于无监督光流特征编码中，但还未有人尝试用其进行视频运动补偿。
作者用的结构是，用spatio-temporal networks进行超分辨，其中early fusion，slow fusion等来处理时间维度。另外还基于spatial transformers建立了运动补偿框架，与时空模型相结合，就可以得到非常好的video SR with motion compensation。

二、主要内容

1、Subpixel convolution SR

2、Spatio-temporal networks

Spatio-temporal networks可以处理输入为许多帧的情况，多个帧融合的方法有early fusion，slow fusion，3D convolution三种。其中3D convolution是slow fusion的权重共享的形式。时空网络的输入数据因此便是时空信息块。

3、Spatial transformer motion compensation

之后，作者采用的框架为下图。首先一个网络估计粗糙的光流，并生成粗糙的目标帧，这两个再和原始两个帧输入网络，得到精细的光流，和粗糙光流一起得到最后的帧。输出使用tanh激活层（输出激活用于表示归一化空间中的像素位移，使得+_1的位移意味着从图像的中心到边界的最大位移）。其中，wrap过程就是一个重采样操作，通过估计的光流提供的坐标信息，将input中对应位置的像素值填充到指定的位置，得到输出。为了训练这个网络，作者设置了MSE损失和Huber loss两种损失。