关键词
- Video Frame Interpolation
- Frame Interpolation
- Video Interpolation
Video Frame Interpolation via Adaptive Convolution
视频插帧一般包括两步:运动估计(motion estimation)和像素合成(pixel synthesis)。本文将这两步合成为一步。用卷积核同时捕捉到输入帧之间的局部运动以及像素合成的参数。我们的方法使用了一个深度全卷积神经网络(deep fully convolution neural network)来估计空间自适应(spatially-adaptive)卷积核。实验表明把视频插帧形式化成一个卷积过程的方法,可以优雅的处理各种挑战:遮挡、模糊,亮度突变,以及高质量视频插帧。
1. Introduction
传统插帧方法有两步:运动估计(motion estimation),一般用光流(optical flow),和像素合成。
图一,用卷积对一个像素点(x,y)插帧,卷积核K,卷积输入是两个以点(x,y)为中心的面片,输出像素点I(x,y)。
我们的方法亮点是将像素点插值形式化为面片的卷积,而不依赖光流;将运动估计和像素合成整合成一个过程。这种形式化方法(formulation)比基于光流(optical flow)的方法更灵活,而且能应对具有挑战性的场景。同时我们的神经网络是可感知边缘的(edge-aware),能得到清晰的结果。
本文基于深度卷积神经网络的方法有三个方面的优点:
- 因为把视频插帧建模成一个统一的过程,使的在某些相互竞争的限制之间做合适的取舍成为可能,因此可以提供一种健壮的插值方法。
- 网络可以使用大量方便获取的视频数据进行端到端的训练。不需要任何比较难获取的光流之类的数据。
- 实验表明我们的方法可以对有挑战性的视频&#