Video Frame Interpolation via Adaptive Convolution——基于自适应卷积的视频插帧【笔记】

最新推荐文章于 2021-11-07 12:13:15 发布

superbin

最新推荐文章于 2021-11-07 12:13:15 发布

阅读量1.2k

点赞数 1

分类专栏： Computer Vision 文章标签：计算机视觉深度学习视频插帧

本文链接：https://blog.csdn.net/superbinlovemiaomi/article/details/120979135

版权

Computer Vision 专栏收录该内容

11 篇文章 4 订阅

订阅专栏

关键词

Video Frame Interpolation
Frame Interpolation
Video Interpolation

Video Frame Interpolation via Adaptive Convolution

视频插帧一般包括两步：运动估计（motion estimation）和像素合成（pixel synthesis）。本文将这两步合成为一步。用卷积核同时捕捉到输入帧之间的局部运动以及像素合成的参数。我们的方法使用了一个深度全卷积神经网络(deep fully convolution neural network)来估计空间自适应(spatially-adaptive)卷积核。实验表明把视频插帧形式化成一个卷积过程的方法，可以优雅的处理各种挑战：遮挡、模糊，亮度突变，以及高质量视频插帧。

1. Introduction

传统插帧方法有两步：运动估计（motion estimation），一般用光流（optical flow），和像素合成。
在这里插入图片描述

图一，用卷积对一个像素点(x,y)插帧，卷积核K，卷积输入是两个以点(x,y)为中心的面片，输出像素点I(x,y)。

我们的方法亮点是将像素点插值形式化为面片的卷积，而不依赖光流；将运动估计和像素合成整合成一个过程。这种形式化方法（formulation）比基于光流（optical flow）的方法更灵活，而且能应对具有挑战性的场景。同时我们的神经网络是可感知边缘的（edge-aware），能得到清晰的结果。

本文基于深度卷积神经网络的方法有三个方面的优点：

因为把视频插帧建模成一个统一的过程，使的在某些相互竞争的限制之间做合适的取舍成为可能，因此可以提供一种健壮的插值方法。
网络可以使用大量方便获取的视频数据进行端到端的训练。不需要任何比较难获取的光流之类的数据。
实验表明我们的方法可以对有挑战性的视频，比如遮挡，模糊和亮度突变，生成高质量的插帧结果。

2. Related Work

视频插帧是基于图片渲染（image-based rendering）的特例。现有的大部分插帧方法是使用立体匹配（stereo matching）或光流算法估算密集运动，然后根据估算的稠密对应（dense correspondences）插值一个或多个中间帧。还有一种移动梯度（moving gradient）方法，通过估算输入图片的路径，复制合适的梯度到插值帧的每个像素，然后通过泊松重建（Poisson reconstruction）合成插值帧。这几种方法的性能都依赖于估算稠密对应的质量，特殊情况也需要单独处理。

基于阶段（phase-based）的方法，将运动编码到输入帧的阶段差（phase difference）中，然后根据应用处理阶段信息，比如运动放大（motion magnification）和视角扩展（view expansion）。这种方法可以生成很好的结果。但是对于当帧间差异比较大的时候，更好的保留视频中的高频细节，还需要继续提升。

我们的工作受到了深度学习在解决众多问题的成果的启发，包括：视觉理解（visual understanding），光流估计，风格转换（style transfer）和图像增强。

Flynn开发了一种深度卷积网络用摆拍的图片合成新图片。他们的方法将输入图片映射到多个深度平面，然后合成合成这些深度平面的颜色，生成新的视图。Kalantari开发了一种基于深度学习的视角合成算法用于光场成像的视野扩展。

3. Video Frame Interpolation

在这里插入图片描述

图2-a: 分两步，首先估算两帧的运动，然后基于运动对像素颜色值插值。图2-b：直接计算一个卷积核，用它对两帧做卷积。

估算合适的卷积核是本文方法的核心。我们受到了前人在深度学习光流估算和图像合成方面工作的启发。卷积核会根据每个小苏打局部运动和图像结构的不同而改变，以生成高质量的结果。

3.1 Convolution kernel estimation

在这里插入图片描述

表一网络结构

感受野（receptive field）要比片面稍大，为了更好的处理运动估计中的光圈（aperture）问题.默认感受野大小是79x79，卷积面片大小41x41，卷积核大小41x82，因为是两个面片。三个颜色通道用相同的卷积核。使用RELU作为激活函数，使用BN来正则化。因为是全卷积网络，所以对输入的大小不固定。一个重要的限制是，输出的卷积核的参数必须是非负且加起来和是一。所以最后面用了spatial softmax 层.

3.1.1 Loss function

插值生成的像素值和原值的L1 norm，会导致模糊的结果。引入了梯度损失可以使结果更锐利。color loss + gradient loss

3.2 Training

使用的初始化方法Xavier，AdaMax(beta1=0.9, beta2=0.999)，学习率0.001，mini-batch size=128

3.2.1 Training dataset

训练视频来自Flickr。使用关键字"driving", “dancing”, “surfing”, “riding”, "skiing"下载了3000个视频。缩放到固定大小1280 x 720.去掉隔行（interlaced）视频。

把所有视频帧以连续的三帧为一组分开(triple-frame)。然后从三元组中随机选取一个像素点，并提前出以它为中心的面片。为了便于数据增强，选取的面片会比感受野大小稍大，150x150。为了避免选取的样本没有或者很少运动，我们估算了三元组中第一帧和最后一帧的光流，并计算平均流大小（mean flow magnitude）。然后选取光流比较大的500,000个三元组。同时考虑去除了跨越镜头转场边界的样本。纹理比较少的样本对训练帮助不大，通过计算熵（entropy）最终选取250,000个熵最大的样本。在训练集中，有超过10%的样本流动大小至少20像素，前5%的光流大小是25像素，最大值是38像素。

训练时在线做数据增强。从样本中随机选取79x79的感受野，随机做水平或垂直翻转，随机交互时间顺序。使光流分布更均匀。

3.3 Implementation detail

使用Torch实现。

3.3.1 Shift-and-stitch implementation

重复计算的问题。1280x720大小，逐像素处理，没有优化时需要921,600次前馈。使用shift-and-stitch优化后只需要64次。实际运行时间对比：104s vs 9s，在Nvidia Tian X上。

3.3.2 Boundary handling

边界处理：零填充（zero-padding）

3.3.3 Hyper-parameter selection

卷积核大小和感受野大小是两个重要超参数。理论上来说，卷积核大小必须大于两帧之间像素运动大小，才能捕捉到运动。为了应对大运动的情况，所以选取比较大的核。但是更大的核也就意味着更复杂的网络。因为数据集中最大运动是38像素，所以选择核大小是41x82.

4. Experiments

和phase-based，flow-based做比较。

基于光流。MDP-Flow2，DeepFlow2, FlowNetS.

4.1 Comparisons

Middlebury光流基准。
在这里插入图片描述

部分数据表现好，部分表现不好。原因可能是因为训练视频来自真实世界场景。从质量上来讲，在比较有挑战性的场景下，比它们都好：

模糊
亮度突变
遮挡

4.2 Edge-aware pixel interpolation

在这里插入图片描述

4.3 Discussion

Nvidia Tian X上的实验数据：

Resolution	Time/s	Memory/GB
640x480	2.8	3.5
1280x720	9.1	4.7
1920x1080	21.6	6.8

在这里插入图片描述

对于运动超过41个像素点的情况，会导致模糊的结果。可以通过降分辨率解决。默认获取的是0.5位置的帧，对于t=0.25和t=0.75的情况，可以递归的处理。我们的方法不支持在任意时间点的插值。

5. Conclusion

本文提出了一种将运动估计和像素插值组合成一个局部卷积的视频插帧方法。卷积核可同时捕获运动信息和重采样系数。我们开发的深度全卷积神经网络具备空间自适应和边缘感知的能力。训练视频数据来源广泛。实验表明，我们的方法能够实现高质量的帧插值，并能很好地处理遮挡、模糊和亮度突变等具有挑战性的情况。

参考文献

参考文献整理成了思维导图的形式，添加了被引用次数。过万的标红，过千的标橙。
https://www.xmind.net/m/KQnVQA
在这里插入图片描述

superbin

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
Video Frame Interpolation via Adaptive Convolution——基于自适应卷积的视频插帧【笔记】

关键词Video Frame InterpolationFrame InterpolationVideo InterpolationVideo Frame Interpolation via Adaptive Convolution视频插帧一般包括两步：运动估计（motion estimation）和像素合成（pixel synthesis）。本文将这两步合成为一步。用卷积核同时捕捉到输入帧之间的局部运动以及像素合成的参数。我们的方法使用了一个深度全卷积神经网络(deep fully conv
复制链接

扫一扫