项目主页:https://sites.google.com/view/wenbobao/dain
项目Git:https://github.com/baowenbo/DAIN
论文地址:https://arxiv.org/pdf/1904.00830.pdf
简介
近年来基于深度学习的视频插帧成为了计算机视觉的研究方向之一,视频插值主要一般会用于一下几个方面:
- 慢动作视频生成(slow-motion)
- 视角合成(view synthesis)
- 视频码率提升(frame rate up-conversion)
首先作者分析了近年来的深度学习网络在应对视频插值任务时所遇到的主要问题和瓶颈,主要有两点:
- 无法处理大规模运动场景(large motions)
- 只有隐式的(implicitly)或干脆没有处理遮挡区域填充问题(occlusions)
作者针对这两点进行了优化,并达到了目前state-of-art的效果。这篇文章是作者团队基于其在2018年发表的论文MEMC-Net做的改进,下面来研究研究作者都做了哪些工作。
算法流程
先来看下整个算法的流程图:
可以看到用到了几个部分:光流、深度、上下文特征、插值kernel等等,下面来分别看下每个部分。
光流
作者在文章中提出了两种根据光流warp原图的方式:
- 根据光流 F 0 → 1 F_{0\rightarrow1} F0→1和时间 t t t计算出 I 0 I_0 I0到 I t I_t It的光流 F 0 → t F_{0\rightarrow t} F0→t并正向warp输入图 I 0 I_0 I0,这种操作会造成遮挡区域的空洞问题,也就是前景移走了之后背景没有内容来填充,对于 I 1 I_1 I1同理。
- 根据光流 F 0 → 1 F_{0\rightarrow1}