Abstract
flownet效果好,但是需要160M的参数。创新点:1.使得前向传播预测光流更为效率通过在每一个金字塔层添加一个串联网络。2.添加一个novel flow regularization layer来改善异常值和模糊边界的情况,这个层是通过使用feature-driven local convolution来实现的。3.我们的网络拥有一个有效的金字塔特征提取结构,并采用feature warping而不是像FlowNet2中所做的image warping。
1. Introduction
光流估计是计算机视觉中的一个长期存在的问题。因为众所周知的孔径问题,光流无法被直接测量。因此,常规的解决方法为:在由粗到细的框架中通过能量最小化来求解[]。然而,基于此的光流计算技术因其复杂的能量优化问题,无法用于实时的应用中。
FlowNet以及Flownet2为使用卷积神经预测光流场奠定了基础,尤其是flownet2已经达到了传统变分法的精度,然而运行速度却提升了多个数量级。为了提高精度,flownet2使用多个flownet模型进行级联,每个级联中的flownet模型通过处理第一张图与变形之后第二张图之间增量来改善上一层的光流场。因此,flownet2中包含大约160m的参数,对于移动客户端来说,存储异常困难。SPyNet通过对金字塔层中的图片进行变形,使得网络的参数缩减到1.2m。然而损失了精度,只达到flownet的精度。
3. LiteFlowNet
LiteFlowNet由两个紧凑的子网络组成,它们专门用于金字塔特征提取和光流估计
NetC: transforms any given image pair into two pyramids of multi-scale high-dimensional features
NetE :consists of cascaded flow inference and regularization modules that estimate coarse-to-fine flow fields.
Pyramidal Feature Extraction:NETC为一个两输入的网络,两个网络共享滤波器权重。这两个网络的作用类似于特征描述符(feature descriptor),把一张图片转换成一个pyramid of multi-scale high-dimensional features,从k=1为全分辨率,到k=L的最低分辨率。以下图整个为一个pyramid of multi-scale high-dimensional feature。以后为了方便,使用来表示图片的CNN特征,省略下标k,当讨论对于一个 pyramid level(例如)的操作时,所有的 pyramid level都应用于相同的操作。