FlowNet2.0:Evolution of Optical Flow Estimation with Deep Networks

最新推荐文章于 2024-08-16 09:00:52 发布

梦之泪殇

最新推荐文章于 2024-08-16 09:00:52 发布

阅读量1.2k

点赞数 1

分类专栏： tracking 文章标签： CNN FlowNet 光流

本文链接：https://blog.csdn.net/qq_25379821/article/details/77645661

版权

FlowNet2.0通过改进数据顺序、堆叠多层网络和小运动子网，提升了光流估计的准确性和速度。文章讨论了训练数据顺序的影响，引入了光流变形操作的多层架构，以及处理小位移的专用网络，实现了比FlowNet减少50%误差的光流计算。此外，还展示了不同网络变体，以适应不同的速度和精度需求。

摘要由CSDN通过智能技术生成

Abstract

FlowNet证明了光流提取可以映射为一个学习问题。但是关于光流质量的先进技术依然由传统的方法所定义。特别在小位移和真实世界数据，FlowNet不能使用变分的方法计算。在这篇文章里，我们发展了端对端的光流学习概念并且使得它可以很好的实现。在质量和速度上的巨大提升由以下三个主要的贡献支撑：第一，我们关注训练的数据并且发现在训练过程中给定学习数据的顺序是很重要的。第二，我们开发了一个多层的体系结构,在这个体系结构里，使用中间光流对第二个图像进行变形操作（wrap）。第三，我们引入一个专门处理小运动的子网络，精细处理小位移。FlowNet2.0比FlowNet稍微慢一点，但减少了50%的测量误差。在相同的帧率下，FlowNet2.0的表现可媲美最先进的相关方法。再有，我们展示了更快的变体，允许在精度与FlowNet相仿的情况下以140fps的速度计算光流。

Introduction

Dosovitskiy等的FlowNet展示了在光流提取中的范式变换。使用CNN结构直接学习来自数据的光流的概念完全区别于所有已有的方法。但是，相比现有的已经调整非常好的方法，新想法的首次实现经历了一段困难的时期，FlowNet也没有脱离这种规则。连续的整合解决负面影响同时帮助我们领会新思路的好处。
同时，它解决了在提取流场时的小位移问题和噪声伪影问题。这导致FlowNet2.0在现实应用中巨大的性能改进，达到最先进的水平。
得到FlowNet2.0的过程中经过几次渐进的但起决定性作用的修改，这些修改并非都与观察到的问题相关的。首先，我们评估数据集顺序所带来的影响。有意思的是，由Mayer等提供的越复杂的训练数据，导致越差的结果。但是又多个数据集组成的学习列表，显著地提升结果。在这背景下，我们同时发现了FlowNetC版本比FlowNetS版本有更好的表现。而这与Dosovitskiy等报告的结果相悖。
作为第二个贡献，我们介绍了一个Warping操作，并且展示了如何使用这种操作堆叠多个网络，达到显著提升结果的效果。通过变化栈的深度和单个组元的大小，我们获得了许多有不同大小和不不同运行时间的网络变体。这允许我们控制在精度和计算资源之间的权衡。我们提供帧率谱在8fps和140fps之间的网络。
最后，我们关注小的，亚像素的运动和现实数据。为了达到这个目的，我们创造了一个特殊的训练数据集和一个专攻这方面的网络。我们展示出用这数据集训练得到的结构在小位移检测上有很好的表现，现实视频作为一个典型应用场合。为了达到在任何位移情况下优化性能，我们增加一个网络，用于学习使用优化的方法融合之前的多层网络和小位移检测网络。
最后得到的网络比之前的FlowNet有更好的表现，在Sintel和KITTI标准，达到和最先进方法媲美的表现。它在提取小的和大的位移时有很高水平的细节，在提供交互的帧率时。
这里写图片描述

使用卷积神经网络的端对端光流提取由Dosovitskiy等提出。他们称作FlowNet的模型，使用一对图像作为输入，输出光流场。接着FlowNet,几篇文章也使用CNNs学习光流提取：以一个三维卷积网络为核心、一个无监督学习目标、仔细设计旋转不变的体系结构，或者一个基于由粗到精想法的变分方法的金字塔方法。这些方法中没有一个显著胜过原来的FlowNet。
基于学习的光流提取的一个替换的方法是使用CNNs做图像块匹配。Thewlis等定义Deep Matching为一个卷积网络，然后端对端地优化它。Gadot和Wolf以及Bailer等使用Siamese网络结构学习图像块描述子。这些方法可以达到恨到的精度，但需要详尽的块匹配。因此，在大多数实际应用中他们限制地慢。再者，由于操作的是小图像块，他们缺乏使用全图更大的环境的可能。
训练用于逐点预测任务的卷积网络通常会产生吵杂或者模糊的结果。作为一个补救方法，Out-of-the-box优化可以作为一个预处理操作，应用于网络预测，比如光流提取可以使用一个变分方法进行精制。在某些场合这精制可以由神经网络近似：Chen和Pock公式化一个反作用传播模型为一个CNN，并且用以图像去噪，去封闭和超分辨率。最近，了解到相似的精制操作可以由堆叠几个卷积网络在相互之上得到。这导致在人动作检测和语义分割实例结果的提升。在这文章中，我们采用堆叠多个网络用于光流提取的想法。
我们的网络结构包括Warping层，用于补偿在第二图像上一些已经估计好的预备动作。图像Warping的概念常见于所有当代的变分光流方法，并且可以追溯到Lucas和Kanade的工作。在Brox等，这被证明相当于一个数值固定的点迭代方案，外加一个延续方法（continuation method）。
在一系列渐进增加的任务上训练机器学习方法的策略被誉为课程学习（curriculum learning）。这想法至少可以追溯到Elman，他发现任务的进化和网络结构都在语言处理场景里有一定好处。在这文章里，我们在计算机视觉的背景下重温这个概念，然后展示它如何在一个复杂的现实光流提取任务中产生引人注目的表现提升。

Dataset Schedules

高质量的训练数据对于监督训练的成功是至关重要的。我们基于当前的训练数据研究提取光流的质量的区别。有趣的是，我们发现不仅数据的种类是重要的，训练过程中给定数据的顺序也一样重要。
原始的FlowNet是在FlyingChairs数据集上训练的。这个过分简单的数据集包含了大概有22k对椅子图像叠加在来自Flickr的随机背景图像。随机仿射变换应用于椅子和背景，获得第二个图像和真实的流场。数据集仅仅包含平面运动。
FlyingThings3D数据集由Mayer等提出，可以视为一个三维版本的FlyingChairs。这数据集由22k个随机场景的效果图组成，效果图里有来自ShapeNet数据集3D模版在背景前的运动。与FlyingChairs相比，这些图像展示真正的3D移动和光照影响，以及有更多的目标模型的变化。
我们测试了Dosovitskiy等介绍的两个网络结构：FlowNetS，径直的编码解码结构；和FlowNetC，包含明确的特征映射的相关。我们在FlyingChairs和Things3D数据集以及一个等量的从这两个数据集中挑选样本组成的数据集上使用不同的学习率训练FlowNetS和FlowNetC。忽略某些小的变化，基础的时间安排 $S_{short}$ (600K迭代)与Dosovitskiy等的相对应。除了这基础的时间安排 $S_{short}$ ，我们研究了一个更长的时间安排 $S_{long}$ 有1.2M次迭代，还有一个有更小的学习率的细调时间安排 S