【论文简述及翻译】FlowNet: Learning Optical Flow with Convolutional Networks（ICCV 2015）

华科附小第一名

已于 2022-10-09 20:11:47 修改

阅读量461

点赞数 3

分类专栏：光流文章标签：图像处理深度学习 cnn 计算机视觉神经网络

于 2022-10-09 15:46:01 首次发布

本文链接：https://blog.csdn.net/qq_43307074/article/details/127223935

版权

光流专栏收录该内容

17 篇文章 11 订阅

订阅专栏

一、论文简述

1. 第一作者：Alexey Dosovitskiy等

2. 发表年份：2015

3. 发表期刊：ICCV

4. 关键词：光流估计、端到端训练、CNNs、数据集

5. 探索动机：卷积神经网络已成为许多计算机视觉领域可选择的方法，但CNN还没有成功应用于光流估计。训练流需要足够大的训练集，虽然数据增强确实有帮助，但现有的光流数据集仍然太小，无法训练与现有技术水平相当的网络。

6. 工作目标：已知卷积神经网络在给定足够的标记数据的情况下非常擅长学习输入-输出关系。因此，我们使用端到端的学习方法来预测光流：给定由图像对和真实的光流组成的数据集，我们训练一个网络从图像中直接预测x-y光流场。但是，为了这个目标，什么是好的结构呢？

7. 核心思想：提出了估计光流的端到端学习的网络，并具有两种结构：通用结构和具有相关层的结构；还生成一个大型的合成Flying Chairs训练集用于训练网络。

8. 实现方法：

自制了非现实场景的一个Flying chairs的数据集，并利用这个虚拟合成的数据集训练网络，得到的模型能很好的泛化到真实图片中，而且效果达到了SOTA。
端到端训练了具有收缩和扩张部分的适用于光流的网络,具体有两种网络结构:FlowNetSimple和FlowNetCorr。
收缩部分：FlowNetS是将两个输入图像堆叠在一起，然后输入一个十分通用的网络，让网络自行决定如何处理图像对以提取运动信息。FlowNetC是为两个图像创建两个独立但相同的处理流，并在后面将两个特征图之间执行乘法的图像块比较，构建“相关层”。
扩张部分：由上卷积层（上池化和一个卷积）组成，并将其与来自网络的“收缩”部分的相应特征图和上采样得到的粗略光流预测进行连接，既保留了从较粗糙的特征图传递的高层次的信息，也保留了在较低层特征图中提供的很好的局部信息。
变分改进：在最后阶段我们使用没有匹配项的变分方法代替双线性插值，获得了平滑和亚像素精度的光流场。

9. 实验结果：已经证明可以训练网络直接预测来自两个输入图像的光流场。人工Flying Chairs数据集仅包括合成刚体的仿射运动，足够以具有竞争力的精度预测自然场景中的光流，这也证明了所呈现的网络的泛化能力。在Flying Chairs的测试集上，CNN甚至超越了DeepFlow和EpicFlow等最先进的方法。

10.论文下载：

https://openaccess.thecvf.com/content_iccv_2015/papers/Dosovitskiy_FlowNet_Learning_Optical_ICCV_2015_paper.pdf

二、论文翻译

FlowNet: Learning Optical Flow with Convolutional Networks

摘要

卷积神经网络（CNN）近期成功应用于各种计算机视觉任务中，特别是与识别相关的任务。但CNN还没有成功应用于光流估计。在本文中，我们构建了能解决光流估计问题的CNN结构，该问题是监督学习任务。我们提出并比较两种结构：通用结构和另一种是具有在不同图像位置关联特征向量的层的结构。由于现有的真实数据集不足以训练CNN，我们生成一个大型的合成的Flying Chairs数据集。我们分析表明，在这些非真实的数据集上进行训练的网络仍能很好地推广到Sintel和KITTI等现有数据集，在每帧速率达到5-10fps的情况下能取得具有竞争力的精度。

1. 介绍

卷积神经网络已成为许多计算机视觉领域可选择的方法。它们通常应用于分类任务，但最近提出的结构也实现了逐像素的预测，比如语义分割或单个图像的深度估计。在本文中，我们提出训练端到端CNNs学习从一对图像预测光流场。

光流估计不仅需要精确的逐像素定位，它还需要找到两个输入图像之间的对应关系。这不仅涉及学习图像特征表示，还包括学习在两个图像中的不同位置匹配它们。在这方面，光流估计从根本上不同于先前的CNN应用。

由于尚不清楚这项任务是否可以通过标准CNN结构解决，我们还开发了一个具有明确匹配功能的相关层的结构。这种结构是端到端训练的。这个想法是利用卷积网络的能力来学习多尺度和抽象的强大特征，并帮助相关层找到基于这些特征的实际对应关系。相关层顶部的层将学习如何从这些匹配预测光流。令人惊讶的是，以这种方式帮助网络不是必须的，甚至原始网络也可以学习来预测光流，并且有很不错的精度。

训练这样的网络去预测一般的光流需要足够大的训练集。虽然数据增强确实有帮助，但现有的光流数据集仍然太小，无法训练与现有技术水平相当的网络。众所周知，获得真实世界视频素材的光流的真实值非常困难。为了用现实换取数量，我们生成一个合成的Flying Chairs数据集，其中包含了来自Flickr的随机背景图像，我们在Flickr上面叠加来自[1]的分割图像。这些数据与现实世界几乎没有共同之处，但我们可以生成具有自定义属性的任意数量的样本。即使没有微调，用这些数据训练的CNNs对现实数据集的泛化能力惊人地好。

利用CNN的高效GPU实现，我们的方法比大多数方法快。我们的网络在全分辨率的Sintel数据集上预测每秒多达10个图像对的光流，并且取得了实时方法中的最高精度。

图1. 我们展示了学习估计光流的神经网络，经过了端到端训练。信息首先在网络的收缩部分进行空间压缩，然后在扩展部分进行改进。

2. 相关工作

光流。自Horn和Schunck的工作以来，变分方法一直主导着光流估计。[29,5,34]提出许多改进方法。最近的焦点是大的位移，组合匹配已经加入到变分方法中[6,35]。[35]的工作被称为Deep-Matching，并且DeepFlow与我们的工作有关，它通过稀疏的卷积和最大池化从细到粗聚合特性信息。然而它没有进行任何学习，所有的参数都是人工设置的。继承[30]的工作被称为EpicFlow，更强调了稀疏匹配的质量，因为[35]中的匹配只是被插入到密集的光流场中同时避免破坏图像边界。我们只使用一个变分方法对卷积网络所预测的光流场进行可选的改进，并且不需要任何人工方法来聚合、匹配和插值。

几位作者之前已经将机器学习技术应用于光流。Sun等人研究光流统计，并使用高斯比例混合模型学习正则化; Rosenbaum等人使用高斯混合模型建立光流的局部统计模型。Black等人计算光流场训练集的主要组成部分。为了预测光流，他们估计了这些基础光流的线性组合的系数。其他方法训练分类器，在不同的惯性估计中选择或获得遮挡概率。

已经有不少工作使用神经网络模型对视频帧之间的视差或运动进行无监督学习。这些方法通常使用乘法交互来模拟一对图像之间的关系。然后可以从潜在变量中推断出视差和光流。Taylor等人用因式门控受限玻尔兹曼机来处理这个任务。Konda和Memisevic使用一种名为“同步自动编码器”的特殊自动编码器。虽然这些方法在受控设置下工作良好，并为了行为识别学习了视频中有用的特征，但它们在现实世界的视频中无法与经典方法竞争。

卷积网络。Krizhevsky等人最近已经证明用反向传播训练的卷积神经网络在大规模图像分类中表现很好。这是CNN应用于各种计算机视觉任务的工作的开始。

虽然没有关于用CNN估计光流的工作，但是已经有使用神经网络进行匹配的研究。 Fischer等人以有监督或无监督方式训练CNN，提取特征表示，并根据欧几里德距离匹配这些特征。Zbontar和LeCun使用Siamese结构训练CNN来预测图像块的相似性。这些方法与我们的方法最大的区别在于它们是基于图像块的，并且用后处理进行空间聚合，而本文中的网络直接预测完整的光流场。

近期CNN的应用包括语义分割、深度预测、关键点预测和边缘检测。这些任务类似于光流估计，因为它们涉及逐像素预测。由于我们的结构很大程度上受到这些逐像素预测任务的启发，因此我们简要回顾不同的方法。

最简单的解决方案是将传统CNN应用到“滑动窗口”方式，因此为每个输入图像块计算单个预测（例如，类标签）。在许多情况下这个方法都很有效，但是也有缺点：很高的计算成本（即使是包含重复使用中间特征图的优化实现）和每个图像块性质，不能考虑全局输出属性，例如锐边。另一种简单方法是将所有特征图上采样到所需的全分辨率并将它们堆叠在一起，从而产生一个连接的逐像素特征向量，可用于预测感兴趣的值。

Eigen等人通过训练额外的网络来改进比较粗糙的深度图，该网络将粗略预测和输入图像作为输入。Long和Dosovitskiy等人使用上卷积层迭代改进粗糙特征图。我们的方法加入了两个工作的想法。不同于Long等人的方法，我们不仅上卷积了粗略预测，而且还上卷积了整个粗略特征图，使得更多高层级信息传递给精细预测。不同于Dosovitskiy等人的方法，我们将上卷积的结果与网络中收缩部分的特征相结合。

3. 网络结构

已知卷积神经网络在给定足够的标记数据的情况下非常擅长学习输入-输出关系。因此，我们使用端到端的学习方法来预测光流：给定由图像对和真实的光流组成的数据集，我们训练一个网络从图像中直接预测x-y光流场。但是，为了这个目标，什么是好的结构呢？

为了使网络训练在计算上可行，CNNs中的池化是必不可少的，更重要的是，允许在输入图像的大范围内聚合信息。但是池化会降低分辨率，所以为了提供密集的逐像素预测，我们需要改进粗糙的池化后的表示。为此，我们的网络包含一个扩展部分，它智能地将光流改进到高分辨率。使用反向传播将由收缩和扩张部分组成的网络训练成一个整体。我们使用的结构如图2和图3所示。我们现在描述网络这两个部分更多的细节。

图2. 两种网络结构:FlowNetSimple(上)和FlowNetCorr(下)。绿色漏斗是图3所示的扩张改进部分的替代。包括改进部分在内的网络是端到端的训练。

图3. 对粗略特征图进行改进，实现高分辨率预测。

收缩部分。一个简单的选择是将两个输入图像堆叠在一起，然后输入一个十分通用的网络，让网络自行决定如何处理图像对以提取运动信息。图2（上图）说明了这一点。我们称这种仅包含卷积层的结构叫做'FlowNetSimple'。

另一种方法是为两个图像创建两个独立但相同的处理流，并在后面将它们结合起来，如图2(下)所示。利用这种结构，网络被约束首先去分别产生两个图像的有意义的表示，然后将它们在更高的层级上结合。这与标准匹配方法大致类似，该方法首先从两个图像的图像块中提取特征然后比较这些特征向量。但是，给定两幅图像的特征表示，网络如何找到对应关系？

为了在这个匹配过程中帮助网络，我们首次提出了“相关层”，它在两个特征图之间执行乘法的图像块比较。包含该层的网络结构“FlowNetCorr”的图示如图 2（下图）。给定两个多通道特征图f1、f2，其中w、h和c是它们的宽度，高度和通道数，我们的相关层让网络将f1中的每个图像块与来自f2的每个图像块进行比较。

目前我们只考虑两个块的单一比较。在第一个特征图中以x1为中心的图像块与在第二个特征图以x2为中心的图像块的“相关”定义为：

方形图像块大小为K=2k+1。注意上式与神经网络中卷积的步骤相同，但不是用过滤器卷积数据，而是将数据与其他数据卷积。因此，它没有可以训练的权重。

计算c(x1，x2)需要c*K*K次乘法运算。比较所有的图像块组合会计算（w*h）*（w*h）次，产生了很大的结果，使得有效的前向和后向传递变得难以处理。因此，考虑到计算量，我们限制了比较的最大位移，并在两个特征图中首次加入了步长。

给定最大位移d，对于每个位置x1，我们通过限制x2的范围，仅在尺寸D=2d+1的邻域中计算相关c(x1，x2)。我们使用步长s1和s2，在全局量化x1并在以x1为中心的邻域内量化x2。

理论上，相关层产生的结果是四维的：对于每个两个2D位置的组合，我们获得相关值，即分别包含裁剪图像块的值的向量的标量积。在实践中，我们在通道中实施了相对位移。这意味着我们获得了大小（w*h*D*D）的输出。对于反向传递，我们相应地实现了每个底部二进制对象的导数。

扩张部分。扩张部分的主要组成是“上卷积”层，包括上池化（扩展特征图，与池化相反）和一个卷积。以前[38,37,16,28,9]已经使用过这样的层。为了进行改进，我们将“上卷积”应用于特征图上，并将其与来自网络的“收缩”部分的相应特征图和上采样得到的粗略光流预测进行连接（如果可用）。这样，我们既保留了从较粗糙的特征图传递的高层次的信息，也保留了在较低层特征图中提供的很好的局部信息。每一步都会将分辨率提高两倍。我们重复此步骤4次，产生预测光流，其分辨率仍然比输入小4倍。总体结构如图3所示。我们发现，与计算量少的双线性插值得到全图分辨率相比，对这个分辨率进一步改进并没有显着改善结果。

变分改进。在另一种方案中，在最后阶段我们使用[6]中没有匹配项的变分方法代替双线性插值：我们从下采样4次后的分辨率开始，然后使用粗略到精细的方案进行20次迭代，使光流达到全分辨率。最后，我们以完整的图像分辨率再进行5次迭代。我们还使用[26]中的方法计算图像边界，并通过将平滑系数替换为α=exp(-λb(x;y)κ)来避免干扰检测到的边界，其中b(x，y) 表示在各自的尺度和像素之间重新采样的薄的边界强度。这种放大方法比简单的双线性差值计算量更大，但增加了变分方法的优点，获得了平滑和亚像素精度的光流场。在下文中，我们用“+v”后缀表示通过这种变分改进获得的结果。变分改进的例子可以在图4中看到。

图4. 变分改进的效果。在小运动(第一行)的情况下，预测光流发生了显著的变化。对于较大的运动(第二行)，大的误差没有被纠正，但光流被平滑了，导致EPE较低。

4. 训练数据

与传统方法不同，神经网络需要有真实值的数据，不仅用于优化多个参数，而且用于学习从零开始执行任务。通常，获得真实值是困难的，因为真实场景的真实像素对应不容易能确定。表1给出了可用数据集的概述。

表1. 现有数据集的大小和提出的Flying Chair数据集。

4.1. 存在的数据集

Middlebury数据集仅包含8个用于训练的图像对，其中使用四种不同技术生成真实的光流。位移非常小，通常低于10像素。

KITTI数据集较大（194个训练图像对）并且包括大位移，但仅包含一种非常特殊的运动类型。通过使用相机和3D激光扫描仪同时记录场景，从现实世界获得真实值。这假定场景是刚性的，并且运动源于移动的观察者。此外，不能获得远处物体的运动，例如天空，因此产生稀疏的光流。

MPI Sintel数据集从渲染的人工场景中获取真实值，数据集特别注意真实的图像属性。它提供了两个版本：Final版本包含运动模糊和大气效果，例如雾，而Clean版本不包含这些效果。Sintel是可用的最大数据集（每个版本有1041个训练图像对），并为小型和大型位移量级都提供密集的真实值。

4.2. Flying Chairs

Sintel数据集仍然太小，无法训练大型CNN。为了提供足够的训练数据，我们创建了一个简单的合成数据集，我们将它命名为Flying Chairs，将仿射变换应用于从Flickr收集的图像和公开可用的3D椅子模型的效果图。我们从Flickr中检索964个分辨率为1024×768图像，分别来自类别：城市（321）、风景（129）和山峰（514）。我们将图像切割成4个象限，并使用得到的512×384的裁剪图像作为背景。作为前景物体，我们将多个椅子的图像添加到背景中。在原始数据集中我们删除了非常相似的椅子，产生了809种椅子类型，每种有62个视角。示例如图5所示。

图5. Flying Chairs。分别生成图像对和彩色编码光流场(前三列)，增强图像对和对应的彩色编码光流场(后三列)。

为了生成运动，我们随机抽样背景和椅子的2D仿射变换参数。椅子的变换与背景变换有关，可以将其解释为相机和物体都在移动。使用变换参数，我们得出第二个图像、真实的光流场和遮挡区域。

每个图像对的所有参数都是随机采样的（椅子的数量，类型，尺寸和初始位置，变换参数）。我们调整这些参数的随机分布，使得得到的位移直方图类似于Sintel中的位移直方图（细节可以在补充材料中找到）。使用这种步骤，我们生成一个包含22872个图像对和光流场的数据集(我们重复使用每个背景图像多次)。注意，这个尺寸是任意选择的，原则上可以更大。

4.3. 数据增强

一种广泛使用的提高神经网络泛化性的策略是数据增强。即使Flying Chairs数据集相当大，我们发现使用数据增强对于避免过拟合仍然很重要。我们在网络训练期间进行在线增强。我们使用的增强包括几何变换：平移，旋转和缩放，以及加高斯噪声和改变亮度，对比度，gamma和颜色。所有这些操作都在GPU上处理。

我们不仅要增加图像多样性，还要增加光流场多样性，所以我们在图像对上应用相同强度的几何变换，但是在两幅图像上还加了小的相对变换。

5. 实验

我们公布了我们的网络在Sintel、KITTI和Middlebury数据集以及我们的合成Flying Chairs数据集的结果。我们也在Sintel数据上对网络微调，以及对预测光流场的变分改进。此外，我们公布了我们网络与其他方法比较的运行时间。

5.1. 网络和训练细节

我们所训练的网络的确切结构如图2所示。总的来说，我们试图保持不同网络的结构是一致的：它们有9个卷积层，其中6个步长是2（最简单的池化形式），每一层之后都有一个非线性的ReLU。我们没有任何全连接层，这使得网络可以将任意大小的图像作为输入。卷积滤波器的大小随着网络层次的加深而减小：第一层7x7，接下来两层5x5，从第4层开始3x3。在更深层的层中，特征图的数量增加，每层后大约增加一倍，步长为2。对于FlowNetC中的相关层，我们选择了参数k=0，d=20，s1=1，s2=2。作为训练损失，我们使用了端点误差(EPE)，这是光流估计的标准误差度量方法。它是预测的光流向量和真实值之间的欧氏距离，取所有像素的平均值。

为了训练CNNs，我们使用了一个修改版的caffe框架。我们选择Adam作为优化方法，因为对于我们的任务，它显示的收敛速度快于标准的带有动量的随机梯度下降。如[22]推荐，我们固定Adam的参数：β1=0.9andβ2=0.999。因为，从某种意义上说，每个像素都是一个训练样本，我们使用相当小的小批量的8个图像对。我们的学习速率从λ=1e−4开始，然后在第一个300k之后，每100k次迭代除以2。使用FlowNetCorr，设置为λ=1e−4，我们可以观察到梯度爆炸。为了解决这个问题，我们从一个非常低的学习率λ=1e−6开始，在10 k次迭代之后慢慢地将它增加到λ=1e−4，然后按照刚才描述的计划进行。

为了在训练和微调过程中监测过拟合，我们将Flying Chairs的数据集分成了22232个训练和640个测试样本，并将Sintel训练集分成908个训练和133个验证对。

我们发现在测试过程中放大输入图像可以提高性能。尽管最佳规模取决于具体的数据集，我们为所有任务的每个网络固定一次规模。对于FlowNetS来说，我们并不扩大，对于FlowNetC我们选择了1.25的因数。

微调。所使用的数据集在它们所包含的物体类型和运动方面是非常不同的。标准的解决方案是在目标数据集上对网络进行微调。KITTI数据集很小，只有稀疏光流的真实值。因此，我们选择在Sintel训练集上进行微调，我们使用来自Sintel的Clean和Final版本的图像，并使用低学习率λ=1e−6迭代几千次进行微调。为了获得最佳性能，在使用验证集定义了最佳迭代次数之后，然后，我们对整个训练集进行相同次数的微调。在表格中，我们用带有“+ft”后缀表示微调过的网络。

5.2. 结果

表2展示了我们网络和在公共数据集（Sintel，KITTI，Middlebury）和Flying Chairs上的几种表现很好的方法的EPE。另外，我们展示了在Sintel上不同方法的运行时间。

表2.与不同数据集上的几种性能很好的方法相比，我们的网络的平均端点错误(以像素为单位)。括号中的数字是他们在数据上训练的网络的结果，因此不能与其他结果直接比较。

仅在非现实Flying Chairs上训练的网络在真实光流数据集上表现非常好，例如击败了众所周知的LDOF方法。在Sintel上对网络进行微调之后，我们的网络在Sintel Final和KITTI上的表现优于实时方法EPPM，同时速度提高了两倍。

Sintel。从表2可以看出，FlowNetC在Sintel Clean上优于FlowNetS，而在Sintel Final上，FlowNetS更好。在这个复杂的数据集上，FlowNetS+ft+v甚至与DeepFlow相当。由于EPE通常有利于过度平滑的方法，因此有必要看到我们方法的定性结果。图6显示了与真实值和EpicFlow相比，FlowNets(没有微调)预测的原始光流的例子。该图显示了网络如何经常产生视觉上吸引人的结果，但在端点错误方面仍然更糟糕。仔细观察发现，其中一个原因可能是网络的噪声非平滑输出，特别是在大的平滑背景区域。我们可以用变分改进来部分补偿。

图6.基于Sintel数据集的光流预测的例子。每一行从左到右:叠加图像对，真实光流和3个预测:EpicFlow, FlowNetS和FlowNetC。每一帧显示端点误差。请注意，尽管FlowNets的EPE通常比EpicFlow的差，但网络通常能更好地保存细节。

KITTI。KITTI数据集包含强大的投影变换，这不同于在Flying Chairs训练的网络。尽管如此，原始网络输出已经相当不错，而且额外的微调和优化可以进一步提升。有趣的是，在Sintel上的微调改善了KITTI的结果，可能是因为Sintel中的图像和动作比Flying Chairs更自然。在此数据集上FlowNetS优于FlowNetC。

Flying Chairs。我们的网络在Flying Chairs上训练的，因此预计在这个数据集上表现最佳。在训练时，我们留出了由640个图像组成的测试集。表2显示了在测试集的结果。可以看出FlowNetC优于FlowNetS，并且网络优于所有最先进的方法。另一个有趣的发现是，这是唯一一个变分改进不能提高性能但会使结果变得更糟的数据集。显然，网络已经比变分改进做得更好。这表明，在一个更现实的训练集上，网络可能在其他数据上表现得更好。

Timing。在表2中，我们以秒为单位显示了不同方法的每帧运行时间。不幸的是，许多方法只提供了在单个CPU上的运行时间，而我们的方法是应用在GPU上的。虽然网络的错误率低于最先进的水平，但在实时方法中是最好的。对于网络的训练和测试，我们使用NVIDIA GTX Titan GPU。DeepFlow和EpicFlow的CPU时间取自[30]，而LDOF的时间则在单个2.66GHz核上计算。

5.3. 分析

训练数据。为了检查我们是否从使用Flying Chairs数据集中受益，而不是Sintel，我们仅在Sintel上训练了一个网络，留出验证集来控制性能。由于积极的数据增强，即使是单独的Sintel也足以相当好地学习光流。在Sintel上进行测试时，仅在Sintel上接受过训练的网络的EPE比在Flying Chairs上训练、在Sintel上微调的网络大约高出1个像素。

Flying Chairs数据集相当大，数据增强仍然是必要的吗？答案是肯定的：在Flying Chairs上训练没有数据增加的网络会导致在Sintel上测试时EPE增加大约2个像素。

比较结构。表2中的结果可以得出关于我们测试的两个结构的优缺点的结论。

首先，FlowNetS比FlowNetC在Sintel Final上的泛化性更好。另一方面，FlowNetC在Flying Chairs和Sintel Clean上的表现优于FlowNetS。请注意，Flying Chairs不包括运动模糊或雾，如Sintel Final。这些结果一起表明，即使两个网络的参数数量几乎相同，FlowNetC也会略微对训练数据过拟合。这并不意味着网络会记住训练样本，但它会适应训练期间呈现的数据类型。虽然在我们目前的设置中，这可以被视为一个弱点，如果有更好的可用训练数据，它可能会成为一个优势。

其次，FlowNetC在处理大位移时似乎有更多的问题。这可以从上面讨论的KITTI上的结果中看到，也可以从Sintel Final上的详细性能分析中看到(表中没有显示)。FlowNetS+ft实现了43.3px的s40+误差(位移至少40像素的像素上的EPE)，对于FlowNetC+ft这个值是48px。一种解释是，相关的最大位移不允许预测非常大的运动。这个范围可以以计算效率为代价来增加。

6. 结论

基于卷积网络结构的最新进展，我们已经证明可以训练网络直接预测来自两个输入图像的光流场。有趣的是，训练数据不一定是真实的。人工Flying Chairs数据集仅包括合成刚体的仿射运动，足够以具有竞争力的精度预测自然场景中的光流。这证明了所呈现的网络的泛化能力。在Flying Chairs的测试集上，CNN甚至超越了DeepFlow和EpicFlow等最先进的方法。当更多真实的训练数据可用时，看看未来网络的表现将会很有趣。

华科附小第一名

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文简述及翻译】FlowNet: Learning Optical Flow with Convolutional Networks（ICCV 2015）

【论文简述及翻译】FlowNet: Learning Optical Flow with Convolutional Networks（ICCV 2015）
复制链接

扫一扫