flownet论文笔记_20190727

flownet 论文笔记

  • 论文名称 FlowNet: Learning Optical Flow with Convolutional Networks
  • 论文连接 arxiv

摘要

利用CNN 有监督的学习光流提取,提出并比较了两种框架:

1.一种通用的框架(a generic architecture )
2.一种带有能够将images中不同位置的特征向量关联起来的layer的框架
除此之外 ,生成了一种人工的‘flying chair’数据集,并验证网络在这个非真实的数据集训练的效果具有很好的泛化能力,例如Sintel,KITTI。在帧率为5到10之间时达到了非常好的准确度。

Introduction

本文提出一种端到端的训练CNN的方法来学习一对图片的光流场的预测。光流的预测需要准确的像素定位,同时需要找出两输入图片的相关之处,所以不光要学习图像的特征表示,还要学习如何在两图像不同的位置将特征表示匹配起来

解决匹配问题:构建互关联层

引用 (相关联层/互相关层介绍1)

解决数据集问题:利用已有的数据集Flickr当做背景,用分割的chairs图像覆盖,以此来构建一个新的庞大的数据集

2 Related Work

3 Network Architectures

A drastic difference of these methods to our approach is that they
are patch based and leave the spatial aggregation to postprocessing, whereas the networks in this paper directly predict complete flow fields(别人的工作是基于区块的Patch-based Convolutional Neural Network,并把空间聚合放在后处理的位置,然而本文的工作是直接预测整个光流场)

最近的CNN应用有语义分割,深度预测,关键点预测,边缘检测,这些任务都与光流预测相似因为它们都包含对了单像素点的预测,既然本文的结构设计是受这些单像素点预测任务的最新成果的启发,那我们就简单回顾一下这些方法
1.最简单方法是以滑动窗口的方式应用传统CNN,以此来给每个输入的patch计算一个单独的分类标签,但有缺陷:大计算量和per-patch nature(每个部分不同的特性?),使得无法解释全局输出的属性(例如sharp edges),另一个简单的方法是将上采样所有特征映射到所需的全分辨率,并将它们叠加在一起,从而形成一个串联的单像素特征向量(per-pixel feature)从而预测感兴趣的部分

本文方法的来源如下两点的结合,Eigen的工作:通过训练一个额外的网络来改善粗糙的depth map,此网络将粗糙的预测和输入的图像作为输入。Long的工作,利用upconvolutional layer(反卷积层)反复的改善粗糙feature map。但和Long的区别是,本文反卷积不光作用于coarse prediction,而是整个coarse feature maps,使得能够把high-level的信息转变为更精准的预测。不同于Dosovitskiy的做法,本文将网络收缩(contractive)部分的特征来拼接反卷积的结果。

本文重点:CNN结构No.1:FlownetSimple
直接将一对图像拼接成(384,512,6),作为卷积的输入,让CNN自动学得如何去处理图像对并提取motion信息,FlownetSimple
缺点:然而,我们无法确定像随机梯度下降这样的局部梯度优化能使网络学习到如何预测光流

本文重点:CNN结构No.2:FlownetCorr
在这里插入图片描述
分别提取图片的特征,再后面再融合。这大概类似于(resemble)标准的匹配方法,即首先从两个图像的patch中提取特征,然后比较这些特征向量。然而,已经有两幅图像的特征表示,网络如何找到对应关系?
本文的做法是设计一个correlation层,,将f1 与 f2的patch作比较,图1的patch以x1为中心,图二以x2 为中心,两个patchs之间的关系定义为 c ( x 1 , x 2 ) c(x1,x2) c(x1x2)
在这里插入图片描述
其中正方体大小为 K = 2 k + 1 K=2k+1 K=2k+1,
在这里插入图片描述
引用原文

Refinement

因为pooling会减少分辨率,所以要改进pooling过程
在这里插入图片描述

我们的做法中最主要的部分是反卷积(upconvolutional 注:反卷积常用名),包括反池化(unpooling)和一个卷积。这样的做法之前在[38, 37, 16, 28, 9]用到过。这样的做法的好处就是既能保留高层的coarser的feature map,也能保存低层的fine local information,每一步操作都能提高两倍的分辨率。此步骤重复四遍,光流分辨率依然四倍小于最初的输入。我们发现,与计算成本较低的双线性向上采样到全图像分辨率相比,进一步细化该分辨率并不能显著提高结果。这种双线性上采样的结果是网络预测的最终流量。

在另一种替换模式下,除了用双线性上采样,我们学习[6]采用变分法,并且不使用matching term:我们从4次下采样的分辨率开始,使用20次由粗糙到精准的模式来把光流场变成全图像分辨率。除此之外还额外的计算image boundaries[26],并通过替换平滑系数来respect检测到的边界 α = e x p ( − λ b ( x , y ) k ) \alpha=exp(-\lambda b(x,y)^k) α=exp(λb(x,y)k),其中 b ( x , y ) b(x,y) b(x,y)代表 thin boundary strength。这种upscale的方法计算量要比简单的bilinear上采样要高,但是好处是用变分法来获得光滑的且subpixel精确的光流场,figure4表明了变分法的改进。

4. Training Data

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值