论文阅读: GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose(CVPR2018)

标签: 深度估计
10人阅读 评论(0) 收藏 举报
分类:

CVPR2018_GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose
提出了一个联合估计深度、光流和pose的网络。
,这是在left-right consistency的无监督估计、sfmlearner的基础上开展的又一作品。

该论文主要贡献点:
- 提出了一个几何一致性代价(geometry consistency loss),来解决光照变化等情况

  • 解决移动物体和遮挡:通过rigid flow and object motion两种机制

同样在介绍中,也表示深度学习在处理弱纹理区域的优势。
同时该实现能实现比较快的深度预测

1.基本结构和代价函数

如图:
这里写图片描述
总体分为两步:第一步是重建所有刚体的空间几何信息:对图片先进性深度估计,然后估计位姿;第二步在此基础上用一个residual flow learning module来处理物体移动问题

第一步:DepthNet, PoseNet

第一步不考虑视频中运动的物体
DepthNet
对单帧图像进行深度估计

PoseNet
将所有序列的图像按照channel concat到一起,一起输入来一次性训练所有帧之间的Pose.
代价函数为:
根据之前循环得到的深度和位姿,可以计算重投影光度误差:
这里写图片描述
以及edge-aware depth smoothness loss:
这里写图片描述

第二步:ResFlowNet

作者基于ResNet来实现,用来处理运动物体,即形成所谓residual non-rigid flow。

ResFlowNet的初始值来自于第一步得到的光流F1,输出移动物体相当于当前帧的光流F2,则移动物体的真实为F1+F2。

几何前后一致性(geometric consistency enforcement)

和普通前后一致性检查相同,即在每两帧之间进行光流一致性检查(作者在此会特意略过有遮挡的画面部分):
这里写图片描述
只是这儿作者提到只在没有遮挡的地方进行检查

最终的代价函数

这里写图片描述

除此之外,作者还基于FlowNet做了改进来估计光流,作为Optional.

2.结果

速度:每帧的深度估计、光流预测、位姿预测分别花了15ms,45ms,4ms。
精度:深度估计比sfmLearner更好,但比left-right consistency的双目差一点;Pose估计和sfmlearner一样的验证方式(kitti00-08训练,09-10测试),结果比ORBSLAM更好一点,比sfmLearner更好一点。
尺度:
需要注意的是,所有无监督单目估计的深度结果都需要乘上一个尺度,因此最终的Pose也是需要乘上一个尺度才能和ORBSLAM2的结果进行比较的。

作者提到两个问题:
1.这样大的优化容易陷入局部最优解;
2.当画面中出现占据画面太大的移动物体时,预测系统容易判别失败。

一个小收获:SfmLearner有更新,更正了之前的错误。

查看评论

《Unsupervised Learning of Depth and Ego-Motion from Video》读书笔记

原文:Unsupervised Learning of Depth and Ego-Motion from Video 实质:用单张图片推理场景结构:SfMLearner 相关作用: 针对...
  • weixin_37251044
  • weixin_37251044
  • 2017-12-07 11:09:18
  • 297

【computer vision】Stereo Depth Estimation

Introduction:Stereo Vision is a technique aimed at inferring depth from two or more cameras. Stereo ...
  • Sengo_GWU
  • Sengo_GWU
  • 2018-03-26 04:07:36
  • 49

UnsupervisedMonocular Depth Estimation with Left-Right Consistency

为什么能注意到这篇文章呢,因为它是端到端,同时在loss处可以达到左右一致性检测。就是将post-processing结合到了端到端之中。因此,我很注重它的loss。 一般接触的算法都是supervi...
  • lvhao92
  • lvhao92
  • 2017-08-03 18:25:24
  • 622

CVPR 2016-9-14

[33] arXiv:1609.03986 [pdf, other] The CUDA LATCH Binary Descriptor: Because Sometimes Faster Mean...
  • u011171235
  • u011171235
  • 2016-09-21 10:21:49
  • 1138

depthmap资料总结

http://blog.csdn.net/lvhao92/article/details/76586101读Unsupervised Monocular Depth Estimation with L...
  • zhang405744522
  • zhang405744522
  • 2018-02-14 09:49:47
  • 292

基于深度学习的单目图像深度估计

作者:buldajs 链接:https://www.zhihu.com/question/53354718/answer/207687177 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,...
  • roslei
  • roslei
  • 2017-12-15 14:47:13
  • 2482

立体匹配---左右一致性检测/遮挡区填充

左右一致性检测(Left-Right Consistency(LRC) check):    左右检测对实验效果的提升是很显著的,无论是视差图的视觉效果还是数据精度。很多时候LRC都是论文的遮羞布,在...
  • u010368556
  • u010368556
  • 2017-07-19 14:10:19
  • 942

Depth estimation/stereo matching/optical flow @CVPR 2017

Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation (PDF)     Dan...
  • AndreLeon
  • AndreLeon
  • 2017-07-03 09:59:09
  • 1298

论文笔记-深度估计(6)-Unsupervised Learning of Depth and Ego-Motion from Video

CVPR2017_Unsupervised Learning of Depth and Ego-Motion from Video 这是一篇从一段视频中恢复场景深度和相机pose的论文。 他可能是...
  • Kevin_cc98
  • Kevin_cc98
  • 2018-01-03 00:47:02
  • 585
    个人资料
    持之以恒
    等级:
    访问量: 4万+
    积分: 947
    排名: 5万+
    最新评论