基于深度学习的Depth and Ego-Motion Estimation

Unsupervised Learning of Depth and Ego-Motion from Video 中文解读关键词:基于深度学习的vSLAM,depth estimation,visual Odometry
摘要由CSDN通过智能技术生成

在这里插入图片描述

Figure 1. 深度图和Ground-Truth [1]

在这里插入图片描述

Figure 2. Absolute Trajectory Error(ATE) on KITTI dataset [1]

1. 概述

1.1 为什么要讲这篇文章?

在无人驾驶、3D重建和AR三个领域中,对于周围环境物体的深度(Depth)和对自身位置的估计(State Estimation)一直是一个非常棘手而复杂的问题。过去常用的方法,传统的SLAM,通常用非常繁琐的数学公式和基于特征点/直接法的方法来进行轨迹估算,而深度通常用单目视觉(多态几何),双目视觉,激光雷达来进行估计。

但传统方法通常只能进行稀疏的特征点(Features),进行深度估计和自身姿态估计,而不能利用所有pixel,而这对于自动驾驶领域中重建高精地图和AR领域中的室内环境感知来说就会导致信息的缺失。

1.2 这篇文章提出了什么新方法?

这篇文章主要提出了一种基于无监督深度学习的单目视觉的深度自身运动轨迹估计的深度神经模型。它的新颖之处在于:

  1. 提出了一种堪称经典的:depth network和ego-motion network共同训练的架构模式。(因此这篇文章可以说是最2年基于深度学习的depth estimation的祖师爷,Google和Toyota的最新论文都借鉴了它的训练模式)
  2. 无监督学习:只需任意单目相机的视频就可以学习其深度和轨迹信息
  3. 同时追踪所有像素点,不丢失任何场景信息。
  4. 深度估计比肩传统SLAM,自身轨迹估计优于传统SLAM

它在工程之中的应用价值:

  1. 高境地图重建(自动驾驶车,移动机器人)
  2. 3D视觉效果重建
  3. AR/VR定位

2. 文章核心

简单来说,这篇文章的核心就是下图中的两个深度卷积网络CNN,Depth CNN和Pose CNN绑定在一起通过View Synthesis进行训练。

具体来说,通过把Target Image ( I t I_t It)中每一个pixel都按下图的公式给warp到Source Image ( I t − 1 I_{t-1} It1 I t + 1 I_{t+1} It+1)中,计算Pixel-Wise的intensity error:

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值