Unsupervised Learning of Depth and Ego-Motion from Video
1. 概述
1.1 为什么要讲这篇文章?
在无人驾驶、3D重建和AR三个领域中,对于周围环境物体的深度(Depth)和对自身位置的估计(State Estimation)一直是一个非常棘手而复杂的问题。过去常用的方法,传统的SLAM,通常用非常繁琐的数学公式和基于特征点/直接法的方法来进行轨迹估算,而深度通常用单目视觉(多态几何),双目视觉,激光雷达来进行估计。
但传统方法通常只能进行稀疏的特征点(Features),进行深度估计和自身姿态估计,而不能利用所有pixel,而这对于自动驾驶领域中重建高精地图和AR领域中的室内环境感知来说就会导致信息的缺失。
1.2 这篇文章提出了什么新方法?
这篇文章主要提出了一种基于无监督深度学习的单目视觉的深度和自身运动轨迹估计的深度神经模型。它的新颖之处在于:
- 提出了一种堪称经典的:depth network和ego-motion network共同训练的架构模式。(因此这篇文章可以说是最2年基于深度学习的depth estimation的祖师爷,Google和Toyota的最新论文都借鉴了它的训练模式)
- 无监督学习:只需任意单目相机的视频就可以学习其深度和轨迹信息
- 同时追踪所有像素点,不丢失任何场景信息。
- 深度估计比肩传统SLAM,自身轨迹估计优于传统SLAM
它在工程之中的应用价值:
- 高境地图重建(自动驾驶车,移动机器人)
- 3D视觉效果重建
- AR/VR定位
2. 文章核心
简单来说,这篇文章的核心就是下图中的两个深度卷积网络CNN,Depth CNN和Pose CNN绑定在一起通过View Synthesis进行训练。
具体来说,通过把Target Image ( I t I_t It)中每一个pixel都按下图的公式给warp到Source Image ( I t − 1 I_{t-1} It−1或 I t + 1 I_{t+1} It+1)中,计算Pixel-Wise的intensity error: