论文详解——GeoNet：Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose

最新推荐文章于 2023-09-07 23:24:25 发布

LCJhust2012

最新推荐文章于 2023-09-07 23:24:25 发布

阅读量6.6k

点赞数 6

分类专栏：计算机视觉深度学习自动驾驶

本文链接：https://blog.csdn.net/LCJhust2012/article/details/80665698

版权

GeoNet是CVPR2018提出的一种无监督框架，能联合学习视频中的深度、光流和相机姿态。通过3D场景几何特性，GeoNet分为刚性结构重构和非刚性运动定位两阶段，使用视图合成损失和自适应几何一致性损失。网络结构包含刚性流和物体运动的学习部分，以图像外观相似度为指导。该方法在无监督领域表现出色，且能与监督学习方法效果相媲美。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：

商汤科技在CVPR2018的一篇《GeoNet：Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》，提出了一种可以联合学习深度、光流和相机姿态的无监督学习框架GeoNet，取得了超越了之前的无监督学习方法并且可与最佳监督学习方法的效果。

相关工作：

理解视频中的3D场景几何是视觉感知领域内的一项基本任务，其中包括很多经典的计算机视觉任务，例如深度恢复、流估计、视觉里程计（visual odometry）。这些技术都有广泛的工业应用，包括自动驾驶平台、交互式协作机器人以及定位与导航等。

传统的根据运动恢复结构（SfM:Structure from Motion）方法是以一种集成式的方式来解决这些任务，其目标是同时重建场景结构和相机运动。但是，这种方法本质上是依赖于高质量的低层次特征对应，所以容易受到异常值和无纹理区域的影响。

为了突破这个局限性，将深度学习模型应用到了每个低层面的子问题上，并且取得了一定的效果。其主要优势来源于大数据，有助于为低层面的线索学习获取高层面的语义对应（即能学习到更高层面的语义线索）。相比于传统方法，即使在ill-posed区域，也能有比较好的表现。但是通常需要大量的groundtruth进行有监督的学习，需要昂贵的激光雷达和查分GPS设备，数据获取和标注成本很高。此外，之前的深度学习模型大都是为解决单个特定任务而设计的，比如深度、光流、相机姿态等，而没有去讨论这些任务之间的几何约束和关联性。

关键点：

在这篇文章中提出的无监督学习框架GeoNet能够从视频中联合学习单目深度、光流和相机运动。这种方法的理论基础在于3D场景几何的本质特性。直观的解释就是——3D场景都是由静态背景和动态目标构成的。大多数的自然场景都是由刚性静态表面组成，如道路、房屋、树木等，它们在视频帧之间的2D投影图像完全由深度结构和相机运动决定。同时，在这些场景中也包含运动的对象，例如行人、车辆等，他们的运动由相机运动和自身的运动共同决定，可以用光流模拟相机运动。

主要贡献有两点：

1.采用了一种“分而治之”的策略，分别学习刚性流和物体运动。在每个阶段用视图合成（view synthesis）与原图的相似度误差来引导与监督学习。

2.引入了自适应几何一致性损失，通过前向-反向一致性检查，自动过滤遮挡和可能的异常值。

网络结构：

GeoNet的网络结构包含两个部分：刚性结构重构器和非刚性结构定位器，分别来学习刚性流和物体运动，在整个无监督学习的过程中，采用图像外观相似度来引导。

具体的网络结构，详见另一篇博客点击打开链接。

Stage 1 —— Rigid Structure Reconstructor

在第一部分Rigid Structure Reconstructor,包括两个子网络DepthNet和PoseNet，分别回归出深度图和相机姿态，并融合产生刚性流。

DepthNet采用了编码器encodr+解码器decoder的结构，编码器部分以ResNet50作为基本结构，解码器部分由反卷积层构成，并且在encoder和decoder之间的不同分辨率上采用了skip connections，进行了多尺度下的预测。这样能够同时保留全局高层次特征和局部细节信息。训练数据是一组时间上连续的视频帧（已知相机内参），其中I(t)是目标帧，作为参考帧，其他帧都是源帧I(s)。DepthNet回归得到不同分辨率下的深度图（原图大小，1/2,1/4,1/8）—— D(t)。

PoseNet包含8个卷积层，在输出最终预测结果之前有一个全局平均池化层。在除了输出层之外的卷积层之间都采用了Batch Normalization和ReLUs激活函数。同样也是预测出四个不同分辨率下的相机6DoF(xyz坐标和欧拉角)，记为T（t-s）。注意，预测结果是6DoF，是一个长度为6的一维向量，但是在公式中T(t-s)代表的是从目标帧到源帧的变换矩阵（4*4），变换矩阵可由6DoF通过变换得到！！！

有了深度和相机姿态，则可以计算出刚性流：