最新清华大学arXiv上传的深度学习摄像头运动估计论文

最新推荐文章于 2024-04-13 22:32:42 发布

3Ｄ视觉工坊

最新推荐文章于 2024-04-13 22:32:42 发布

阅读量613

点赞数

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者：黄浴

https://zhuanlan.zhihu.com/p/138926038

本文仅做学术分享，如有侵权，请联系删除。

2020年4月3日清华大学在arXiv上传论文“Towards Better Generalization: Joint Depth-Pose Learning without PoseNet”。

摘要：这项工作是解决本质上自监督联合深度图-姿势学习的尺度不一致问题。目前大多数方法都假定可以采用所有输入样本学习一致的深度和姿势尺度，这使学习问题变得更加困难，从而导致室内环境和长序列视觉里程计应用的性能下降和有限的通用性。为了解决这个问题，文中提出了一种新系统从网络估计中明确地解藕尺度。该方法不依赖PoseNet架构，直接从致密光流对应关系中求解基本矩阵 (fundamental matrix) 来恢复相对姿态，并利用立体视觉三角化原理来恢复可扩展的3D结构。然后，将深度预测的尺度与三角化的点云对齐，并将转换的深度图做深度误差计算和致密重投影检查。该整个系统可以接受端到端的联合训练。作者用大量的实验表明，该系统在KITTI的深度和光流估计达到了最好的性能，而且还显着提高现有自监督深度图-姿势学习方法在各种挑战性场景的泛化能力，而且实现了KITTI的里程计和NYUv2数据集基于自监督学习方法的最好结果。此外，就泛化能力而言，基于PoseNet的相对姿势估计方法的局限性本文提出了一些有趣的发现。https://github.com/B1ueber2y/TrianFlow可以下载代码。

文章首先给出结果比较：

然后介绍其算法框架：

现有自监督深度图-姿势学习方法的中心思想是，通过对图像对进行几何约束，估计单目深度和相对姿势时分别学习两个独立网络。具体而言，用预测的相对相机姿态，把预测深度重投影到另一个图像平面上，然后测量光度误差。但此类方法假定所有图像的深度图和姿势的尺度都是一致的。如图所示，本文的方法是这样的：DepthNet获取每个输入图像并分别预测单目深度。FlowNet以图像对输入预测光流；依次执行采样像素对应、基本矩阵求解和顺性（cheirality）条件检查等恢复相对姿态；精确像素匹配的重采样用于三角化测量；根据稀疏的三角化深度估计对齐深度预测，分别计算损失函数去联合监督DepthNet和FlowNet的训练。

训练的损失函数：