每天一篇论文 267/365 Self-supervised Learning with Geometric Constraints in Monocular Video

原文

Self-supervised Learning with Geometric Constraints in Monocular Video Connecting Flow, Depth, and Camera

摘要

我们提出了GLNet,一个用于从单目视频中学习深度、光流、相机姿态和内在参数的自监督框架,解决了获取此类任务的真实地面真相的困难。我们提出了三个贡献:1)我们设计了新的损失函数来捕获多个几何约束(如极线几何)以及支持多个运动对象(刚性和非刚性)的自适应光度cost;2)我们扩展了模型,使其能够预测相机的内在特性,使其适用于未校准的视频;3)我们提出了一些在线微调策略,这些策略依赖于我们在训练和测试中自我监督损失的对称性,特别是优化模型参数和/或不同任务的输出,利用它们之间的相互作用。在所有几何和光度约束下,联合优化系统输出的思想可以看作是经典束平差的一个密集推广。我们在KITTI和Cityscapes上证明了我们的方法的有效性,其中我们在多个任务上都优于以前的自监督方法。对于迁移学习,我们也有很好的推广性。

本文的贡献

在这项工作中,我们引入了一个自监督的几何学习框架GLNet,它旨在整合现代基于深度学习的自监督系统的优点
(a) 没有标记数据的培训,
(b) 提供密集的重建,在那里先前的知识可以自动合并,
(c)利用多个相互关联的任务——与运动中的经典结构任务——进行交互
(i) 显式表示始终保持的精确数学关系(例如极线约束),
(ii)能够在自适应光度和几何约束下,如在束调整中,联合优化所有输出,包括深度、姿势和相机内部特性,
(iii)打破训练与测试的不对称。

方法

本文提出的几何学习网络解决了单目深度预测,光流预测,相机位姿和相机内参预测间接连接的问题。输出表示为A={D,R,t,K,F}
在这里插入图片描述
**本文提出了一个由两部分组成的优化目标:**一部分是捕获静态和动态结构外观相似性的自适应光度一致性损失,
另一部分是由耦合刚性和视运动的多个组件组成的几何损失。
在训练过程中,利用优化目标作为代理监督信号来学习预测参数。在推理过程中,我们可以根据训练中使用的相同准则进一步细化预测,并且我们可以专注于细化模型参数或输出,这与几何束平差没有什么不同。由我们的自监督目标和经典几何约束的显式表示实现的。

运动学表示

三维刚体变换可以用齐次坐标表示,用旋转矩阵和平移矢量表示为:
在这里插入图片描述
相机内参:
在这里插入图片描述
运动变换:
在这里插入图片描述

自适应光度损失

损失计算为合成图像和实际图像之间的光度差,其中合成是通过在第一帧中进行三维重建,然后在第二帧中进行刚性位移和透视投影获得的。然而,这种位移只适用于与自我运动一致的场景结构,或根据全局刚性位移移动。对于次级或非刚性运动的物体,自适应方法是必要的,我们在这里进行研究。
在这里插入图片描述

多视图三维结构一致性

以往大多数基于学习的结构估计方法都是从单一角度预测深度的,这可能会产生问题,因为单目估计本身就是不适定的,而且尺度不明确。为了增强结构的一致性,本文设计了一个loss组件来跨多个视图保留三维结构。
在这里插入图片描述

光流的极线约束损失

在经典的几何方法中,极线约束被广泛应用,用来计算非线性束平差过程的闭合解。极为重要的是,在现有的基于深层学习的结构和运动预测系统中,极线约束是耦合三维场景投影的代数关系。为了使学习过程具有几何感知,我们将极线约束作为对光流计算的稠密对应的惩罚。生成的极线约束丢失写入:
在这里插入图片描述

参数自适应

这是可能的,因为我们的目标是自我监督的,因此它消除了训练和测试之间的不对称性。因此,无论是针对模型参数还是针对模型输出的在线精化过程都是可能的,并且可以利用任务相关性实现最佳性能和模型对新环境的自适应。

Network Architecture

在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述

在户外其他相机测试

在这里插入图片描述

位姿估计在这里插入图片描述
发布了131 篇原创文章 · 获赞 10 · 访问量 7677
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览