每天一篇论文 267/365 Self-supervised Learning with Geometric Constraints in Monocular Video

最新推荐文章于 2022-06-28 20:53:54 发布

流浪机器人

最新推荐文章于 2022-06-28 20:53:54 发布

阅读量710

点赞数

分类专栏：每天一篇论文365

本文链接：https://blog.csdn.net/qq_26623879/article/details/103687672

版权

每天一篇论文365 专栏收录该内容

146 篇文章 73 订阅

订阅专栏

原文

Self-supervised Learning with Geometric Constraints in Monocular Video Connecting Flow, Depth, and Camera

摘要

我们提出了GLNet，一个用于从单目视频中学习深度、光流、相机姿态和内在参数的自监督框架，解决了获取此类任务的真实地面真相的困难。我们提出了三个贡献：1）我们设计了新的损失函数来捕获多个几何约束（如极线几何）以及支持多个运动对象（刚性和非刚性）的自适应光度cost；2）我们扩展了模型，使其能够预测相机的内在特性，使其适用于未校准的视频；3）我们提出了一些在线微调策略，这些策略依赖于我们在训练和测试中自我监督损失的对称性，特别是优化模型参数和/或不同任务的输出，利用它们之间的相互作用。在所有几何和光度约束下，联合优化系统输出的思想可以看作是经典束平差的一个密集推广。我们在KITTI和Cityscapes上证明了我们的方法的有效性，其中我们在多个任务上都优于以前的自监督方法。对于迁移学习，我们也有很好的推广性。

本文的贡献

在这项工作中，我们引入了一个自监督的几何学习框架GLNet，它旨在整合现代基于深度学习的自监督系统的优点
（a）没有标记数据的培训，
（b）提供密集的重建，在那里先前的知识可以自动合并，
（c）利用多个相互关联的任务——与运动中的经典结构任务——进行交互
（i）显式表示始终保持的精确数学关系（例如极线约束），
（ii）能够在自适应光度和几何约束下，如在束调整中，联合优化所有输出，包括深度、姿势和相机内部特性，
（iii）打破训练与测试的不对称。

方法

本文提出的几何学习网络解决了单目深度预测，光流预测，相机位姿和相机内参预测间接连接的问题。输出表示为A={D,R,t,K,F}
在这里插入图片描述
**本文提出了一个由两部分组成的优化目标：**一部分是捕获静态和动态结构外观相似性的自适应光度一致性损失，
另一部分是由耦合刚性和视运动的多个组件组成的几何损失。
在训练过程中，利用优化目标作为代理监督信号来学习预测参数。在推理过程中，我们可以根据训练中使用的相同准则进一步细化预测，并且我们可以专注于细化模型参数或输出，这与几何束平差没有什么不同。由我们的自监督目标和经典几何约束的显式表示实现的。