Learning Independent Object Motion from Unlabelled Stereoscopic Videos
Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos.
Unsupervised scale-consistent depth and egomotion learning from monocular video
摘要
我们提出了一个从立体视频中学习独立运动物体运动的系统。我们系统中使用的唯一人工注释是二维对象边界框,它将对象的概念引入到我们的系统中。与以往的基于学习的工作不同,前者侧重于预测每幅图像的密集像素级光流场和/或深度图,我们建议预测特定于对象实例的三维场景光流图和实例mask,从中我们可以得到每个对象实例的运动方向和速度,我们的网络考虑了问题的三维几何结构,允许它关联输入图像。我们提供了一些实验来评估我们的三维流矢量的准确性,以及深度图和投影的二维光流,在这些实验中,我们共同学习的系统比之前为每个任务单独训练的方法都要好。
贡献
工作主要贡献如下:(1)制定一个学习范围,该学习目标能够在现实世界场景(对象边界框注释)中收集有限的监督,(2) 将场景表示分解为独立移动的对象,以预测密集深度和三维场景流;(3)通过在平面扫描体上操作,设计一个网络架构,对问题的底层三维结构进行编码
方法
场景中运动目标确定,二维确定范围三维确定运动
动态场景中的场景运动可以分解为两个主要元素:由摄像机运动产生的静态背景运动和场景中独立运动对象的运动。表示场景运动的常用方法是二维光流。但是,这种表示混淆了相机和对象的运动。表示为深度图的三维结构和相机运动来模拟静态背景的运动。动态对象使用完整的三维场景流进行建模。为此,利用现成的目标检测系统中的边界盒形式的二维目标检测,并独立地对每个目标的三维运动进行推理。提出了一种方法,通过利用照片的一致性,以自我监督的方式学习每个对象建议的这种表示。
场景流预测的关键监控来自于同一场景的多个视图的光度一致性:
如图3D深度图中的光流推断
仅使用光度一致性不足以监督三维流预测。原因是沿着一条观察光线可以找到多个照片一致的解决方案,如图3所示。因此,以深度一致性的形式使用额外的几何损失,从而进一步限制水流。其思想是,Z方向(有时也称为视差差)中的流必须与为两个时间瞬间t和t+1预测的深度图一致。为了利用这个损失函数,需要预测两个时间瞬间的epth映射,并将偏差应用于深度估计。
以对象为中心的场景流预测
基于图像的一致性损失通常通过偏差个图像然后计算整个图像的一致性来应用-光流预测的示例可以在中找到:
对于三维场景流,由于非零流向量的稀疏性,这不是一个理想的选择。与静态背景相比,运动目标只占图像像素的一小部分。这种不平衡的移动/静态像素分布使得幼稚地学习完整的图像流变得困难,甚至在运动对象上也以零流预测结束。为了使网络专注于预测运动对象上的正确流并提供更均衡的监督,因此使用从art 2D对象检测系统的状态获得的对象包围盒检测。需要注意的是,目标检测并不能真正告诉我们目标是否在移动。网络使用基于视图综合的损失函数来学习这些信息。
从特定于对象的映射F集合一个完整的场景流。然而,我们有重叠的roi,某些roi甚至可能包含多个移动对象。因此,除了F之外,预测每个RoI j的对象蒙版Mj。完整的三维场景流图F计算如下:
Loss
实例级别的运动目标mask预测
结果
目标方位预测
深度、光流和运动物体实例语义