每天一篇论文微习惯 315/365 Self-supervised Object Motion and Depth Estimation from Video/

Self-supervised Object Motion and Depth Estimation from Video

本文是在深度估计的基础上,加入提前VO估计位姿用于深度估计,实例估计和深度估计结合,尺度模糊处理

摘要

我们提出了一个自监督学习框架来估计视频中单个物体的运动和单目深度。我们将物体运动建模为6自由度刚体变换。实例分割掩码用于引入对象信息。与预测像素级光流图以模拟运动的方法相比,我们的方法显著减少了要估计的值的数量。此外,我们的系统通过使用预先计算的摄像机自我运动和左右一致性来消除预测的尺度模糊性。在KITTI数据集上的实验表明,我们的系统能够在不需要外部标注的情况下捕捉物体的运动,有助于动态区域的深度预测。我们的系统在三维场景流预测方面优于早期的自监督方法,并且在光流估计方面产生了可比的结果。

贡献

本文提出了一种自监督学习框架,用于从视频中估计单个目标的运动和单目深度。
第一个贡献是以6自由度刚体变换的形式对物体运动进行建模和预测。以前的自监督pproaches使用密集的2D光流或3D场景流[2]来建模运动,这意味着可以预测像素级的流图。相比之下,我们的方法预测了单个物体运动的6自由度旋转平移。将要估计的值的数量从逐像素预测显著减少到每个实例6个标量。
第二个贡献是在基于视图合成的框架中,使用预先计算的绝对相机自我运动和左右光度损失来解决尺度模糊问题。基于视图综合的自监督学习框架存在尺度模糊问题,这意味着预测的运动和深度只能达到尺度。我们通过预先估计相机的绝对自我运动,并结合景深预测来解决这个问题。在此过程中引入了尺度信息。我们还施加左右光度学损失,从立体图像对编码比例信息。我们在KITTI数据集上对我们的框架进行评估。结果表明,我们的系统能够有效地预测单个物体的运动。

方法

提前输入相机的ego-motion进行深度估计,和对图像内实力分割的对象位姿进行预测。
在这里插入图片描述
本文motion框架
在这里插入图片描述

Object-motion网络结构

在这里插入图片描述

LOSS 定义

1.视角合成误差

在这里插入图片描述
2.转移矩阵调节
在这里插入图片描述
3.总的损失
在这里插入图片描述

实验

在这里插入图片描述
2.光流估计
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值