2019:Depth prediction without the sensors:leveraging structure for unsupervised learning from monocular videos
无传感器的深度估计:单目视频无监督深度估计的结构化方法==
原文
源代码
学习笔记
简介
本文实现的是对单目视频进行深度估计,主要方法是将场景中相应的运动建模为独立变换,然后用其对 3D 几何建模,并估计所有目标的运动。通过将场景分解为 3D 和单个目标,可以更好地学习场景中的深度和自我运动,尤其是在动态场景下物体的深度。
相关函数
输入为一组RGB图像序列(至少3张图片)
1、depth function:用来从单帧图像中生成深度图
2、ego-motion: 用来生成两帧图像之间的 SE3 变换
3、warping operation:用来通过 i 帧图像生成 j 帧的图像
total loss:
Lrec为图像重建损失,加上 SSIM 损失,以及图像平滑损失。
Motion Model
将场景中可能移动的目标单独的建立3D模型,并且学习估计目标的运动,在对可能的移动目标进行建模的时候就需要除去静态的部分,这里作者对所有的静态场景定义了一个 binary mask:
这时候的自我运动的模型则直接使用使用静态场景进行估计: