动态场景下的无监督单目深度学习 Unsupervised Monocular Depth Learning in Dynamic Scenes

该论文提出了一种针对动态场景的无监督单目深度学习方法,利用光度一致性和几何一致性损失作为监督信号,并通过剩余平移场正则化处理运动物体,解决了传统方法在处理运动物体时的深度估计问题。该方法不依赖语义分割或立体三维先验训练,能更好地建模多样和复杂的运动模式,提高了深度估计的准确性。
摘要由CSDN通过智能技术生成

Unsupervised Monocular Depth Learning in Dynamic Scenes

(动态场景下的无监督单目深度学习)

  在视频序列中,当运动前后两帧相隔时间较短时,我们认为两帧图片的位姿变化和明暗变化都是存在着一定的范围的,即有光度一致性和几何一致性损失。光度一致性:指在相邻的两帧之间同一个点的像素值集合不会有太大的变化。几何一致性损失:即两帧之间图片中的位姿变化不会有较大波动。
极线:如果曲线上两点A,B的切线交于P点,那么P点称为直线AB关于该曲线的极点,PA,PB称为P点的极线。
极线几何约束:常用于在两幅图片中查找相似的点,极线约束是一种点对直线的约束,它将查找范围从图片约束到一条直线。
光流:是空间运动物体在观察成像平面上像素的瞬时速度。
光流法:是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧和当前帧之间存在的某种对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
摘要:该论文主要是针对单目深度估计中的运动场景提出了一种联合训练的解决方案。采用相邻图片之间的光照一致性来作为唯一的监督手段(即无监督),但采用3D平移场的先验知识来进行正则化惩罚。20年的文章,效果要比加了语义分割的还要好。

1 Introduction

  深读估计的自监督学习来源于自运动结构(SFM),所以需要面对SFM的许多问题例如无纹理区域,遮挡,反射和运动对象。如果一个物体被判定为运动物体,那么它将携带4个未知数,即深度和三个运动分量(三个运动分量不是就够了吗?),而传统的极线几何约束无法消除歧义。所以传统的方法加入语义分割,先通过对于不同物体,例如车辆,数目等进行大量的先验训练,再进行对于整幅图片的深度估计。Godard等人对于与相机运动速度和方向都相同的物体,可以通过检测帧间不变的区域来识别这种情况,而并非从光度一致性损失中来排除这些区域,这种方法可以导致深度估计指标有明显的改进,但是这样的方法只能仅限于一种特定物体的运动。
  文章的主要创新点有以下两点:

  1. 除了单目视频本身之外,没有使用任何的基础事实,没有语义分割,也没有立体的三维物体来进行先验训练。
  2. 考虑了所有物体的运动模式,这些问题可以通过刚性物体在任意方向的平移来近似。

  主要思路是针对于上文提出的与摄像机运动方向和速度一致的物体在进行视差判断时往往会被认为是深度无限的物体。原来的方法是通过识别帧间不变的物体来判断该种情况,但这篇论文在损失函数上提出了一种1/2的范数的剩余平移场正则化方法来作为约束准则,以实现对于上述物体的判断。他们实现了一种在充分正则化和同时保留高度动态场景中建模多样和复杂运动模式的能力之间取得了正确的平衡。通俗来讲就是可以准确的分割出场景中运动的物体。实现上述的方法是采用剩余平移场的两个性质来实现的。剩余平移场在我看来就是对原图进行运动物体筛选之后剩下来的像素。

  1. 因为通常帧中的大多数像素属于背景或者静态对象,所以剩余的平移场是稀疏的。
  2. 剩余平移场在三维空间的刚性移动物体中往往是恒定的。

2 Related Work

  传统的无监督深度估计采用极线几何来求解图像中的深度信息,例如在多视角立体,即双目多视图中求解深度,或者在单目视频中的静态场景,采用运动恢复结构(SFM)来求解深度。有监督深度估计采用激光深度传感器等来作为深度值,但是逐像素的深度值是很难获取的。还有一些采用立体输入来作为监督信号,或者采用自我运动,光流等来进行联合深度估计。后面这种第一阶段估计深度和摄像头运动,从而估计出摄像头运动的光流模型,第二阶段估计由于物体与相对于场景所产生的剩余光流,剩余的光流用来遮挡移动的物体或者推理遮挡的物体。

3 Method

输入采用相邻的图像对Ia和Ib和预测好的深度图Da和Db,通过运动预测网络Motion Network后,输出全局自我运动估计Mego和空间对象运动图Tobj,然后由Ia和Ib恢复出Ib和Ia并建立损失进行监督训练。
在这里插入图片描述
  全局自我运动估计Mego分为3D旋转矩阵R和3D平移矩阵Tego,运动后的图像T(u,v)等于空间对象运动图Tobj与3D平移矩阵Tego的和,公式如下。
在这里插入图片描述
  总体的损失函数包括三个方面,运动正则化,深度正则化和一致性正则化,L1/2范数应用于运动正则化中,改进后的1/2的范数比L1更加稀疏,公式图片如下:
在这里插入图片描述

结论

在这里插入图片描述
  针对于顶部,自监督损失未能学习到扭曲,反射和颜色饱和区域良好的深度。正对于底部,该模型可能无法描述边界模糊(左面栏杆)或形状复杂的物体(右面标识牌)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值