深度和自我运动自监督学习的特征度量损失 Feature-metric Loss for Self-supervised Learning of Depth and Egomotion

Feature-metric Loss for Self-supervised Learning of Depth and Egomotion
(深度和自我运动自监督学习的特征度量损失)

0 摘要

  光度损失广泛用于自监督深度和自我运动估计。由于无纹理区域中像素的平滑或者低分辨率中的对个局部极小值导致光度损失的优化总是存在缺陷(这里的意思是在像素匹配的过程中,为了得到较好的匹配效果,期望像素有着唯一性以及易寻找的特性,即在训练时通过梯度下降法可以很好的找到全局最优,即梯度表现为一个收敛盆地,以便于从各个方面都可以陷入其中,而不是过于平缓或者坑坑洼洼,前者不利于最优解的寻找,而后者容易陷入局部最优。)。为此,该文提出了一种基于特征表示的特征度量损失,特征表示采用编解码器结构来训练,损失函数方面采用了两个被正则化的一阶导数和二阶导数,以便于得到合适的会聚盆地。数值方面KITTI中的δ1为0.885到0.925,从单目到单目加立体再加后处理。

1 介绍

  单目深度估计广泛的应用于增强现实,机器人导航和自动驾驶。相比于传统的SFM/SLAM算法,单目深度估计可以在不借助真值的情况下得到场景的相对深度,以此来得到图像中各个物体的相对位置关系。真值的获取一般采用昂贵的LiDAR(激光雷达)或者计算机模拟引擎的渲染。但激光雷达不利于新相机的使用,而模拟引擎又有着在现实场景泛化能力差的缺点。而自监督学习将这两个任务统一到一个框架中,只使用单目视频做为输入,监督来自视图合成,设置简单,便于部署。
  目前来说,自监督算法比监督方法还是差很多,问题主要在于我们的自监督采用光度损失的弱监督。通过源视图估计出的深度图和相邻帧估计出的位姿参数重建出的伪源视图,而伪源视图和源视图之间的差异大小倍定义为光度损失。但是光度损失较小时并不能代表得到好的深度图和好的位姿,尤其是对于无纹理区域中的像素。这个问题可以在深度图上添加平滑度损失来进行部分改善,平滑度损失可以迫使深度从有区别的区域传播到无纹理的区域。然而,这种传播的范围有限,容易导致边界附近的过度平滑。
  由于基本限制来自于表示,所以提出了特征度量损失来对每个像素进行特征表示,该特征表示被明确的约束区分纹理区域和无纹理区域。特征表示的网络采用单视图重建路径作为自动编码器编码器网络,采用鉴别损失和收敛损失作为损失函数。其中鉴别损失由一阶导数来建模像素之间的特征差异,收敛损失通过惩罚像素之间的特征梯度来确保宽的损失范围。网络方面总体来说就是相对于传统的DepthNet和PoseNet增加了一个FeatureNet来进行特征表示的学习。总体贡献分为三个方面:

  • 提出了特征度量损失来用于自监督深度和自运动估计。
  • 提出了用于深度和自我运动估计的特征表示学习网络FeatureNet。
  • KITTI数据集表现优秀(这也可以?,王婆卖瓜,自卖自夸是吧)

2 研究现状

  本节中主要回顾了自监督学习中的单目深度自我运动估计和视觉表征学习等两个方面的研究现状。

2.1 单目深度和自我运动估计

  SfmLearner是这项工作的先驱,其中DepthNet和PoseNet的几何估计由光度损失监督。为了解决静态场景中假设的移动物体,有的方法采用光流补偿这些运动像素(也有采用场景流的方法,场景流从光流的二维平面扩展到三维空间,加入深度值来对场景中的运动物体进行约束),也有采用预先训练好的分割掩膜来处理单独的运动物体。
  更多的几何先验方法被用于加强自我监督学习。例如提出深度-正常一致性损失来作为额外约束、[27,5,2]这些方法考虑了相邻视图之间投影的点云之间的三维一致性。此外,使用双目视频进行训练,可以解决尺度模糊和场景动态的问题,而在单目视频中对上述问题只能进行推理。
  与上述所有侧重于任务几何部分的方法不同深度特征重建提出使用浴池里模型的深度特征来定义重构损失。我们的方法具有相同的思路,但在同样的自监督学习框架下,我们进一步明确地学习几何问题的深度特征。

2.2 视觉表征学习

  对下游任务进行自监督的视觉表征学习具有重要意义。在没有明确标签的情况下,损耗是通过以不同方式操纵数据本身来进行定义的,这些方法可以是重建输入数据,预测空间变化,着色灰度输入图像等。我们的工作是通过一个自编码网络来重建输入。以往的工作为了学习根号的特征来完识别任务,而我们的方法是为了学习更好的特征来完成几何任务。

3 方法

  在这一节中,我们首先介绍了需要标注的几何模型,然后定义了两种重构损失,一种用于深度和自我运动学习,另一种用于特征表示学习。最后介绍了关于丢失设置和网络架构的整体框架和实现细节。

3.1 几何模型
3.1.1 相机模型和深度

  相机操作符π:R3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值