面向实际应用的室内单目深度估计 Toward Practical Monocular Indoor Depth Estimation

Toward Practical Monocular Indoor Depth Estimation

面向实际应用的室内单目深度估计

  (个人观点)这一篇文中描述的工作就是DPT和一个汉明距离的损失函数,DPT是基于深度传感器训练的,汉明距离的两个损失也没有太多的创新,我个人认为指标的提升大概率是依靠了深度真值训练的DPT的结果。在摘要中描述的结构化蒸馏主要是针对DPT的,文中也没有做相关描述。总体上来说还是堆砌工作,但是顶会!

0 Abstract

  现有的大多数单目深度估计方法都是在室外的驾驶场景中部署,由于室内的物体在距离摄像头较近的位置排列紧密且无规则,这种方法在室内的泛化性很差(场景不同导致模型的泛化性很差是基于数据驱动的方法的通病,这一点无可厚非,但是室内的环境总体上要比室外的环境复杂,这一点确实存在)。为了提高模型的鲁棒性,我们提出了一种结构蒸馏方式,从现成的相对深度估计器中学习诀窍,该估计器产生结构化和度量深度,并进行了实时的推理。本文方法在模拟数据集SimSIM和真实数据集UniSIM进行了评估和测试。

1 Introduction

  本文工作提出了一个实用的室内单目深度估计框架,具有以下特点:从现有的估计器和没有深度注释的左右图像对中学习,高效的收集训练数据,提高跨数据集的泛化性、准确性和深度感应。我们的工作适用于消费级AR/VR,例如3D室内场景重建和虚拟对象插入以及环境的交互,最近自监督深度估计受到了广泛的关注,一些方法在室外的数据集例如KITTI和CiityScapes上进行训练,由于以下原因,导致室内的自监督深度估计会更具有挑战性。

  1. 结构先验:室外的场景在训练之前往往添加了强大的场景结构,通常由天空和建筑物占据的上部具有较远的深度,下部则是道路有远到近的分布,相比之下,室内的物体会杂乱的分布在进场环境中,这使得室内的结构先验要比室外弱得多。
  2. 驾驶场景的深度往往是随着道路由近到远的排布,但室内的深度可以聚集在较远或者较近的分布中,例如桌子和天花板,不均匀的分布使得室内的深度预测变得更为复杂。
  3. 相机位姿:室内的相机可以在六个自由度上进行移动,但室外的相机通常固定在汽车上进行收集,其中平移没有高度,旋转由偏航角主导,因此室内的自监督网络在相机位姿的预测上要更加复杂。
  4. 无纹理区域:由于室内存在大范围的无纹理区域,例如墙壁、桌面、天花板等这使得光度损失在室内的效果会变差,对此,本文提出了DistDepth,这是一种结构化蒸馏方式,可以通过自监督学习来提高精度。
      在本文中采用了结构蒸馏方法,可以通过自监督学习来提高深度精度。DistDepth使用现有的相对深度估计器DPT(dense prediction transformers 稠密预测变换器,这是一个利用视觉转换器来代替卷积网络作为稠密预测任务的主干网络),该估计器产生结构化但仅产生相对深度(输出的深度值只反映排序,与度量五无关)。我们的结构蒸馏策略在统计和空间上鼓励深度结构相似性,这样,来自DPT的深度排序可以有效地融合到由左右一致性训练的度量估计分支中。蒸馏法也可以奖DPT的大型视觉转换器缩小到一个更小的框架,从而能够在便携式设备上进行实时推断。
      在单目深度估计方向,目前的数据集要么是针对驾驶场景、小规模的、缺乏场景的、要么就是采用计算机引擎渲染的、缺乏立体的。而本文利用常用的Habitat传感器收集了大范围3D场景的立体对,其中包括1K个场景和500K个模拟的立体室内图像。先前的方法在SimSIN上训练时泛化性很差,但是采用了本文的结构蒸馏方法后,我们的模型可以在模拟数据集上产生高度结构化和度量精确的深度。本文缩小了模拟到现实和现实到现实之间的差距。

2 Related Work

  监督深度估计需要像素级的深度标注。早期的方法使用卷积神经网络对深度值进行像素值回归,以最小化预测和真值之间的损失。最近的方法采用ViT(vision transformers)来进行稠密预测,有一些方法采用了混合数据集训练,使用尺度和唯一不变性来进行大规模的深度训练。最先进的方法可以估计野生图像的细粒度结构,但由于混合数据集训练策略,他们只提供了相对深度。
  左右一致性和时间一致性有助于实现自监督单目深度估计。一些方法可以实现自监督深度估计,但都是聚焦室外驾驶场景。本文的结构蒸馏不同于常规的蒸馏,DPT只输出深度排序,要结合DepthNet才能产生最终的输出。

3 Method

请添加图片描述
  在立体训练中(即双目视觉,同时输入左右视图),光度损失被定义为左右视图的扭曲重构损失,时间一致性被定义为前后帧的光度损失。主要训练过程分为上下两个部分,上面为带有蒸馏法的相对深度估计器DPT,一个利用视觉转换器来代替卷积网络作为稠密预测任务的主干网络,D-*t是D*t的粗略优化,优化参数缩放as和位移at通过最小二乘法最小化以下公式来计算得到。下面是立体训练的左右视差一致性,扭曲和PoseNet没有画出。得到的相对深度图D-*t和预测深度图Dt通过损失统计损失Lstat和空间细化损失Lspat来约束网络。
在这里插入图片描述

  统计损失如下,采用了1减去结构相似度,按照作者的说法是,视差到深度放大了预测的不准确性,相比于结合了L1的损失函数,这样的方式可以更好的拟合图中的结构信息。
在这里插入图片描述

  空间细化损失,通过sobel算子计算相对深度图D-*t和预测深度图Dt对应的深度图g* 和通过阈值α=95%来进行二值化操作,梯度值大于这个值的为1,其余为0,得到两个二值化图E*和E,对两个二值化图进行计算汉明距离(来自信息论计算两个编码的不同)。对E*和E进行异或计算然后除以领域的大小。
在这里插入图片描述
  最终的汉明距离损失如下:Ldist =Lstat+10−1Lspat
在这里插入图片描述

4 Datasets

  在三个数据集上进行了评估,分别为SimSIN、UniSIN、VA和NYUv2,前两个是作者自己做的,也是本文的一部分工作,第一个为真实3D数据集,第二个为虚拟数据集。

5 Experiments and Analysis

  VA虚拟数据集测试结果。
在这里插入图片描述
  不同DPT测试结果。
在这里插入图片描述
  NYUv2测试结果。
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值