StructDepth:利用结构规律进行自我监督的室内深度估计StructDepth: Leveraging the structural regularities for self-supervis

StructDepth: Leveraging the structural regularities for self-supervis

StructDepth:利用结构规律进行自我监督的室内深度估计

0 Abstract

  在户外的数据集上,自监督单目深度估计已经取得了令人影响深刻的性能。然而,由于缺乏纹理,自监督单目深度估计的性能在室内显著下降。如果缺乏纹理信息,光度损失的约束性能就会下降,无法训练出好的深度网络。受早期室内建模工作的影响,本文利用室内场景中表现出来的结构规律,训练出更好的网络。总体来说,采用了两个额外的监督信号来进行自监督训练:曼哈顿约束和平面约束。其中,曼哈顿约束强制主要表面(地面、天花板和墙壁等)与主导方向对齐。平面约束表明,如果三维点位于同一个平面区域内,他们将被同一个平面很好地拟合。在训练过程中,本文采用两个分量将主表面法线划分为主导方向,并在飞行中检测出平面区域,从而产生监督信号。在训练过程中,随着训练时间的延长,预测的深度变的更加精准,监督信号也得到改善,反过来监督信号也更好的约束网络用来得到更好的深度信息。

1 Introduction

  在深度估计发展之前,从单一图像推断密集的三维地图一直是一个难以令人满意的问题。利用深度卷积网络(CNN),我们可以通过训练网络,使用大量地面真值标签从单个图像中预测准确的深度。近年来自监督单目深度估计不需要地面真值,也可以获得较好的深度信息。然而,当现有的室外的深度估计转移到室内时,深度估计的性能明显下降。与室外不同,室内充满了无纹理区域,如白色的墙壁,天花板和地板等。由于缺失丰富的纹理,光度损失的监督效果会得到明显的下降,以至于无法训练出良好的模型。因此,为了训练一个良好的深度估计网络,必须要寻找更强或者额外的监督信号。
  在此之前有一些其他方法。利用稀疏SURF(Speeded up robust features,加强特征流)通过自监督网络传播的光流场对无纹理区域进行引导训练。一些方法使用图像补丁而不是单个像素来计算光度损失,并对分割后提取的平面区域的深度施加额外的约束。尽管这些方法改善了深度估计的结果,但是他们没有充分的利用室内环境中呈现的结构规律,而结构规律是3D学习的一个宝贵信息来源。结构规律被称为曼哈顿-世界模型,描述了场景由与主导方向对齐的主要平面组成。这种简单有效的高阶先验可以在许多视觉任务中获得更好的表现,如室内建模、视觉SLAM和视觉测距但尚未应用于单目深度估计。
  在本研究中,我们提出将室内结构规律的高阶先验应用于自监督单目深度估计。具体来说,我们采用两个额外的监督信号进行训练:1.曼哈顿法向约束和2.平面约束。曼哈顿约束强制主要表面和主导方向对齐。平面约束表明,如果三维点在同一个平面区域内,他们将被一个平面很好的拟合。我们将两个额外的组件添加到培训过程中。第一个是曼哈顿常规检测,它从网络预测的深度中计算出主要的表面法线,并通过自适应阈值方案将其分割为与消失点相关的方向,第二种是平面区域检测。我们融合了颜色和由深度得到的几何信息,并采用经典的分割算法提取平面区域。在训练过程中,这两个部分结合估计出的深度,在训练过程中产生监督信号。这些信号在早期可能会因为深度估计不准确而产生噪声,但随着深度质量的提升,这些信号会逐渐改善,从而有利于深度估计。
  本文在室内基准数据集:NYU-v2、ScanNet和InteriorNet上进行可实验。结果表明,我们的方法优于最优的结果。我们的主要贡献如下。

  1. 首次利用室内环境结构规律来约束自监督深度估计网络。
  2. 采用曼哈顿约束和平面约束来提高额外的约束信号。
  3. 一种新的室内自监督深度估计网络框架,效果良好。

2 Related work

  单目深度估计是一个极其难以解决的不适定问题。人们提出了很多方法来提高单目深度估计的精度,其中大多数是需要地面真实深度数据进行训练的有监督的方法。
  由于大规模的获取地面真实深度具有挑战性,所以不需要真值的自监督单目深度估计得到了广泛的关注,Godard提出的mono中,首次引入图像来代替地面真实深度来训练深度网络,在一对立体图像中,一个图像被预测的深度图扭曲到另一个视图,通过计算合成图像和真实图像之间的差异,即光度误差,来约束网络的训练过程。目前,这个思路被广泛的用于自监督深度估计,人们通过设计网络结构,修改损失函数以及在线优化等方式,使自监督深度估计的精度不断地提高。
  现有的自监督方法在室外数据集上取得了令人影响深刻的性能,但在室内数据集上表现不佳。原因是室内场景充满了无纹理区域,例如白色的墙壁和天花板,使得光度损失的约束性受到干扰,zhou等人通过光流的的流场监督,初始化SURF通信。最近的工作采用了更有分辨率的补丁而不是单个的像素来计算光度损失,但是这些方法都没有充分的利用环境的结构。
  平面区域检测,虽然最近提出了一些平面区域探测器,但是这些探测器需要大量的平面标签来进行训练,不适合自监督深度估计,本文所使用的是一个04年经典的基于图像分割的方法来检测平面区域(和P2Net的图像分割方法一样),同时利用从深度中提取的附加几何信息进行训练时的动态估计,在附加几何信息的基础上,避免了以前只依靠颜色来区分平面的现象,减少了虚假平面的产生以及对纹理丰富区域的过度分割。

  室内环境的结构规律。室内场景表现出强烈的结构规律,可以称之为曼哈顿世界(?,玩尬的是吧)。这些场景可以分为主要的平面,这些屏幕按的法向量相互正交。这些结构规律是有价值的先验,已经广泛的用于室内三维重建任务,例如SLAM、VIO和映射。事实上,在早期的研究中,利用室内场景的结构先验可能是从单个图像中推断3D信息的唯一几何方法。研究人员认为,在室内环境中,结构规律也应该利于基于学习的视觉任务,Wang等人提出使用消失点和消失线来训练表明法向估计器,本文的方法和他们类似,但不同的是,表面法向只作为一个中间结果,我们的主要任务是深度估计,此外,我们的深度网络完全采用自监督的方式,不需要线图来作为额外的输入。据本文作者说,他们是第一个将室内环境的结构规律用于自监督单目深度估计。

3 Method

请添加图片描述

  上图是本文的自监督框架,主要由三部分组成,1.DepthNet进行深度图的预测。2.Manhattan法向检测,将深度图预测出的地表法向分为主导方向。3.平面区域检测,通过基于图像的分割方法,利用颜色和几何信息来提取平面区域。由上述的2和3所增加了两个额外的约束,即曼哈顿损失和平面损失,如上图的红色箭头所示。

3.1 Manhattan normal constraint

  从室内的结构环境来看,大多数的室内场景都包含着延主导方向排列的平面。主方向可以由图像中的结构线来估计。图像中一组平行结构线的交点为消失点。设v为二维图像中的消失点。相机坐标系中的一个主导方向被计算为η ∝ K−1v,其中η ∈ R3表示这个主导方向的单位向量,K是相机的内参矩阵。我们只需要两个消失点就可以计算所有的主导方向,因为第三个主导方向可以通过叉乘得到(这里讲的应该是三维坐标系他采用两条相交线确定一个平面,通过两条线叉乘得到垂直于平面的另一个坐标轴,以此来确定坐标系),本文采用两线搜索法提取图像中的主导方向,主方向的提取只在网路训练前提取一次(应该是每一张图片进入网络前都提取一次)。
  提取的方向和反方向都被认为是场景中的主要平面(类似于天花板、地板和墙壁)可能的法线方向。表面正常的估计。为了估计曲面法线,我们首先得到每个像素点p的正常三维坐标Xp通过预测的深度图像,公式为Xp = D§K−1p,其中,D§为预测的深度图,采用了一种可微的point-to-normal的方法去估计法线根据三维点,其中的法向量np是给定像素的点p的计算是根据三维点Xp为中心的一个小领域计算得到的。该领域大小为7×7。
  在给定曲面法线预测n的情况下,本文提出了曼哈顿法线检测方法来对属于主导平面的曲面法线进行分类。我们的方法是利用余弦相似度来比较估计出的法向量np和每个主导方向ηk之间的差异,并选择具有最佳相似度的那个记为npalign
在这里插入图片描述
  余弦相似度度量公式如下。
在这里插入图片描述
  曼哈顿区域选择公式如下,取决于余弦相似度和阈值γ。
在这里插入图片描述
  由于刚开始深度估计的不准确,应该让更多的区域分配到曼哈顿区域,γ的计算公式如下,N为训练次数,其中α和β分别设为1.633e−3和0.9。
在这里插入图片描述
  曼哈顿损失公式如下,通过计算npalign和np的余弦相似度来比较。其中Nnorm为曼哈顿区域的像素数,MpP表示平面区域,检测平面区域的方法在下一节中介绍。
在这里插入图片描述

3.2 Co-planar constraint

  为了加强共面约束,我们需要正确的检测出平面区域,之前的方法通过假设颜色均匀的区域来检测平面区域。但是这样简单的策略会导致错误的检测或者过度分割产生错误的监督信号,我们提出了一种采用颜色不相似度和几何信息不相似度的新的平面区域检测的方法。其中颜色不相似度是通过比较RGB颜色来计算的。几何不相似度是法向距离和平面到原点的距离不相似度之和。
在这里插入图片描述
  通过像素点p所对应的三维点Xp以及预测出的平面法线npalign(这里假设npalign为平面实际法线)计算点到平面的距离dp。
在这里插入图片描述
  假设q为p的相邻像素点,法向不相似度定义为p和q所对应的两个法向向量npalign和nqalign之间的欧氏距离。
在这里插入图片描述  使用Dnmin和Dnmax来表示相邻像素的最小法向不相似度和最大法向不相似度,通过[*]来表示归一化。
在这里插入图片描述
  平面到原点的不相似度定义如下。
在这里插入图片描述
  总体的几何不相似度为两者之和。
在这里插入图片描述
  颜色不相似度公式如下,这里应该也是计算了欧氏距离,但公式里的xyz换成了rgb。
在这里插入图片描述
  最后,结合了颜色信息和几何信息的不相似度度量公式如下。
在这里插入图片描述
  共面深度的计算(玛德,看了半天原来就是翻过来再翻过去),首先通过如下公式将三维点抹平到同一个平面上,采用θ来存储反深度(这里我想了半天,其实就是要想抹平就把深度都乘到1就行了,例如p点和q点的深度分别为3和2,那么θ里面存储的是1/3和1/2就行了,也就是反深度)。
在这里插入图片描述
  重点是这里,X原来其实是输入图像加相机内参加预测的深度得到的(这里就不放图了,防止大家混乱),如果只是为了求解共面深度Dpplane其实公式里面直接采用XT就可以了,但是为了拉大共面深度和预测深度的不同,所以用θT来计算。其实这都无所谓,重点是这里的p已经不是输入图像了,而是共面约束后的图像,也就是进行了图像分割后的输入图像,这是共面深度和预测深度的本质不同。
在这里插入图片描述

  这里的loss就是计算共面深度和预测深度的不同。在这里插入图片描述
  他的创新点到这就结束了,个人感觉工作量还是比较大的,但是有个比较严重的问题,曼哈顿约束和共面约束的本质都是在假设法线足够好或者预测深度有效,作者在开始也说,约束能力在初期不好,后续不断变好,但这个其实还是会有一定的负面影响,因为预测的深度始终是不完美的,深度预测错误的区域会直接干扰整个网络的训练,但这个问题文中没有详细描述。

4 Experimental results

  NYUv2的实验结果。
在这里插入图片描述
  从深度图中计算的表面法线。
在这里插入图片描述
   ScanNet室内数据集。
在这里插入图片描述

   InteriorNet室内数据集。
在这里插入图片描述

  曼哈顿约束和共面约束的消融实验。

在这里插入图片描述
ps:这一篇拖了太久,申博,创新项目,挑战杯,生病这半个月的事情有点多,但总的来说还是自己太懒了~~

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 22
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值