快速单目深度估计

Guiding Monocular Depth Estimation Using Depth-Attention Volume 基于深度注意力机制的快速单目深度估计

论文:https://arxiv.org/abs/2004.02760
代码:https://github.com/HuynhLam/DAV

摘要

从一幅图像中恢复场景深度是一个不恰当的问题,它需要额外的先验信息(通常称为单一深度线索)来消除不同的三维解释的歧义。在最近的工作中,这些先验知识是通过使用深度神经网络从大数据集中以端到端的方式学习的。在本文中,我们提出了一种指导性的深度估计方法,以支持在室内环境中普遍存在的平面结构。这是通过将非局部共面性约束与一种称为深度注意量(DAV)的新型注意机制结合到网络中来实现的。在两个流行的室内数据集NYU-Depth-v2和ScanNet上进行的实验表明,我们的方法只使用了比较方法所需参数的一小部分,就获得了最先进的深度估计结果。

1.介绍

深度估计是计算机视觉中的一个基本问题,因为它在三维建模、增强现实和自主车辆等领域有着广泛的应用。传统的解决方法是使用基于多视图几何的立体和结构运动技术。近年来,随着深度学习的发展,单目深度估计已经成为一种新的选择。

在基于学习的单目深度估计中,基本思想是训练一个模型来预测给定输入图像的深度图,并希望该模型能够学习那些能够直接从像素值推断深度的单目线索。这种暴力方法需要大量的训练数据,并导致了大规模的网络体系结构。通用的做法是使用一个深度编码器网络例如VGG-16,ResNet-50,ResNet-101,ResNext-101,SeNet-154,跟随着包括上投影模块在内的一些上采样和融合策略。多尺度特征融合[13]或自适应稠密特征融合[2]都会导致带有大量参数的庞大网络。由于计算复杂度高和内存要求高,限制了这些网络在实际应用中的使用,也提出了快速单目深度估计模型,如FastDepth。但是他们速度的提高伴随着精确度的降低。此外,尽管使用NYU-Depth-v2等标准基准数据集取得了很好的效果,但这些网络是否能够很好地推广到训练数据中没有的看不见的场景和姿势,仍然值得怀疑。

为了避免盲目地从数据中学习所有的单目线索,本文研究了一种通过对位于同一平面上的场景点利用简单的共面性约束来引导学习的方法。共面性是一个重要的约束条件,尤其是在由墙、地板、天花板、桌子等非平行平面构成的室内环境中。我们引入深度注意量(DAV)的概念,从共面结构中非局部地聚集空间信息。我们使用fronto-parallel和non-fronto-parallel约束以端到端的方式学习DAV。(关于fronto-parallel的概念可以去参考这篇博客:fronto-parallel

需要注意的是,平面近似已经在单目深度估计中得到了广泛的应用,例如,在PlaneNet[24]中,3D平面被明确地从图像中分割和估计出来,但是与这些工作不同的是,我们使用DAV将共面性约束嵌入到模型中,这是一个受非局部神经网络启发的构造块。与卷积运算不同,它是非局部运算,产生整个图像特征的加权平均值,关注平面结构,并支持源自这些平面的深度值。通过使用DAV,我们不仅在模型中加入了一个有效且重要的几何约束,而且能够在不牺牲精度的情况下大大缩小网络的规模。总而言之,我们的主要贡献包括:

  • 一种新的注意机制称为深度注意体积,它捕获共面点之间的非局部深度依赖关系
  • 一种端到端的神经网络结构,隐式学习从场景中识别平面结构,并将其作为单目深度估计的先验
  • NYU-Depth-v2 和ScanNet数据集上SOTA的深度估计结果,与以前的方法相比,实现了相似的性能模型使用的参数要少得多。

2.相关工作

3.方法

3.1Depth-Attention Volume

给定两个图像点P0=(x0,y0)和P1=(x1,y1)以及相应的深度值d0、d1。我们定义深度注意力A(P0,P1)为从P1预测P0深度的能力。这种能力被量化为在[0,1]范围内的信心,因此0表示没有能力,1表示作为一个好的预测者的最大确定性。

为了估计A我们假设场景包含多个非平行平面,这在室内环境中尤其常见。属于同一平面的所有点的深度值是线性相关的。因此,他们是彼此很好的预言家。为了利用这一特性,我们从训练图像中检测N个突出的平面,并且用S=(nxny,nd,c)参数化每一个平面。其中(nx,ny,nd)是平面法线,c是与参考原点的正交间距。我们构造了所有N个平面的一阶深度注意量:
在这里插入图片描述
σ \sigma σ表示sigmoid函数,X0=(x0,y0,d0,1),X1=(x1,y1,d1,1)这些Volumes用大小为H×W×H×W的四维张量表示,其中H和W分别是垂直和水平尺寸。在实践中,需要对体积进行子采样,以保持内存需求合理。在所有的实验中,我们使用了8的子抽样因子。

此外,我们假设位于同一fronto-parallel plane 的所有点都是彼此的良好深度预测因子,因为他们有相同的深度值。我们使用地面真实深度,并为每个训练图像创建一个零阶深度注意量(DAV)。

在这里插入图片描述
最后,我们以所有Volumes的最大注意力值来混合这些Volumes。
在这里插入图片描述
很容易观察到DAV是一个对称函数,即AD(P0,P1)=AD(P1,P0

如果我们认为p0是图1(左)所示的图像中的一个查询点,那么我们可以将DAV可视化为图1(右)所示的二维注意图。图2提供了一个从地面真相深度图生成的深度注意量的示例。
在这里插入图片描述
在这里插入图片描述

3.2Network Architecture

图3概述了我们的模型,其中包括三个主要模块:编码器、非局部深度注意模块和解码器。
在这里插入图片描述
我们选择使用一个简化的22层的扩展残差网络(DRN-D-22)作为编码器,它提取高分辨率的特征,只对输入图像进行8次下采样。DRN-D-22是DRN的一个变体,它完全消除了最大池化层,并且平滑地分布了扩张以最小化网格伪影。这对我们的网络至关重要。为了使训练可行,非局部深度注意模块需要在子采样特征空间上进行操作。然而,为了捕捉有意义的空间关系,这个特征空间也需要足够大。

我们网络的解码器部分包含一个简单的向上扩展方案,将空间维数从29×38增加到57×76,然后再增加到114×152。向上采样由两个双线性插值层和一个核尺寸为3×3的卷积层组成。然后使用两个核尺寸为5×5的卷积层来估计最终的深度图。

非局部深度注意模块位于编码器和解码器之间。它将输入特性x映射到相同尺寸的输出特性y。该模块的主要目的是在深度注意量(DAV)中加入非局部信息给Y,但它也被用来预测和学习基于地面真实数据的DAV。模块的结构如图4所示。
在这里插入图片描述
实现DAV预测器我们首先使用1×1卷积将X转换为绿色和蓝色嵌入,我们利用了DAV的对称性,并通过对绿色和蓝色嵌入应用交叉反规范化来最大化这两个空间之间的相关性。交叉反规范化是一种条件非恶意化技术[4],用于从数据中学习仿射变换。具体地说,绿色嵌入首先使用批标准化(BN)标准化为零均值和单位标准差。然后,蓝色嵌入被卷积以创建两个张量,两个张量相乘并添加来自绿色分支的归一化特征,反之亦然。然后用ReLUs激活非规范化表示,并在相互相乘之前通过另一个1×1卷积变换。最后,使用sig-moid函数激活DAV,以确保输出值在范围[0,1]内。实验证明,在两个嵌入空间中使用交叉调制比使用一个具有两倍特征数的单一嵌入要好。

此外,X馈入橙色分支并与估计的DAV相乘以放大输入特征的效果。最后,在训练网络时我们添加了一个残差连接(红色)来防止训练时消失梯度问题。

3.3 Loss Function

如图3所示,我们的损失函数由两个主要的部分:注意力损失和深度损失。
注意力损失:该项的主要目标是最小化估计值(图4中DAV预测器的输出)和地面真实DAV之间的误差。Lmae定义为预测值和地面真实深度注意值的平均绝对误差。
在这里插入图片描述
其中 A ^ \hat{A} A^i,j ≡ \equiv A ^ \hat{A} A^D(Pi,Pj)和Ai,j ≡ \equiv A ^ \hat{A} A^D(Pi,Pj)是预测和地面真实深度注意量值。

此外,对于所有查询位置i和j,我们将预测深度和地面真实深度注意图之间的角度最小化:
在这里插入图片描述
总的注意力损失为:
在这里插入图片描述
**深度损失:**此外,我们将深度损失定义为最初在[13]中引入的三个术语Llog、Lgrad和Lnorm的组合。Llog是在对数空间中计算的1范数的方差,M为有效深度值的数目,di是地面真实深度, d ^ \hat{d} d^i是预测的深度,F(x)=log(x+a), α \alpha α在实验中取0.5。
在这里插入图片描述
另一个损失项目Lgrad,用来惩罚x和y维度的边缘结构的突然变化。定义为
在这里插入图片描述
x和△y是x和y的误差梯度,最后,我们使用Lnorm通过最小化地面真值(ni)和预测( n ^ \hat{n} n^i)表面法线之间的角度来强调小细节。
在这里插入图片描述
其中表面法线用Sobel filter被估计为n ≡ \equiv (- ▽ \bigtriangledown x(d),- ▽ \bigtriangledown y(d),1)。深度损失变为:
在这里插入图片描述
我们的总损失为:
在这里插入图片描述

4.实验

NYU-DEPTH-v2的测试结果,总体来说达到了最SOTA的水平
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
官方ScanNet测试集的性能数据
在这里插入图片描述
在这里插入图片描述

5.结论

本文提出了一种新的单目深度估计方法,该方法将非局部共面性约束与一种称为深度注意量(DAV)的新注意机制相结合。提出的注意机制鼓励深度估计有利于平面结构,尤其是在室内环境中。DAV可以更有效地学习必要的先验知识,从而大大减少模型参数的数量。在两个流行的基准数据集上,所提出的解决方案的性能是最先进的,同时使用的参数比竞争方法少2-8倍。最后,通过交叉数据集实验进一步验证了该方法的推广能力。

  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值