文献:Learning Depth-Guided Convolutions for Monocular 3D Object
摘要(Abstract)
因为缺少准确的深度信息,没有LiDAR(三维激光扫描技术)时对一幅图进行3D物体检测是一项具有挑战的任务,由于不能捕获局部特征和大规模信息,传统的二维卷积不能完成这项任务(3D物体检测)。在当下,为了更好地表示3D结构,目前的方法是将2维图像所估算的深度图转换为一种伪装的LIDAR(pseudo-LiDAR)表示,然后将此pseudo-LIDAR应用与现有的基于3D点云(3D point cloud)的对象检测方法(existing3D point-cloud based object detectors.),但是,它们的结果在很大程度上取决于估计的深度图的准确性,导致性能欠佳.在本文中中,我们不是使用伪LiDAR表示,而是通过一个新的局部卷积网络(LCN),称为深度引导动态扩展LCN(Depth-guidedDynamic-Depthwise-Dilated LCN)缩写是D4LCN,它可以从基于图像的深度图中自动获悉卷积核及其接收场,使不同图像的不同像素具有不同的滤镜。D4LCN克服了传统2D卷积的局限性,缩小了图像表示和3D点云表示之间的差距。大量实验表明,D4LCN在很大程度上优于现有方法。
1 介绍(Introduction)
但是使用LiDAR也有一些缺点,比如成本高和输出的图的信息比较稀疏,所以我们希望能找到比LiDAR更便宜的替代品,如单眼相机。尽管目前对该问题引起了很大关注,但是在很大程度上仍然未解决。
目前对上述问题的解决主要聚焦在两个部分,基于图像的方法和基于伪LiDAR点的方法。基于图像的方法通常利用几何约束,包括对象形状,地平面和关键点,将这些约束条件公式化为损失函数中的不同术语,以改善检测结果。基于伪LiDAR点的方法将从2D图像估计的深度图转换为点云表示,以模拟LiDAR信号。如图1所示,这两种方法都有缺点,导致性能欠佳。
图1(a)和(b)分别显示了由监督深度估计器DONN和无监督Monodepth(单深度)生成的伪LiDAR点。绿色框代表groundtruth(GT)3D框。如图(b)所示,由不正确的深度生成的伪LiDAR点具有与GT框对应的较大偏移。(c)和(d)显示了我们的方法和Pseudo-Lidar [通过使用粗略深度图的检测结果。 Pseudo-Lidar的性能在很大程度上取决于估计的深度图的准确性,而当缺少精确的深度图时,我们的方法可以获得准确的检测结果。
简单来说,基于图像的方法通常无法捕获有意义的局部对象比例和结构信息,原因分析如下:(1)由于透视投影,远距离和近距离的单眼视图会引起物体比例的显着变化。传统的2D卷积核很难同时处理不同比例的对象(见图2);(2)二维卷积的额局部邻域在丢失深度尺寸的相机平面中定义,在这种像素之间的额距离没有深度的概念的非深度空间中,卷积核无法将对象物体与背景区分开来。在这种情况下,汽车区域和背景区域将被同等对待。
同时,尽管基于伪LiDAR点的方法已经取得了进步,但它们仍然存在两个关键问题。(1)这些方法的性能在很大程度上取决于估计深度图的精度(如图1 (a) (b) 所示),从单眼图像中提取的深度图通常很粗糙(使用它们估计的点云的坐标不正确),导致3D预测不准确。换句话说,深度图的准确性限制了3D对象检测的性能。(2) 伪LiDAR方法无法有效地利用从RGB图像中提取的高级语义信息,从而导致许多错误警报。这是因为点云提供了空间信息,但丢失了语义信息。结果,诸如路障,电气盒甚至道路上的灰尘等区域可能会导致错误检测,但是使用RGB图像可以轻松地区分它们。
本文的D4LCN,它的卷积核从深度图生成,并将其局部应用于单个图像样本的每个像素和通道,而不是学习全局核以应用于所有图像。如图二所示:D4LCN将深度图作为指导,以从RGB图像中学习局部动态深度扩展的内核,从而填补2D和3D表示之间的空白。更具体地说,在D4LCN中学习的内核是样本方式的(即示例性内核),位置方式的(即局部卷积)和深度方向的(即深度卷积),其中每个内核都有自己的内核 膨胀率(即不同的示例内核具有不同的接受场)。
图2 不同卷积方法之间的比较。(a)是传统的二维卷积;(b)是在图像的不同区域(切片)上应用多个固定的卷积核。(c)使用深度图为每个像素生成具有相同接收场的动态内核。(d)表示我们的方法,其中滤波器是动态的,深度的,并且对于特征图的每个像素和通道具有自适应的接收场。与(c)相比,使用更少的参数可以更有效地实现它。彩色效果最佳。
主要贡献:(1)提出了一种用于3D对象检测的新颖组件D4LCN,其中深度图指导从单个单眼图像学习动态深度方向局部卷积;(2)我们精心设计了一个基于D4LCN的单阶段3D对象检测框架,以学习更好的3D表示形式,以缩小2D卷积和基于3D点云的操作之间的差距;(3)广泛的实验表明,D4LCN的性能优于最新的单眼3D检测方法,并在KITTI基准测试中排名第一
2 相关工作(Related Work)
1、基于图像的单眼3D检测,2维图像特征难以表达3D结构,所以通过传统的几何约束无法仅从单个单眼图像中恢复对象的准确3D信息。因此,我们的动机是利用深度信息(本质上弥合2D和3D表示之间的差距)来指导学习2D到3D特征表示。
2、基于点云的单眼3D检测,传统是从深度图获得点云表示,并将互补的RGB线索嵌入到生成的点云表示中,这从深度到LIDAR的过程非常依赖深度图的准确性没并且无法利用RGB信息,而我们的方法则将深度图作为指导,以从RGB图像中更好地学习3D表示。
3、基于LiDAR的3D检测,使用LIDAR点云和RGB图像生成特征并使用紧凑的多视图表示对稀疏3D点云进行编码
4、动态网络,我们提出了深度引导的动态膨胀局部卷积网络,以解决与2D卷积相关的两个问题,并缩小2D卷积与基于点云的3D处理之间的差距
3 方法(Methodology)
作为单级3D检测器,我们的框架包含三个关键组件:(1)网络主干网(2)深度引导过滤模块(3)2D-3D检测头。(图3所示)
图3 本文的单眼3D对象检测框架概述 。首先从RGB图像估计深度图,并将其与RGB图像一起用作两分支网络的输入。然后,使用深度引导滤波模块在此处融合每个残差块的两个信息。最后,采用非最大抑制(NMS)的一级检测头进行预测。
3.1 骨干(Backbone)
为了利用深度图作为2D卷积的指导,我们将主干网络公式化为两个分支网络来表现:第一个分支是使用RGB图像的特征提取网络,另一个是滤波器生成网络,使用估计的深度作为输入来生成用于特征提取网络的卷积核,这两个网络分别处理两个输入,并且每个块的输出由深度引导过滤模块合并。特征提取网络的骨干是ResNet-50 [16],没有最终的FC和池化层。两个分支的各块的分支数目相同。
3.2 深度引导过滤模块(DepthGuidedFiltering Module)—Important
传统的2D卷积核无法有效地建模对象的深度相关尺度方差,也无法有效地推断前景像素与背景像素之间的空间关系。另一方面,伪激光雷达表示过分依赖于深度的准确性,并且会丢失RGB信息。为了同时解决这些问题,我们提出了深度引导过滤模块。值得注意的是,通过使用我们的模块,卷积核及其接受场(膨胀)对于不同像素和不同图像通道而言是不同的
由于我们的特征提取网络的内核是由深度图训练和生成的,因此它是特定于样本和特定于位置的,因此可以捕获有意义的局部结构作为点云中基于点的运算符。我们首先将深度卷积的概念引入网络,称为深度局部卷积(DLCN)。通常,深度卷积(DCN)涉及一组全局过滤器,其中每个过滤器仅在其相应的通道上运行,且DLCN需要具有与输入要素图相同大小的本地过滤器特征量。由于生成的过滤器实际上是特征量,一种简单的执行DLCN的方法需要将特征量转换为hn×wn特定位置的滤波器,然后将深度卷积和局部卷积应用于特征图,其中hn和wn是第n层特征图的高度和宽度,由于该实现忽略了相邻像素中的冗余计算,因此将非常耗时。为了减少时间成本,我们使用了shift和按元素乘积运算符,其中shift是零触发器零参数运算,并且按元素乘积要求很少的计算,
和
分别是特征提取网络和过滤器生成网络的输出,其中n是块的索引(请注意,块n对应于ResNet中的conv n+1层),令k表示特征提取网络的内核大小。通过定义移动网格 {(gi, gj)} ,g ∈(int)[1−k/2, k/2−1],包含k*k个元素,对于每个向量(gi,gj),我们将整个特征图 I⊙D 移向(gi,gj)指示的方向和步长,并得到结果:
网络结构(Network)
整个网络分成3个部分,分别是骨干网络(Feature extraction network + Filter generation network)、Depth Guilded Filtering Network、2D-3D detection Header。在整个网络中的工作可以表述为如下:
骨干网络分成 a)Feature extraction network 和 b)Filter generation network ,a)是由原RGB图经过Resnet的2,3,4 block经过卷积操作获得的特征图(feature map),b)是由原RGB图经过“用于单眼深度估计的深度序数回归网络”所估计的一个深度图,并由此深度图作为b)的输入,同样经过3个block后获得深度特征图,b)分支用于产生卷积核,作用于a)的特征图中用于提取特征,在a)中生成的特征图还需经过两个部分,分别是 对nf个通道上作用的Shift-Pooling和用于生成不同膨胀率的权重的Adaptive weights(自适应权重,权重表示为A1,A2,A3),对应卷积核的膨胀率为1,2,3,卷积核大小采用的也是33,然后产生的卷积核经过shift操作以及与特征图进行逐元素相积的操作获得转化后结合的特征图I’,将I’经过连个11的卷积运算可以获得5种不同的信息输出:
2D bbox(bounding box)–[x’,y’,w’,h’]2D,x’,y’表示检测到物体的盒图的中心坐标x’,y’;w’,h’分别表示此盒图的高于宽。
3D shape–[w’,h’,l’]3D:对应目目标的高度宽度和深度。
3D center–[x’,y’]p,z’ 3D,[x’,y’]p指2D平面中3D角的位置上,也就是坐标(x’,y’,z’)
3D rotation:3D物体的旋转角度
3D corners x’(m),y’(m),z’(m):检测出的3D图的8个角的位置
细节(details)
shift-pooling:
shift-convloutional
实验结果(Experiment Result)