用于单眼3D物体检测的可学习深度引导卷积

最新推荐文章于 2024-12-28 10:12:50 发布

菜根檀

最新推荐文章于 2024-12-28 10:12:50 发布

阅读量1.7k

点赞数 1

分类专栏： CVPR Saliency 文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/cangafuture/article/details/108673230

版权

Saliency 同时被 2 个专栏收录

13 篇文章

订阅专栏

CVPR

3 篇文章

订阅专栏

文献：Learning Depth-Guided Convolutions for Monocular 3D Object

摘要(Abstract)

因为缺少准确的深度信息，没有LiDAR(三维激光扫描技术)时对一幅图进行3D物体检测是一项具有挑战的任务，由于不能捕获局部特征和大规模信息，传统的二维卷积不能完成这项任务（3D物体检测）。在当下，为了更好地表示3D结构，目前的方法是将2维图像所估算的深度图转换为一种伪装的LIDAR（pseudo-LiDAR）表示，然后将此pseudo-LIDAR应用与现有的基于3D点云（3D point cloud）的对象检测方法(existing3D point-cloud based object detectors.),但是，它们的结果在很大程度上取决于估计的深度图的准确性，导致性能欠佳.在本文中中，我们不是使用伪LiDAR表示，而是通过一个新的局部卷积网络(LCN)，称为深度引导动态扩展LCN（Depth-guidedDynamic-Depthwise-Dilated LCN）缩写是D4LCN,它可以从基于图像的深度图中自动获悉卷积核及其接收场，使不同图像的不同像素具有不同的滤镜。D4LCN克服了传统2D卷积的局限性，缩小了图像表示和3D点云表示之间的差距。大量实验表明，D4LCN在很大程度上优于现有方法。

1 介绍(Introduction)

但是使用LiDAR也有一些缺点，比如成本高和输出的图的信息比较稀疏，所以我们希望能找到比LiDAR更便宜的替代品，如单眼相机。尽管目前对该问题引起了很大关注，但是在很大程度上仍然未解决。

目前对上述问题的解决主要聚焦在两个部分，基于图像的方法和基于伪LiDAR点的方法。基于图像的方法通常利用几何约束，包括对象形状，地平面和关键点，将这些约束条件公式化为损失函数中的不同术语，以改善检测结果。基于伪LiDAR点的方法将从2D图像估计的深度图转换为点云表示，以模拟LiDAR信号。如图1所示，这两种方法都有缺点，导致性能欠佳。

在这里插入图片描述
图1（a）和（b）分别显示了由监督深度估计器DONN和无监督Monodepth(单深度)生成的伪LiDAR点。绿色框代表groundtruth（GT）3D框。如图（b）所示，由不正确的深度生成的伪LiDAR点具有与GT框对应的较大偏移。（c）和（d）显示了我们的方法和Pseudo-Lidar [通过使用粗略深度图的检测结果。 Pseudo-Lidar的性能在很大程度上取决于估计的深度图的准确性，而当缺少精确的深度图时，我们的方法可以获得准确的检测结果。

简单来说，基于图像的方法通常无法捕获有意义的局部对象比例和结构信息，原因分析如下：（1）由于透视投影，远距离和近距离的单眼视图会引起物体比例的显着变化。传统的2D卷积核很难同时处理不同比例的对象（见图2）；（2）二维卷积的额局部邻域在丢失深度尺寸的相机平面中定义，在这种像素之间的额距离没有深度的概念的非深度空间中，卷积核无法将对象物体与背景区分开来。在这种情况下，汽车区域和背景区域将被同等对待。

同时，尽管基于伪LiDAR点的方法已经取得了进步，但它们仍然存在两个关键问题。（1）这些方法的性能在很大程度上取决于估计深度图的精度（如图1 (a) (b) 所示），从单眼图像中提取的深度图通常很粗糙（使用它们估计的点云的坐标不正确），导致3D预测不准确。换句话说，深度图的准确性限制了3D对象检测的性能。(2) 伪LiDAR方法无法有效地利用从RGB图像中提取的高级语义信息，从而导致许多错误警报。这是因为点云提供了空间信息，但丢失了语义信息。结果，诸如路障，电气盒甚至道路上的灰尘等区域可能会导致错误检测，但是使用RGB图像可以轻松地区分它们。
本文的D4LCN，它的卷积核从深度图生成，并将其局部应用于单个图像样本的每个像素和通道，而不是学习全局核以应用于所有图像。如图二所示：D4LCN将深度图作为指导，以从RGB图像中学习局部动态深度扩展的内核，从而填补2D和3D表示之间的空白。更具体地说，在D4LCN中学习的内核是样本方式的（即示例性内核），位置方式的（即局部卷积）和深度方向的（即深度卷积），其中每个内核都有自己的内核 膨胀率（即不同的示例内核具有不同的接受场）。

在这里插入图片描述
图2 不同卷积方法之间的比较。(a)是传统的二维卷积；(b)是在图像的不同区域（切片）上应用多个固定的卷积核。（c）使用深度图为每个像素生成具有相同接收场的动态内核。（d）表示我们的方法，其中滤波器是动态的，深度的，并且对于特征图的每个像素和通道具有自适应的接收场。与（c）相比，使用更少的参数可以更有效地实现它。彩色效果最佳。

主要贡献：（1）提出了一种用于3D对象检测的新颖组件D4LCN，其中深度图指导从单个单眼图像学习动态深度方向局部卷积；（2）我们精心设计了一个基于D4LCN的单阶段3D对象检测框架，以学习更好的3D表示形式，以缩小2D卷积和基于3D点云的操作之间的差距；（3）广泛的实验表明，D4LCN的性能优于最新的单眼3D检测方法，并在KITTI基准测试中排名第一

2 相关工作(Related Work)

1、基于图像的单眼3D检测，2维图像特征难以表达3D结构，所以通过传统的几何约束无法仅从单个单眼图像中恢复对象的准确3D信息。因此，我们的动机是利用深度信息（本质上弥合2D和3D表示之间的差距）来指导学习2D到3D特征表示。

2、基于点云的单眼3D检测，传统是从深度图获得点云表示，并将互补的RGB线索嵌入到生成的点云表示中，这从深度到LIDAR的过程非常依赖深度图的准确性没并且无法利用RGB信息，而我们的方法则将深度图作为指导，以从RGB图像中更好地学习3D表示。

3、基于LiDAR的3D检测，使用LIDAR点云和RGB图像生成特征并使用紧凑的多视图表示对稀疏3D点云进行编码

4、动态网络，我们提出了深度引导的动态膨胀局部卷积网络，以解决与2D卷积相关的两个问题，并缩小2D卷积与基于点云的3D处理之间的差距

3 方法（Methodology）

作为单级3D检测器，我们的框架包含三个关键组件：（1）网络主干网（2）深度引导过滤模块（3）2D-3D检测头。（图3所示）

在这里插入图片描述
图3 本文的单眼3D对象检测框架概述。首先从RGB图像估计深度图，并将其与RGB图像一起用作两分支网络的输入。然后，使用深度引导滤波模块在此处融合每个残差块的两个信息。最后，采用非最大抑制（NMS）的一级检测头进行预测。

3.1 骨干（Backbone）

为了利用深度图作为2D卷积的指导，我们将主干网络公式化为两个分支网络来表现：第一个分支是使用RGB图像的特征提取网络，另一个是滤波器生成网络，使用估计的深度作为输入来生成用于特征提取网络的卷积核，这两个网络分别处理两个输入，并且每个块的输出由深度引导过滤模块合并。特征提取网络的骨干是ResNet-50 [16]，没有最终的FC和池化层。两个分支的各块的分支数目相同。

3.2 深度引导过滤模块（DepthGuidedFiltering Module）—Important

传统的2D卷积核无法有效地建模对象的深度相关尺度方差，也无法有效地推断前景像素与背景像素之间的空间关系。另一方面，伪激光雷达表示过分依赖于深度的准确性，并且会丢失RGB信息。为了同时解决这些问题，我们提出了深度引导过滤模块。值得注意的是，通过使用我们的模块，卷积核及其接受场（膨胀）对于不同像素和不同图像通道而言是不同的
由于我们的特征提取网络的内核是由深度图训练和生成的，因此它是特定于样本和特定于位置的，因此可以捕获有意义的局部结构作为点云中基于点的运算符。我们首先将深度卷积的概念引入网络，称为深度局部卷积（DLCN）。通常，深度卷积（DCN）涉及一组全局过滤器，其中每个过滤器仅在其相应的通道上运行，且DLCN需要具有与输入要素图相同大小的本地过滤器特征量。由于生成的过滤器实际上是特征量，一种简单的执行DLCN的方法需要将特征量转换为hn×wn特定位置的滤波器，然后将深度卷积和局部卷积应用于特征图，其中hn和wn是第n层特征图的高度和宽度，由于该实现忽略了相邻像素中的冗余计算，因此将非常耗时。为了减少时间成本，我们使用了shift和按元素乘积运算符，其中shift是零触发器零参数运算，并且按元素乘积要求很少的计算，

在这里插入图片描述
和

分别是特征提取网络和过滤器生成网络的输出，其中n是块的索引（请注意，块n对应于ResNet中的conv n+1层），令k表示特征提取网络的内核大小。通过定义移动网格 {(gi, gj)} ，g ∈(int)[1−k/2, k/2−1]，包含k*k个元素，对于每个向量（gi，gj），我们将整个特征图 I⊙D 移向（gi，gj）指示的方向和步长，并得到结果：

在这里插入图片描述

网络结构(Network)
在这里插入图片描述

整个网络分成3个部分，分别是骨干网络(Feature extraction network + Filter generation network)、Depth Guilded Filtering Network、2D-3D detection Header。在整个网络中的工作可以表述为如下：

骨干网络分成 a）Feature extraction network 和 b）Filter generation network ，a）是由原RGB图经过Resnet的2,3,4 block经过卷积操作获得的特征图（feature map），b）是由原RGB图经过“用于单眼深度估计的深度序数回归网络”所估计的一个深度图，并由此深度图作为b）的输入，同样经过3个block后获得深度特征图，b）分支用于产生卷积核，作用于a）的特征图中用于提取特征，在a）中生成的特征图还需经过两个部分，分别是对nf个通道上作用的Shift-Pooling和用于生成不同膨胀率的权重的Adaptive weights（自适应权重，权重表示为A1,A2,A3），对应卷积核的膨胀率为1，2，3，卷积核大小采用的也是33，然后产生的卷积核经过shift操作以及与特征图进行逐元素相积的操作获得转化后结合的特征图I’，将I’经过连个11的卷积运算可以获得5种不同的信息输出:
2D bbox(bounding box)–[x’,y’,w’,h’]2D,x’,y’表示检测到物体的盒图的中心坐标x’,y’；w’,h’分别表示此盒图的高于宽。
3D shape–[w’,h’,l’]3D：对应目目标的高度宽度和深度。

3D center–[x’,y’]p,z’ 3D，[x’,y’]p指2D平面中3D角的位置上，也就是坐标(x’,y’,z’)
3D rotation：3D物体的旋转角度

3D corners x’(m),y’(m),z’(m)：检测出的3D图的8个角的位置