用于单眼3D物体检测的可学习深度引导卷积

​摘要(Abstract)

因为缺少准确的深度信息,没有LiDAR(三维激光扫描技术)时对一幅图进行3D物体检测是一项具有挑战的任务,由于不能捕获局部特征和大规模信息,传统的二维卷积不能完成这项任务(3D物体检测)。在当下,为了更好地表示3D结构,目前的方法是将2维图像所估算的深度图转换为一种伪装的LIDAR(pseudo-LiDAR)表示,然后将此pseudo-LIDAR应用与现有的基于3D点云(3D point cloud)的对象检测方法(existing3D point-cloud based object detectors.),但是,它们的结果在很大程度上取决于估计的深度图的准确性,导致性能欠佳.在本文中中,我们不是使用伪LiDAR表示,而是通过一个新的局部卷积网络(LCN),称为深度引导动态扩展LCN(Depth-guidedDynamic-Depthwise-Dilated LCN)缩写是D4LCN,它可以从基于图像的深度图中自动获悉卷积核及其接收场,使不同图像的不同像素具有不同的滤镜。D4LCN克服了传统2D卷积的局限性,缩小了图像表示和3D点云表示之间的差距。大量实验表明,D4LCN在很大程度上优于现有方法。

1 介绍(Introduction)

但是使用LiDAR也有一些缺点,比如成本高和输出的图的信息比较稀疏,所以我们希望能找到比LiDAR更便宜的替代品,如单眼相机。尽管目前对该问题引起了很大关注,但是在很大程度上仍然未解决。

目前对上述问题的解决主要聚焦在两个部分,基于图像的方法和基于伪LiDAR点的方法。基于图像的方法通常利用几何约束,包括对象形状,地平面和关键点,将这些约束条件公式化为损失函数中的不同术语,以改善检测结果。基于伪LiDAR点的方法将从2D图像估计的深度图转换为点云表示,以模拟LiDAR信号。如图1所示,这两种方法都有缺点,导致性能欠佳。

在这里插入图片描述
图1(a)和(b)分别显示了由监督深度估计器DONN和无监督Monodepth(单深度)生成的伪LiDAR点。绿色框代表groundtruth(GT)3D框。如图(b)所示,由不正确的深度生成的伪LiDAR点具有与GT框对应的较大偏移。(c)和(d)显示了我们的方法和Pseudo-Lidar [通过使用粗略深度图的检测结果。 Pseudo-Lidar的性能在很大程度上取决于估计的深度图的准确性,而当缺少精确的深度图时,我们的方法可以获得准确的检测结果。

简单来说,基于图像的方法通常无法捕获有意义的局部对象比例和结构信息,原因分析如下:(1)由于透视投影,远距离和近距离的单眼视图会引起物体比例的显着变化。传统的2D卷积核很难同时处理不同比例的对象(见图2);(2)二维卷积的额局部邻域在丢失深度尺寸的相机平面中定义,在这种像素之间的额距离没有深度的概念的非深度空间中,卷积核无法将对象物体与背景区分开来。在这种情况下,汽车区域和背景区域将被同等对待。

同时,尽管基于伪LiDAR点的方法已经取得了进步,但它们仍然存在两个关键问题。(1)这些方法的性能在很大程度上取决于估计深度图的精度(如图1 (a) (b) 所示),从单眼图像中提取的深度图通常很粗糙(使用它们估计的点云的坐标不正确),导致3D预测不准确。换句话说,深度图的准确性限制了3D对象检测的性能。(2) 伪LiDAR方法无法有效地利用从RGB图像中提取的高级语义信息,从而导致许多错误警报。这是因为点云提供了空间信息,但丢失了语义信息。结果,诸如路障,电气盒甚至道路上的灰尘等区域可能会导致错误检测,但是使用RGB图像可以轻松地区分它们。
本文的D4LCN,它的卷积核从深度图生成,并将其局部应用于单个图像样本的每个像素和通道,而不是学习全局核以应用于所有图像。如图二所示:D4LCN将深度图作为指导,以从RGB图像中学习局部动态深度扩展的内核,从而填补2D和3D表示之间的空白。更具体地说,在D4LCN中学习的内核是样本方式的(即示例性内核),位置方式的(即局部卷积)和深度方向的(即深度卷积),其中每个内核都有自己的内核 膨胀率(即不同的示例内核具有不同的接受场)。

在这里插入图片描述
图2 不同卷积方法之间的比较。(a)是传统的二维卷积;(b)是在图像的不同区域(切片)上应用多个固定的卷积核。(c)使用深度图为每个像素生成具有相同接收场的动态内核。(d)表示我们的方法,其中滤波器是动态的,深度的,并且对于特征图的每个像素和通道具有自适应的接收场。与(c)相比,使用更少的参数可以更有效地实现它。彩色效果最佳。

主要贡献:(1)提出了一种用于3D对象检测的新颖组件D4LCN,其中深度图指导从单个单眼图像学习动态深度方向局部卷积;(2)我们精心设计了一个基于D4LCN的单阶段3D对象检测框架,以学习更好的3D表示形式,以缩小2D卷积和基于3D点云的操作之间的差距;(3)广泛的实验表明,D4LCN的性能优于最新的单眼3D检测方法,并在KITTI基准测试中排名第一

2 相关工作(Related Work)

1、基于图像的单眼3D检测,2维图像特征难以表达3D结构,所以通过传统的几何约束无法仅从单个单眼图像中恢复对象的准确3D信息。因此,我们的动机是利用深度信息(本质上弥合2D和3D表示之间的差距)来指导学习2D到3D特征表示。

2、基于点云的单眼3D检测,传统是从深度图获得点云表示,并将互补的RGB线索嵌入到生成的点云表示中,这从深度到LIDAR的过程非常依赖深度图的准确性没并且无法利用RGB信息,而我们的方法则将深度图作为指导,以从RGB图像中更好地学习3D表示。

3、基于LiDAR的3D检测,使用LIDAR点云和RGB图像生成特征并使用紧凑的多视图表示对稀疏3D点云进行编码

4、动态网络,我们提出了深度引导的动态膨胀局部卷积网络,以解决与2D卷积相关的两个问题,并缩小2D卷积与基于点云的3D处理之间的差距

3 方法(Methodology)

作为单级3D检测器,我们的框架包含三个关键组件:(1)网络主干网(2)深度引导过滤模块(3)2D-3D检测头。(图3所示)

在这里插入图片描述
图3 本文的单眼3D对象检测框架概述 。首先从RGB图像估计深度图,并将其与RGB图像一起用作两分支网络的输入。然后,使用深度引导滤波模块在此处融合每个残差块的两个信息。最后,采用非最大抑制(NMS)的一级检测头进行预测。

3.1 骨干(Backbone)

为了利用深度图作为2D卷积的指导,我们将主干网络公式化为两个分支网络来表现:第一个分支是使用RGB图像的特征提取网络,另一个是滤波器生成网络,使用估计的深度作为输入来生成用于特征提取网络的卷积核,这两个网络分别处理两个输入,并且每个块的输出由深度引导过滤模块合并。特征提取网络的骨干是ResNet-50 [16],没有最终的FC和池化层。两个分支的各块的分支数目相同。

3.2 深度引导过滤模块(DepthGuidedFiltering Module)—Important

传统的2D卷积核无法有效地建模对象的深度相关尺度方差,也无法有效地推断前景像素与背景像素之间的空间关系。另一方面,伪激光雷达表示过分依赖于深度的准确性,并且会丢失RGB信息。为了同时解决这些问题,我们提出了深度引导过滤模块。值得注意的是,通过使用我们的模块,卷积核及其接受场(膨胀)对于不同像素和不同图像通道而言是不同的
由于我们的特征提取网络的内核是由深度图训练和生成的,因此它是特定于样本和特定于位置的,因此可以捕获有意义的局部结构作为点云中基于点的运算符。我们首先将深度卷积的概念引入网络,称为深度局部卷积(DLCN)。通常,深度卷积(DCN)涉及一组全局过滤器,其中每个过滤器仅在其相应的通道上运行,且DLCN需要具有与输入要素图相同大小的本地过滤器特征量。由于生成的过滤器实际上是特征量,一种简单的执行DLCN的方法需要将特征量转换为hn×wn特定位置的滤波器,然后将深度卷积和局部卷积应用于特征图,其中hn和wn是第n层特征图的高度和宽度,由于该实现忽略了相邻像素中的冗余计算,因此将非常耗时。为了减少时间成本,我们使用了shift和按元素乘积运算符,其中shift是零触发器零参数运算,并且按元素乘积要求很少的计算,

在这里插入图片描述

在这里插入图片描述
分别是特征提取网络和过滤器生成网络的输出,其中n是块的索引(请注意,块n对应于ResNet中的conv n+1层),令k表示特征提取网络的内核大小。通过定义移动网格 {(gi, gj)} ,g ∈(int)[1−k/2, k/2−1],包含k*k个元素,对于每个向量(gi,gj),我们将整个特征图 I⊙D 移向(gi,gj)指示的方向和步长,并得到结果:

在这里插入图片描述

网络结构(Network)
在这里插入图片描述

整个网络分成3个部分,分别是骨干网络(Feature extraction network + Filter generation network)、Depth Guilded Filtering Network、2D-3D detection Header。在整个网络中的工作可以表述为如下:

骨干网络分成 a)Feature extraction network 和 b)Filter generation network ,a)是由原RGB图经过Resnet的2,3,4 block经过卷积操作获得的特征图(feature map),b)是由原RGB图经过“用于单眼深度估计的深度序数回归网络”所估计的一个深度图,并由此深度图作为b)的输入,同样经过3个block后获得深度特征图,b)分支用于产生卷积核,作用于a)的特征图中用于提取特征,在a)中生成的特征图还需经过两个部分,分别是 对nf个通道上作用的Shift-Pooling和用于生成不同膨胀率的权重的Adaptive weights(自适应权重,权重表示为A1,A2,A3),对应卷积核的膨胀率为1,2,3,卷积核大小采用的也是33,然后产生的卷积核经过shift操作以及与特征图进行逐元素相积的操作获得转化后结合的特征图I’,将I’经过连个11的卷积运算可以获得5种不同的信息输出:
2D bbox(bounding box)–[x’,y’,w’,h’]2D,x’,y’表示检测到物体的盒图的中心坐标x’,y’;w’,h’分别表示此盒图的高于宽。
3D shape–[w’,h’,l’]3D:对应目目标的高度宽度和深度。

3D center–[x’,y’]p,z’ 3D,[x’,y’]p指2D平面中3D角的位置上,也就是坐标(x’,y’,z’)
3D rotation:3D物体的旋转角度

3D corners x’(m),y’(m),z’(m):检测出的3D图的8个角的位置

细节(details)

shift-pooling:

在这里插入图片描述

shift-convloutional

在这里插入图片描述

实验结果(Experiment Result)

在这里插入图片描述
在这里插入图片描述

启发

**可以适用于伪装物体检测以及学习RGBD**
目标检测(Object Detection)是计算机视觉领域的一个核心问题,其主要任务是找出图像中所有感兴趣的目标(物体),并确定它们的类别和位置。以下是对目标检测的详细阐述: 一、基本概念 目标检测的任务是解决“在哪里?是什么?”的问题,即定位出图像中目标的位置并识别出目标的类别。由于各类物体具有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具挑战性的任务之一。 二、核心问题 目标检测涉及以下几个核心问题: 分类问题:判断图像中的目标属于哪个类别。 定位问题:确定目标在图像中的具体位置。 大小问题:目标可能具有不同的大小。 形状问题:目标可能具有不同的形状。 三、算法分类 基于深度学习的目标检测算法主要分为两大类: Two-stage算法:先进行区域生成(Region Proposal),生成有可能包含待检物体的预选框(Region Proposal),再通过卷积神经网络进行样本分类。常见的Two-stage算法包括R-CNN、Fast R-CNN、Faster R-CNN等。 One-stage算法:不用生成区域提议,直接在网络中提取特征来预测物体分类和位置。常见的One-stage算法包括YOLO系列(YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5等)、SSD和RetinaNet等。 四、算法原理 以YOLO系列为例,YOLO将目标检测视为回归问题,将输入图像一次性划分为多个区域,直接在输出层预测边界框和类别概率。YOLO采用卷积网络来提取特征,使用全连接层来得到预测值。其网络结构通常包含多个卷积层和全连接层,通过卷积层提取图像特征,通过全连接层输出预测结果。 五、应用领域 目标检测技术已经广泛应用于各个领域,为人们的生活带来了极大的便利。以下是一些主要的应用领域: 安全监控:在商场、银行
D4LCN深度引导动态依赖扩张局部卷积网络)算法通过一种创新的方法整合了深度信息,以提高单目3D目标检测的精度。在传统的单目3D目标检测方法中,深度信息通常需要通过一个中间步骤进行估计,并转换为伪LiDAR表示,这一过程可能导致信息的损失和不准确性。而D4LCN则采用了一种深度引导的局部卷积网络,直接在2D图像上操作,使网络能够根据图像中的深度信息自适应地调整其滤波器和感受野。这种自适应能力允许算法更精确地捕捉到3D空间结构,从而有效地提升了目标检测的精度。 参考资源链接:[深度引导D4LCN:单目3D目标检测的新突破](https://wenku.csdn.net/doc/5cct8z1rie) 具体来说,D4LCN的关键技术包括以下几个方面: 1. 动态依赖扩张(Dynamic Dependency Expansion, DDE):在传统的卷积操作中,滤波器在空间上是固定的,而DDE允许滤波器根据深度信息动态调整其大小和形状。这种机制使得滤波器能够更灵活地捕捉到不同深度下的局部特征,从而更好地适应3D场景。 2. 深度引导的局部卷积核(Depth-Guided Local Convolutional Kernel, LCN):LCN是D4LCN的核心,它通过深度信息来指导局部卷积核的学习。卷积核在处理不同深度的像素时会根据其深度值进行动态变化,这样可以更精确地反映物体3D结构。 3. 深度图生成和融合:D4LCN需要一个深度图作为输入,深度图可以由深度学习模型预训练得到。算法利用这个深度图来引导局部卷积核的学习过程,并与图像特征进行融合,以增强网络对3D空间的理解。 4. 损失函数的设计:为了同时优化深度估计和目标检测的任务,D4LCN采用了一个多任务学习的框架,并设计了相应的损失函数来平衡两个任务的贡献,从而提升模型的整体性能。 在实现上,D4LCN通过端到端的训练流程,将深度信息的提取与目标检测的任务紧密结合。通过利用深度信息引导卷积核的学习,D4LCN能够有效地提高检测精度,尤其是在复杂的3D场景中。结合《深度引导D4LCN:单目3D目标检测的新突破》一书,你可以获得D4LCN算法的详细介绍和深度学习实现的指导,这些内容不仅涉及了理论基础,还包括了实践中的具体应用和优化策略。通过深入学习该书中的内容,你将能够全面掌握D4LCN的工作原理,并能够在实际项目中有效地应用这一技术。 参考资源链接:[深度引导D4LCN:单目3D目标检测的新突破](https://wenku.csdn.net/doc/5cct8z1rie)
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值