论文阅读笔记——Stereo R-CNN based 3D Object Detection for Autonomous Driving

首先,这篇文章是2019年很新颖的一篇文章,利用双目信息做3D目标检测,因为传统方法是用雷达和单目等去做,而这篇文章把双目信息,目标检测,对极几何等知识结合,提出了很新颖的检测思路,这是很值得我们关注的一点,也是一个更加符合人类思考流程的监测网络结构。

亮点总结:

  1. Stereo R-CNN方法,并同时检测,关联左右目图像中的对象。
  2. 利用关键点和双目 Box 约束,形成一个3D Box 估计器。
  3. 基于密集区域的光度对准方法,可确保我们的3D对象定位精度。
  4. 对KITTI数据集的评估表明,我们的表现优于所有最先进的基于图像的方法,甚至可以与基于LiDAR的方法相媲美[16]。

本篇文章以机翻为主,人工辅助翻译辅助,因为看到目前几篇翻译,实在是太烂了,就来翻译一把,加上自己做双目视觉的一些理解,希望对大家有帮助。

文章来自DJI与港科大合作的文章,应该是两者的联合实验室所出,作者分别是li peiliang,陈晓智 @陈晓智(DJI,MV3D的作者)和港科大的shenshaojie老师。

论文链接:https://arxiv.org/pdf/1902.09738.pdf

代码链接:https://github.com/HaixiongLi/Stereo-RCNN

摘要:

我们通过充分利用双目图像中的稀疏,密集的语义和几何信息,提出了一种用于自动驾驶的三维物体检测方法。我们的方法,称为Stereo R-CNN,扩展了更快的R-CNN用于双目图像输入,以同时检测和关联左右图像中的对象。在双目区域提议网络(RPN)后,增加了一个额外的分支,用于预测稀疏关键点,视点和对象维度,这些关键点与2D左右图像中的框组合用来计算一个粗糙的 3D对象边界框。然后,我们通过使用左右图像中,校准后的区域进行双目匹配,来恢复精确的3D边界框。我们的方法不需要深度输入和3D位置,但是,优于所有现有的完全监督的基于图像的方法。在具有挑战性的KITTI数据集上的实验表明,我们的方法在3D检测和3D定位任务上的性能优于最先进的立体定向方法约30%AP。代码已发布于https://github.com/HKUST-Aerial-Robotics/Stereo-RCNN。

  • 简介:

3D物体检测是视觉感知,运动预测和自动驾驶规划的重要基础。 目前,大多数3D对象检测方法[5,23,31,13,18]严重依赖于LiDAR数据,以在自动驾驶场景中提供准确的深度信息。 然而,LiDAR具有成本高,感知范围相对较短(100米)和信息稀疏(32,64线与> 720p图像相比)的缺点。 另一方面,单目相机为3D物体检测提供了替代的低成本解决方案[3,21,27]。 深度信息可以通过场景中的语义属性和对象大小等来预测。然而,单目推断的深度不能保证准确性,尤其是对于看不见的场景。 为此,我们提出了一种基于立体视觉的3D物体检测方法。与单目相机相比,双目立体相机通过左右光度校准可以提供更精确的深度信息。 与LiDAR相比,立体相机成本低,同时对于显著性逐不强的物体,实现了相对高的深度精度。 立体相机的感知范围取决于焦距和基线。 因此,立体视觉具有通过组合具有不同焦距和基线,可以让不同双目模块来提供更大范围感知的潜在能力。(这块个人认为是一个以后的研究点)

在这项工作中,我们通过充分利用双目图像中的语义和几何信息,来研究三维物体的稀疏和密集约束,并提出一种精确的基于立体R-CNN的三维物体检测方法。我们的方法使用所提出的Stereo R-CNN可以同时检测并关联左右图像的对象。网络架构在图1中概述,整体网络可以分为三个主要部分。第一个是Stereo RPN模块(第3.1节),它输出相应的左右RoI提议。分别在左右特征图上应用RoIAlign [8],第二,我们将left和right RoI特征连接起来以对对象类别进行分类,并在双目回归(这块主要用的是视察回归,如果看不懂,可以去看看主流的双目的paper)(第3.2节)分支中回归准确的2D立体框,视点和尺寸。第三,使用关键点(第3.2节)分支时,仅使用左目图像的RoI特征来预测对象关键点。这些输出形成用于3D盒估计的稀疏约束(2D框,关键点)(第4节),其中我们制定具有2D左右框和关键点的3D框角之间的投影关系。

关键组件是,确保在稠密的的3D Box 对齐中的3D定位性能的(第5节)。 我们将3D目标定位视为学习辅助几何问题(这是本文的关键),而不是端到端回归问题。 我们将对象RoI视为整体而不是独立像素,而不是直接使用不明确对象属性的,深度输入[4,27]。 对于规则形状的物体,可以在给定粗糙3D边界框的情况下推断每个像素与3D中心之间的深度关系。 我们根据它们与3D物体中心的深度关系将左RoI中的密集像素扭曲到右图像,以找到最小化整个光度误差的最佳中心深度。 因此,整个对象RoI形成用于3D对象深度估计的密集约束。 根据对准的深度和2D测量,使用3D盒估计器(第4节)进一步校正3D盒。 我们总结了我们的主要贡献如下:

  1. Stereo R-CNN方法,并同时检测,关联左右目图像中的对象。
  2. 利用关键点和双目 Box 约束,形成一个3D Box 估计器。
  3. 基于密集区域的光度对准方法,可确保我们的3D对象定位精度。
  4. 对KITTI数据集的评估表明,我们的表现优于所有最先进的基于图像的方法,甚至可以与基于LiDAR的方法相媲美[16]。
  • 相关工作:

我们分别简要回顾了基于LiDAR数据,单目图像和立体图像的三维物体检测的最新工作。

基于雷达数据的3D目标检测

大多数最先进的3D物体检测方法依赖于LiDAR来提供准确的3D信息,同时以不同的表示处理原始LiDAR输入。 [5,16,28,18,13]将点云投影到2D鸟瞰图或前视图表示中,并将它们馈入结构化卷积网络,其中[5,18,13]利用RGB图像融合多个LiDAR表示 获取更密集的信息。 [6,26,15,20,31]利用结构化体素网格表示来量化原始点云数据,然后使用2D或3D CNN来检测3D对象,而[20]将多个帧作为输入并生成3D检测, 同时跟踪和运动预测。 另外,[23]不是量化点云,而是直接将原始点云作为输入,基于2D检测和PointNet [24]推理的前面的平的区域,来定位3D对象。

基于单目的3D目标检测

[3]侧重于使用地平面假设,形状先验,上下文特征和单目图像的实例分割生成3D对象的建议。 [21]提出使用2D盒边和3D盒角之间的几何关系来估计3D盒。 [30,1,22]通过预测规则形状车辆的一系列关键点来明确地利用稀疏信息。 可以通过线框模板拟合来约束3D对象姿势。 [27]提出了一种端到端的多级融合方法,通过连接RGB图像和单眼生成的深度图来检测3D对象。 最近,提出了一种逆图形框架[14],用于通过图形渲染和比较来预测3D对象姿势和实例级分割。 然而,基于单眼的方法不可避免地缺乏准确的深度信息。

基于双目的3D 目标检测

令人惊讶的是,只有少数作品利用双目立体视觉进行3D物体检测。 3DOP [4]着重于通过先编码物体大小尺寸,水平先验和深度信息(例如,自由空间,点云密度),编码成能量函数来生成3D建议。 然后使用3D建议,用来回归目标位置和使用R-CNN方法2D框。 [17]将结构从运动(SfM)方法扩展到动态对象案例,并通过融合空间和时间信息,连续跟踪3D对象和自我相机的位姿。 然而,上述方法都没有利用双目立体图像中的密集对象约束。

  • Stereo R-CNN Network 网络结构

在本节中,我们将介绍Stereo R-CNN网络架构。 与单张图片检测器(如Faster R-CNN [25])相比,Stereo R-CNN可以同时检测并关联左右图像的2D边界框,并进行微小修改。 我们使用权重共享ResNet-101 [9]和FPN [19]作为我们的骨干网络来提取左右图像的一致特征。 受益于我们的训练目标设计图2,没有额外的数据关联计算。

3.1. Stereo RPN

区域提议网络(RPN)[25]是基于滑动窗口的前景检测器。 在特征提取之后,利用3 * 3卷积层来减少通道,然后使用两个孪生完全连接的层来对对象进行分类,并对每个输入位置的回归框偏移进行定位,该输入位置有预定义的多尺度框。 与FPN [19]类似,我们修改了原始的RPN,使用金字塔特征,去评估多尺度尺寸的金字塔特征。不同之处在于我们在每个尺度上连接左右特征映射,然后我们将连接的特征提供给Stereo RPN网络。

关键设计使我们的同时进行对象检测和关联,是对象分类器和双目回归器的不同ground-truth(GT)box 分配。 如图2所示,我们将左右GT框的并集(称为联合GT框)指定为对象分类的目标。 如果两个框的并集对一个框的面积(IoU)比率高于0.7,则为这个框分配正标签,如果其任何联合框的IoU低于0.3,则为负标签。 受益于这种设计,正锚定倾向于包含左右物体区域。 我们计算了目标联合GT框中包含的左右GT框的正锚的偏移量,然后分别为左右回归分配偏移量。 双目回归器有六个回归项:[△u;△w;△u0;△w0;△v;△h],我们使用u v表示图像空间中的2D盒中心的水平和垂直坐标,w, h表示框的宽度和高度,上标(*)'表示右图中的相应术语。注意我们使用相同的v,h的偏移,△v,△h在左右图像的包围盒,因为我们使用校正后的双目图像,因此,我们在Stereo RPN回归器中有六个输出通道,而不是原始RPN实现中的四个。 由于左右提议是从同一个锚点生成并共享对象性得分,因此它们可以一个接一个地自然关联。 我们分别在左右RoI上使用非最大抑制(NMS)来减少冗余,然后从左右NMS中保留的条目中选择前2000个候选框进行训练。 为了测试,我们只选择前300名候选框。

3.2双目R-CNN

Stereo Regression:

在Stereo RPN之后,我们有相应的左右提议对。我们分别在适当的金字塔等级上对左右特征图应用RoI Align [8]。左右RoI特征被连接并馈送到两个连续的完全连接的层(每个层后面跟着ReLU层)以提取语义信息。我们使用四个子分支来分别预测对象类,立体边界框,尺寸和视角。框回归术语与Sect 3.1中定义的相同。注意,视点角度不等于从裁剪图像RoI不可观察的物体取向。图3中示出了一个示例,其中我们用来θ表示相对于相机框架的车辆方向,并且β表示相对于相机中心的物体方位角。三辆车具有不同的方向,然而,它们的投影在裁剪的RoI图像上完全相同。因此,我们将视角定义为:α= θ+β。为了避免不连续性,训练目标是[sinα; cosα]对,而不是原始角度值。利用双目box和物体尺寸,可以直观地恢复深度信息,并且还可以通过将视点角度与3D位置之间的关系解耦来解决车辆方向。

当对RoI进行采样时,如果左侧RoI与左侧GT框之间的最大IoU高于0.5,则我们将左右RoI对视为前景,同时右侧RoI与对应的右侧GT框之间的IoU也高于0.5。 如果左RoI或右RoI的最大IoU位于[0.1,0.5)区间,则左右RoI对被视为背景。 对于前景RoI对,我们通过计算左侧RoI与左侧GT框之间的偏移以及右侧RoI与对应的右侧GT框之间的偏移来分配回归目标。 对于左右RoI,我们仍然使用相同的△v;△h。 对于尺寸预测,我们简单地回归ground truth尺寸与预先设定的尺寸之间的偏差。

Keypoint Prediction

除了双目boxs和视角之外,我们注意到在盒子中间投影的3D盒角可以为3D盒估计提供更严格的约束。如图4所示,我们定义了四个3D语义关键点,它们指示3D边界框底部的四个角。只有一个3D语义关键点可以可见地投射到框中间(而不是左边或右边)。我们将此语义关键点的投影定义为透视关键点。我们展示了透视关键点如何在Sect中对3D盒子估计做出贡献。在第四节图5中,我们还预测了两个边界关键点,它们可以作为常规形状对象的实例掩码的简单替代。只有两个边界关键点之间的区域属于当前对象,才会用于进一步的密集对齐(参见第5节)。


我们预测Mask R-CNN [8]中提出的关键点。只有左侧要素图用于关键点预测。我们将14 * 14个RoI对齐特征映射提供给六个连续的256-d 3 * 3卷积层,如图1所示,每个卷层后面跟着一个ReLU层。使用2 * 2反卷积层将输出比例上采样到28 * 28.我们注意到除了2D框之外,只有关键点的u坐标提供了附加信息。为了放松任务,我们将6 * 28 * 28输出中的高度通道相加以产生6 * 28预测。结果,RoI特征中的每一列将被聚合并且有助于关键点预测。前四个通道表示将四个语义关键点中的每一个投影到相应的u位置的概率。另外两个通道分别表示每个u位于左右边界的概率。请注意,四个3D关键点中只有一个可以可见地投影到2D盒中间,因此softmax应用于4 * 28输出,以鼓励将一个独有的语义关键点投影到单个位置。该策略避免了透视关键点类型的可能混淆(对应于语义关键点中的哪一个)。对于左右边界关键点,我们分别在1 * 28输出上应用softmax。
在训练期间,我们将4 * 28 softmax输出上的交叉熵损失最小化,以进行透视关键点预测。只有4 * 28输出中的单个位置被标记为透视关键点目标。我们省略了在框中间没有可见地投射3D语义关键点的情况(例如,截断和正交投影情况)。对于边界关键点,我们独立地最小化两个1 * 28 softmax输出的交叉熵损失。根据GT框之间的遮挡关系,为每个前景RoI分配左右边界关键点。

3D Box Estimation

通过网络回归得到的2D box的dimension,viewpoint,还有keypoint,我们可以通过一定的方式得到3D box的位置。定义3D box的状态x = [x, y, z, θ]。

在本节中,我们通过利用稀疏关键点和2D盒信息来生成粗糙的3D边界框。 3D边界框的状态可以用x = {x,y,z,θ},分别表示3D中心位置和水平方向。给定左右2D框,透视关键点和回归尺寸,可以通过最小化2D框和关键点的重投影误差来解决3D框。如图5所示,我们从立体盒和透视关键点提取七个测量值:z ={ul,vt,ur,vb,vb',ul',ur',up'},分别表示左侧2D框的左侧,顶部,右侧,底部边缘,右侧2D框的左侧,右侧边缘以及透视关键点的u坐标。每个测量由相机内在归一化以简化表示。给定透视关键点,可以推断出3D框角和2D框边之间的对应关系(参见图5中的虚线)。受[17]的启发,我们通过投影变换来制定3D-2D关系。在图5中的这种观点中:

(上图参考知乎https://zhuanlan.zhihu.com/p/58077936

我们使用b来表示立体相机的基线长度,w,H, l表示回归尺寸。对应于七次测量的有七个方程,其中{w/2,l/2}应根据相应的3D盒角适当更改。 截断的边缘被放在上面的七个方程中。 这些多元方程通过Gauss-Newton方法求解。 与[17]中在使用单个2D框和尺寸解决3D位置和方向不同,我们通过联合利用双目立体框和回归尺寸更加稳健地恢复3D深度信息。 在一些情况下,可以完全观察到少于两个侧面并且没有透视关键点(例如,截断,正交投影),取向和尺寸不能从纯几何约束中观察到。 我们使用视角来补偿不可观察的状态(参见图3):

从2D盒子和透视关键点解决,粗糙的3D盒子具有精确的投影并且与图像良好对齐,这使我们能够进一步密集对齐。

Dense 3D Box Alignment——稠密3D box 对齐

左右边界框提供对象级别的视差信息,以便我们可以粗略地解决3D边界框。 然而,通过聚合7*7个RoI特征图中的高级信息来回归双目框。 由于多个卷积滤波器,原始图像中包含的像素级信息(例如,角落,边缘)可能会丢失。 为了实现亚像素级别的匹配精度,我们检索原始图像以利用像素级高分辨率信息。 请注意,我们的任务与像素方差异估计问题不同,其中结果可能遇到不适定区域的不连续性(SGM [10]),或边缘区域的过度平滑(基于CNN的方法[29,12,2])。 我们只使用密集对象补丁来解决3D边界框中心的视差,即我们使用大量像素测量来解决单个变量。

我们将对象作为规则形状的立方体处理,从Sect4解决每个像素与3D边界框的中心之间的深度关系从系。 为了排除一个像素,是属于背景或着其他对象,我们定义了一个有效的RoI,因为该区域位于左右边界关键点之间,位于3D框的下半部分,因为车辆的下半部分适合3D框 更紧密(见图1)。 对于位于左图像的有效RoI中的归一化坐标(ui; vi)的像素,光度误差可以定义为:

这里,使用Il; Ir分别表示左右图像的3通道RGB矢量; △zi =△zi-△z是像素i与3D盒中心的深度差,b表示基线长度。 z是我们想要解决的唯一目标变量。 我们使用双线性插值来获得右图像上的子像素值。 总匹配成本定义为有效RoI中所有像素的平方差(SSD)总和:

中心深度z可以通过最小化总代价成本E来解决,我们可以有效地枚举深度以找到最小化成本的深度。我们最初以0.5米的间隔计算初始值周围的50个深度值以获得粗糙深度,并最终在0.05米间隔的粗糙深度周围列出20个深度值以获得精确对准的深度。然后,我们通过固定对齐的深度,使用我们的3D盒估计器来纠正整个3D盒子(参见表6)。将对象RoI视为几何约束整体,我们的密集对齐方法自然地避免了立体深度估计中的不连续和不适定问题,并且对强度变化和亮度具有鲁棒性,因为有效RoI中的每个像素将对对象的深度估计都有贡献。注意,该方法是有效的并且可以是用于任何基于图像的3D检测的轻量级插件模块,以实现深度校正。尽管3D对象严格地不适合3D立方体,但是由形状变化引起的相对深度误差比全局深度更加微不足道。因此,我们的几何约束密集对齐提供了对象中心的精确深度估计。

6. Implementation Details——实施细节

Network.

 如[25]中所实现的,我们使用{32,64,128,126,512}的五个比例尺度,其中三个比率为{0.5,1,2}。 原始图像在较短的一侧调整为600像素。 对于立体声RPN,由于左右特征映射的连接,我们在实现[19]中的最终分类和回归层中有1024个输入通道而不是512个层。 同样,我们在R-CNN回归头中有512个输入通道。 在Titan Xp GPU上,Stereo R-CNN对一个立体声对的推理时间约为0.28s。

Training. 我们定义多重损失为:

我们使用(*)p,(*)r分别表示RPN和R-CNN,以及下标 box;α;dim; key,分别是双目box,视点,尺寸和关键点。 每个损失都由其后的不确定性加权[11]。 我们翻转并交换左右图像,同时分别镜像视点角度和关键点,形成新的立体图像。 因此,原始数据集加倍,具有不同的训练目标。 在训练期间,我们在每个小批量中保留1个立体对和512个采样的RoI。 我们使用SGD训练网络,重量衰减为0.0005,动量为0.9。 学习率最初设定为0.001,并且每5个时期减少0.1。 我们训练了20个时期,共计2天。

7. Experiments

我们在具有挑战性的KITTI物体检测基准[7]上评估我们的方法。 在[4]之后,我们将7481个训练图像分成训练集和验证集,大小相同。 为了全面评估基于Stereo R-CNN的方法的性能,我们通过与现有技术和自我消融进行比较,使用2D立体回忆,2D检测,立体关联,3D检测和3D定位指标进行实验。 根据KITTI设置的2D盒高,遮挡和截断水平,对象分为三种难度区域:简单,中等和难。

Stereo Recall and Stereo Detection 我们的stereo R-CNN旨在同时检测和关联左右图像的对象。除了评估左右图像上的2D平均回调(AR)和2D平均精度(AP2d)之外,我们还定义了立体声AR和立体声AP度量,其中只有查询立体声盒符合以下条件才能被视为真实正面(TP):
1.带左GT框的左框的最大IoU高于给定的阈值;
2.带有右GT框的右框的最大IoU高于给定的阈值;
3.所选的左右GT框属于同一对象。
stereo AR和stereo AP度量共同评估2D检测和关联性能。如表。如图1所示,我们的Stereo R-CNN在单个图像上具有与更快的R-CNN相似的提议回忆和检测精度,同时在左右图像中产生高质量的数据关联而无需额外的计算。虽然立体声AR略低于RPN中的左AR,但我们在R-C​​NN之后观察到几乎相同的左,右和立体声AP,这表明左右图像上的一致检测性能以及几乎所有真正的正向盒子。左图有相应的正确的右框。我们还测试了左右特征融合的两种策略:元素均值和通道级联。如表1中所述。多通道连接显示更好的性能,因为它保留了所有信息。准确的stereo 检测和关联为3D box 估计提供了足够的盒级约束(第4节)。

 

3D Detection and 3D Localization.我们使用平均精度用于鸟瞰图(APbv)和3D盒(AP3d)来评估我们的3D检测和3D定位性能。结果显示在表1中。我们的方法在大范围内优于最先进的基于单眼的方法[3,21,27]和立体方法[4]。具体来说,我们在简单和适度的套装中,对于APbv和AP3d,我们的3DOP [4]超过30%。对于硬盘,我们实现了25%的改进。虽然Multi-Fusion [27]在立体声输入方面取得了显着的进步,但它仍然比我们在中等集合中的几何方法报告的APbv和AP3d要低得多。由于将我们的方法与基于LiDAR的方法进行比较是不公平的,我们仅列出一个基于LiDAR的方法VeloFCN [16]作为参考,其中我们在中等集合中使用IoU = 0.5优于10%APbv和AP3d。我们还报告了表3中KITTI测试集的评估结果。详细的表现可以在网上找到。 


请注意,KITTI 3D检测基准测试很难用于基于图像的方法,随着物体距离的增加,3D性能会逐渐降低。在图7中可以直观地观察到这种现象,尽管我们的方法实现了子像素视差估计(小于0.5像素),但是由于视差和深度之间的反比关系,随着物距增加,深度误差变得更大。对于具有明显差异的对象,我们基于严格的几何约束实现高精度的深度估计。这就解释了为什么更高的IoU阈值,对象所属的更容易的制度,与其他方法相比,我们获得了更多的改进。

Benefits of the Keypoint. 我们利用3D盒估计器(第4节)计算粗糙的3D盒子,并在密集对齐后校正实际的3D盒子。 因此,精确的3D盒估计器对于最终的3D检测是重要的。 为了研究3D盒估计器的关键点的好处,我们在不使用关键点的情况下评估3D检测和3D定位性能,其中我们使用回归视点来确定3D盒角和2D盒边缘之间的关系,并使用Eq。 2约束所有对象的3D方向。 如表中所述。 如表5所示,关键点的使用通过非平凡边缘改善所有难度制度下的APbv和AP3D。 由于关键点除了2D盒级测量之外还为3D盒角提供像素级约束,因此它可确保更准确的本地化性能。

Benefits of the Dense Alignment. 该实验显示了密集对齐带来的显着改进。 我们评估粗3D盒(无对齐)的3D性能,其深度信息是根据盒级视差和2D盒尺寸计算的。 即使1像素视差或2D盒子错误也会导致远距离物体的大距离误差。 结果,虽然粗糙的3D盒子在图像上具有我们预期的精确投影,但它对于3D定位来说不够准确。 详细统计数据可在表格中找到。 6.使用密集对齐恢复对象深度并简单缩放x后; y(w / Alignment,没有3D纠正),我们获得了所有指标的重大改进。 此外,当我们使用盒估计器(第4节)通过固定对准的深度来校正整个3D盒时,3D定位和3D检测性能进一步提高了几个点。

Ablation Study.

我们采用两种策略来提升我们的模型性能。为了验证每种策略的贡献,我们使用不同的组合进行实验并评估检测和定位性能。如表。如图4所示,我们使用Flip和Uncert来表示所提出的立体声翻转增强和多重损失的不确定性权重[11]。没有花里胡哨,我们已经超越了所有最先进的基于图像的方法。每种策略都会进一步提升我们的网络性能几点。详细的贡献可以在表格4中找到.使用不确定性权重平衡多任务损失会在3D检测和本地化任务中产生非平凡的改进。通过立体声翻转增强,翻转和交换左右图像,并且还分别改变透视关键点和视点的训练目标。因此,训练集加倍,具有不同的输入和训练目标。将两种策略结合在一起,我们的方法在3D检测和3D定位任务中获得了非常有前途的性能(表2)。

Qualitative Results. 我们在图6中显示了一些定性结果,其中我们在左右图像上可视化相应的立体声盒。 3D框分别投影到左侧和鸟瞰图图像。 我们的联合稀疏和密集约束确保检测到的盒子在图像和LiDAR点云上都很好地对齐。

8. Conclusion and Future Work

在本文中,我们提出了一种基于立体声R-CNN的自动驾驶场景中的三维物体检测方法。 将3D对象定位表示为学习辅助几何问题,我们的方法利用了语义属性和对象的密集约束。 在没有3D监督的情况下,我们在3D检测和3D定位任务上以大边距优于所有现有的基于图像的方法,甚至优于基线LiDAR方法[16]。

我们的3D对象检测框架灵活实用,可以扩展和进一步改进每个模块。 例如,立体声R-CNN可以扩展用于多个物体检测和跟踪。 我们可以用实例分割替换边界关键点,以提供更精确的有效RoI选择。 通过学习物体形状,我们的3D检测方法可以进一步应用于一般物体。


Acknowledgment. 这项工作得到香港研究资助局早期职业计划项目26201616的支持。

 

 

 

 

 

 

  • 6
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值