《Categorical Depth Distribution Network for Monocular 3D Object Detection》论文阅读

最新推荐文章于 2023-03-15 15:09:43 发布

dtuyg

最新推荐文章于 2023-03-15 15:09:43 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/dtuyg/article/details/115314555

版权

CaDDN摘要及介绍

摘要
1.介绍

摘要

单目3D目标检测是自动驾驶里面的关键问题，因为和典型的多源传感器系统相比它提供了一个简单的配置。单目3D检测的主要挑战在于准确地预测目标的深度，由于缺乏直接的距离测量，必须从目标和场景线索中推断出目标深度。许多方法尝试直接估计深度来辅助3D检测，但由于深度的不准确性能有限。我们提出的方法，分类深度分布网络（CaDDN）对每一个像素使用了一个预测的分类深度的分布来将丰富的上下文特征信息投影到三维空间中适当的深度间隔.。接着我们使用计算的高效的鸟瞰投影和单极探测器来产生最终输出检测结果。我们用我们的方法在KITTI 3D object detection benchmark数据集上进行交叉验证，在公开的单目方法中我们排行第一。我们也提供了第一个基于Waymo公开数据集的单目3D检测。CaDDN的源代码将会在出版前公开。

1.介绍

3D空间感知是无人车和机器人领域里的关键部分，它能让系统理解周围的环境并且做出相应的反应。激光雷达和立体传感器有一段长期3D感知任务的历史，由于它们有精准获得3D测距的能力，在3D目标检测基本的数据集上如KITTI 3D object detection benchmark上有极好的表现。
基于单目的3D感知同时被追捧，由于其只用一个摄像机的低成本易部署的解决方案的潜力。由于当场景信息投影在图片平面上缺乏深度信息，在相同的3D目标检测基本的数据集上单目3D感知明显不如激光雷达和立体传感器的表现。
为了克服这个影响，单目的目标检测方法通常会通过单独训练一个单目深度估计网络来明确地学习深度信息。然而，深度估计的信息在3D目标检测阶段时没有深度的置信度就直接使用，使得网络在深度预测上趋于过度乐观。在深度上的过度乐观尤其是一个长期的问题，导致较差的定位。进一步来说，深度估计在训练阶段与3D目标检测分开，会阻碍深度地图估计在检测任务上的优化。
图片数据里的深度信息，可以通过图片到3D空间再最终到鸟瞰（BEV）网格的直接特征变换明确地学习到。然而，隐式方法往往会受到特征模糊的影响，其中相似的图像特征可能存在于投影空间的多个位置。模糊特征提升了在场景中定位目标的难度。
为了解决已确定的问题，我们提出了一个单目3D目标检测方法，CaDDN，它可以通过学习分类的深度分布来得到准确的3D检测。利用概率深度估计，CaDDN能够以端到端的方式从图像生成高质量的鸟瞰特征表示。我们总结我们的方法有三个贡献。

（1）分类深度分布 为了实现3D检测，我们预测按像素分类的深度分布来准确在3D空间里定位图片信息。每一个预测的分布描述了一个像素属于一组预定义的深度箱的概率。我们鼓励我们的分布在正确的深度箱附近尽可能地尖锐，为了使我们的网络在深度估计准确且置信度又高的情况下更多地专注图片信息。通过这样做，我们的网络可以产生既尖锐又准确的有助于3D检测的特征。在另一方面，我们的网络有这样的能力，在深度估计置信度低的时候产生不太尖锐的分布。使用分类分布允许我们的特征编码来捕捉固有的深度估计不确定性，以此来减少错误的深度估计的影响，在第4.3节中，一个属性被证明是CaDDN改进性能的关键。锐度在我们预测的深度分布可以被正确深度箱的一次的热编码的监督来鼓励，这种编码可以通过激光雷达深度数据投影到摄像机帧生成。
（2）端到端的深度推理 我们学习深度分布以一个端到端的方式，联合优化准确的深度预测和准确的3D目标检测。我们认为联合深度估计和3D检测推理鼓励深度估计朝着3D检测任务的方向优化，从而提升性能，如第4.3节所示。
（3）鸟瞰场景表示 我们介绍了一个新颖的方法，从使用分类深度分布和投影几何的单张图片中来生成高质量的鸟瞰场景表示。我们选择了鸟瞰表示，是因为它能够以高计算效率产生出色的三维检测性能。生成的鸟瞰表示被作为基于鸟瞰的检测器的输入，以产生最后的输出结果。
在KITTI 3D目标检测测试基准的汽车和行人类别中，CaDDN在所有先前发布的单目方法中排名第一。我们第一个在Waymo开放数据集上报告单目3D目标检测结果。

在这里插入图片描述