论文阅读：Pseudo-LiDAR from Visual Depth Estimation

最新推荐文章于 2022-11-09 22:50:26 发布

阁仔

最新推荐文章于 2022-11-09 22:50:26 发布

阅读量452

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/baidu_23388287/article/details/106564778

版权

深度学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

摘要：

　　3D目标检测在自动驾驶领域是一个至关重要的任务。在高精度的检测技术中，提供的精确的3D数据是从昂贵的激光上得到的。目前基于便宜的单目或者双目图像得到的深度估计都是低精度的，主要是由于深度估计方法的缺少。在本文中，我们是从数据的表现性而不是从数据质量上来讨论。考虑使用内部工作的卷积神经网络，我们提出了基于图像的深度图转换为伪激光雷达表示－本质上模仿激光雷达信号。通过这种表示我们可以应用不同的现有的基于lidar的检测算法。在流行的kitti数据集基准测试中，本文的方法在现有的基于图像的state-of-art的性能方面中取得了令人印象深刻的改进——将30m范围内的物体检测精度从以前的22%提升到前所未有的74%,在提交时，本文的算法在基于双目图像的方法中，在kitti3D目标检测排行榜上排名最高。

简介：

　　可靠且鲁棒的3D目标检测是自动驾驶领域最基本的需求之一。毕竟，为了避免与行人，自行车和自行车相撞，车辆必须首先能够检测到它们。现有的算法大多依赖于lidar所提供周围环境的精确的3D点云数据。虽然精度很高但是有不少可以替代lidar的理由。首先，lidar很昂贵，这给自动驾驶硬件带来了巨大的溢价，其次过度依赖单一传感器是一种固有的安全风险，例如在断电情况下，有一个备用的传感器将是有利的。自然的候选是来自单目或者双目图像，光学相机价格低廉(比lidar便宜几个数量级)，操作在高帧率，能够提供密集的深度图而不是lidar信号被固有的限于64或者128稀疏旋转激光束。最近一些开放的成果探索了使用单目和双目进行深度(视差)估计进行3D目标检测。然而，至今最成功的方法还是主要通过lidar来实现的，例如在kitti benchmark领先的测试算法使用传感器融合来提高车的平均3D精度(AP)从66％提高到了73%，相比之下，在仅使用图像的算法中，state-of-art仅达到10%的AP。一种直观且流行的解释是基于图像的深度估计准确率不高。与lidar相比，双目深度估计的误差随着深度的增大而增大。然而，由lidar和state-of-art级别的双目深度器生成的三位点云的视觉比较显示，两种数据模式之间具有高质量的匹配——甚至对于遥远的物体。

　　在本文中我们提供了具有重大性能影响的另一种解释，我们认为造成lidar和双目性能差距的主要原因不是深度精度上的差异，而是基于ConvNet-based 3D目标检测系统在双目上运行时，3D信息的表示——一个糟糕的选择。具体地说，lidar信号通常表示为3D点云或者自上而下的“鸟瞰”视角观看，并对其进行处理。在这两种情况下，目标的形状和大小都是随着深度变化的。相比之下，基于图像的深度是对每个像素都进行了密集估计并且通常需要用额外的图像通道来表示，会使遥远的物体更小，更难以被检测。更糟的是，在这种表示下，像素领域集合了来自3D空间中遥远区域的点。这对卷及网络来说是很难的，因为其依赖于在这些通道上的2D卷积很难在3D中推理和精确定位对象。

　　为了评估我们的说法，我们介绍了一种基于双目的３D目标检测的two-step法。我们首先将从单目或者双目估计出的深度图转换成３D点云,这种我们称为伪lidar，因为它模拟lidar信号。然后我们利用现有基于lidar的3D目标检测管道，直接在伪lindar表示上对其进行训练。通过将3D深度表示改为伪lindar，我们获得了基于图像的三维目标检测算法的精度的前所未有的提高。具体来说，在kitti benchmark，对于“中等难度”的汽车实例（官方排行榜中使用的度量标准）IOU为0.7，我们在验证集上实现了45.3%的3D AP:几乎比之前state-of-art的基于图像的方法提高了350%。此外，我们将基于双目和基于lidar的系统之间的差距缩小了一半。

　　我们评估了双目深度估计和3D目标检测算法的多种组合，得到了非常一致的结果。这表明，我们观察得到的，是因为伪lidar表示和较少依赖创新的3D目标检测和深度估计技术。总之，本文的贡献是双重的。首先，我们通过实验证明，造成基于双目和基于lidar的3D目标检测性能差距主要原因不是深度估计的质量而是它的表示。其次，我们提出了伪lidar作为一种新的推荐的用于3D目标检测并且展示了它导致了state-of-art的基于双目的3D目标检测，有效的三倍于现有技术。我们的研究成果指向了在自动驾驶汽车上使用双目相机的可能性——这可能会带来大量的成本降低或者安全的改善。

相关工作：

　　基于lidar的3D目标检测。我们的工作受到最近3D视觉和基于lidar３D目标检测的启发。这些算法都假设给定了精确的3D点云坐标。因此，主要挑战就是去预测3D点云的边框和定位。

　　基于双目或者单目的深度估计。关键是可靠的深度估计方法来替代lidar。这些可以通过单目或者双目视觉获得。自早期单目深度估计工作以来，这些系统的精度已经显著提高。最近的一些算法例如ＤＯＲＮ，将多尺度特征与有序回归相结合，以非常低的误差预测像素深度。对于双目视觉，PSMNet应用Siamese网络进行视差估计，然后使用3D卷积细化，导致离群率小于2%。最近的工作已经使这些方法变得更加高效，确保准确的视差估计下在移动设备上能以30FPS运行。

　　基于图像的3D目标检测。双目和单目深度估计技术的快读发展，表明了它们在基于图像的3D物体检测算法中，可以作为lidar的替代品，这种风格的算法很大程度上建立在2D目标检测的基础上，并施加额外的几何约束来创建3D提案。[5,624,33]采用了基于双目的深度估计得到每个像素的真实三维坐标。这些三维坐标可以作为额外的输入通道输入到2D检测管道中，或者用于提取手工特征。虽然这些方法取得了显著的进展，但在三维目标检测最新的技术方面仍落后于基于lidar的方法。正如我们之前说过的那样，这可能是因为这些方法使用了深度表示。

方法：

　　尽管基于图像的三维目标识别有许多优点，但图像和基于lidar的方法之间的state-of-art检测率仍存在明显的差距。很容易将这种差距归因与lidar和相机技术之间明显的物理差异和其意义。例如，基于双目的3D深度估计的误差随着物体的深度呈二次增长，而对于ＴＯＦ方法，例如lidar，这种关系近似为线性。虽然，物理上的差异确实可能导致准确性的差距，但在本文中，我们认为很大一部分差异可以由数据的表示而不是其质量或与数据收集相关的底层物理属性来解释。事实上，最近的双目深度估计可以得到非常精确的深度图。因此，我们“缩小差距”的方法是小心的消除两种数据模式之间的差异，并尽可能地对齐两种识别pipelines。为此，我们提出了两步法：首先从双目(甚至单目)图像中估计密集像素深度，然后将像素向后投影到一个3D点云中。通过将这种表示视为伪lidar信号，我们可以应用于任何现有的基于lidar的３D目标检测算法中。Fig2描述了我们的pipeline

　深度估计

　　 lidar vs pseudo-lidar: 为了最大限度地与现有的激光雷达探测管道兼容，我们在伪激光雷达数据上应用了一些额外的后处理步骤。由于真实的激光雷达信号只驻留在一定的高度范围内，我们不考虑超出该范围的伪激光雷达点。例如，在KITTI基准上，在[36]之后，我们删除了所有高于虚拟激光雷达源1米的点(位于自动驾驶车辆的顶部)。由于大多数感兴趣的对象(例如汽车和行人)不会超过这个高度范围，因此信息损失很少。除了深度，激光雷达还返回任何测量像素的反射率(在[0,1]内)。由于我们没有这样的信息，我们简单地将每个伪激光雷达点的反射率设置为1.0。

　　令人惊讶的是，伪激光雷达点(蓝色)与真激光雷达点(黄色)的对齐非常好，这与一般认为低精度的基于图像的深度是较差的3D目标检测的主要原因形成了对比。我们注意到一个激光雷达可以捕捉>十万点的场景，这是和像素计数的顺序相同。然而，激光雷达点沿少量(通常为64或128)水平波束分布，仅稀疏地占据三维空间。

　　数据表示的事情：虽然伪lidar传递的信息和深度图相同，但我们认为它更适合基于深度卷积网络的３D目标检测pipelines。要了解这一点，考虑卷积网络的核心模块：２Ｄ卷积。在图像或者深度图上执行一个2D卷积序列。虽然卷积的filters是可以学习的，但其中心的假设是双重的：a)图像中的局部邻域是有意义的，网络应该关注局部patch; b)所有的邻域都可以以相同的方式操作。

　　这些只是不完美的假设。首先，二维图像上的局部patch只有完全包含在单一物体中时，才是物理上相干的。如果它们横跨物体边界，那么两个像素可以在深度图中共存，但在三维空间中可以非常遥远。其次，在多个深度出现的对象在深度图中以不同的比例投射。一个类似大小的patch可能只捕捉到附近一辆汽车的测试镜，或者一辆远处的汽车的整个车身。现有的2D目标检测方法与这个崩溃的假设斗争，必须设计新技术，如特征金字塔来处理这一挑战。相比之下，在点云上的３Ｄ卷积或者在鸟瞰视图切片中的2D卷积操作的是物理上紧密相连的像素(虽然后者确实将不同高度的像素聚在一起，但物理世界意味着在特定空间位置不同高度的像素通常属于同一物体)。此外，远近物体的处理方式完全相同。这些操作因此本质上更具有物理意义，因此应该导致更好的学习和更准确的模型。

阁仔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Pseudo-LiDAR from Visual Depth Estimation

摘要：　　3D目标检测在自动驾驶领域是一个至关重要的任务。在高精度的检测技术中，提供的精确的3D数据是从昂贵的激光上得到的。目前基于便宜的单目或者双目图像得到的深度估计都是低精度的，主要是由于深度估计方法的缺少。在本文中，我们是从数据的表现性而不是从数据质量上来讨论。考虑使用内部工作的卷积神经网络，我们提出了基于图像的深度图转换为伪激光雷达表示－本质上模仿激光雷达信号。通过这种表示我们可以应用不同的现有的基于lidar的检测算法。在流行的kitti数据集基准测试中，本文的方法在现有的基于图像的state
复制链接

扫一扫

专栏目录