#每天一篇 端到端伪激光图像3D目标检测

End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection

摘要

自主驾驶是安全、准确检测三维物体的必要条件。尽管激光雷达传感器可以提供精确的三维点云环境估计值,但在许多情况下,它们的成本也高得让人望而却步。最近,伪激光雷达(PL)的引入使得基于LiDAR传感器的方法与基于廉价立体相机的方法之间的精度差距大大缩小。PL通过将二维深度图输出转换为三维点云输入,将用于三维深度估计的最新深度神经网络与用于三维目标检测的深度神经网络相结合。然而,到目前为止,这两个网络必须分开训练。在本文中,我们介绍了一个新的框架,它基于可微的表示变化(CoR)模块,允许对整个PL管道进行端到端的训练。该框架与大多数最先进的网络兼容,适用于这两项任务,并与PointRCNN相结合,在所有基准测试中始终优于PL—在提交时,在基于KITTI图像的3D目标检测排行榜上获得了最高的排名

问题

基于激光雷达的方法存在问题

  • 目标检测严重依赖与3D point的准确性,位置和检测需要近似object surfaces

  • 不能够检测到远处的目标,由于车和人在图像中只占10%(kitti),受激光范围限制,训练的时候会忽略远处的物体当前伪激光雷达存在的问题
    在这里插入图片描述

  • 没有实现端到端的深度预测和目标检测联合训练

方法

本文提出的端到端框架解决不能够联合训练的缺点。其中,错误检测或错误定位对象的错误信号可以“softly attend ”影响预测最大的像素(可能是2D中对象上或周围的像素),引导深度估计器为后续检测器改进提供依据。为了使来自最终检测损失的误差信号反向传播,深度估计器和目标检测器之间的表示变化(CoR)必须相对于估计的深度是可微的。

在这里插入图片描述
本文确定了两种主要的CoR类型-子采样和量化-将现有的基于LiDAR的探测器合并到伪LiDAR框架中。

输出结果表示方法

传统输出表示方法{0,1}占用

三维点的位置被离散成一个固定的网格,在得到的张量1中只记录占用(即{0,1})或密度(即[0,1])。这种方法的优点是可以直接应用二维和三维卷积从张量中提取特征。然而,这种离散化过程使得反向传播变得困难。

在这里插入图片描述

本文提出的输出表示

本文引入了一个 radial basis function(RBF)在给定的面元m的中心ˆpm附近,而不是二进制占用,这样保持了一个“Softly”计数的点,由RBF加权。进一步地,允许任何给定的m受到close bins Nm的影响。然后我们相应地修改了T的定义。让Pm表示落入bin m的点集:

在这里插入图片描述

本文提出的表示方法能反向求导可微

在这里插入图片描述

采样

首先,我们去除所有高于激光雷达信号可以覆盖的正常高度的3D点,例如天空的像素点。此外,我们还可以通过亚抽样来稀疏化剩余的点。第二步是可选的,但在[45]中建议使用,因为深度图生成的点数量比激光雷达大得多:伪激光雷达信号中平均有300000个点,而激光雷达信号中有18000个点(在汽车的正面视图中)。虽然密集的表示在精确度方面是有利的,但它们确实减慢了目标检测网络的速度。我们采用了一种基于角度的稀疏化方法。我们通过将球坐标(r,θ,φ)离散化来定义三维空间中的多个料仓。具体来说,我们离散θ(极角)和φ(方位角)来模拟激光雷达光束。然后我们保持一个单一的三维点(x,y,z)的球坐标落在同一个箱子里。因此,生成的点云模拟真实的激光雷达点。

结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值