#今日论文推荐#SE-ProPillars | 一个具备鲁棒性的实时3D目标检测方法

#今日论文推荐#SE-ProPillars | 一个具备鲁棒性的实时3D目标检测方法

这项工作旨在通过专注于使用路边激光雷达对环境的 3D 感知来应对自动驾驶的挑战。作者设计了一个 3D 目标检测模型,可以实时检测路边 LiDAR 中的交通参与者。本文的模型使用现有的 3D 检测器作为基线并提高了其准确性。为了证明所提出的模块的有效性,作者在3个不同的车辆和基础设施数据集上训练和评估模型。为了展示本文所提检测器的领域适应能力,作者在来自中国的基础设施数据集上对其进行训练,并在德国记录的不同数据集上进行迁移学习。作者对检测器中的每个模块进行了几组实验和消融研究,实验结果表明本文的模型在很大程度上优于基线,而推理速度为 45 Hz(22 ms)。通过基于 LiDAR 的 3D 检测器做出了重大贡献,该检测器可用于智慧城市应用,为自动驾驶车联网提供具有深远意义的视野。连接到路边传感器的车辆可以获得拐角处其他车辆的信息,以改进其路径和机动规划,进而提高道路交通安全。
1、相关工作综述根据特征表示的形式,LiDAR-only 3D 目标检测器可以分为4种不同的类型:

  • point-based方法
  • voxel-based方法
  • hybrid point and voxel 方法
  • projection-based方法

在基于点的方法中,特征通过采样子集或派生的虚拟点保持逐点特征的形式。PointRCNN 使用 PointNet++ 主干从原始点云中提取逐点特征,并执行前景分割。然后对于每个前景点,它会生成一个 3D 提议,然后是点云 ROI 池化和基于规范变换的边界框细化过程。基于点的方法通常必须处理大量的逐点特征,这导致推理速度相对较低。为了加速基于点的方法,3DSSD 引入了特征最远点采样 (F-FPS),它计算特征距离以进行采样,而不是传统距离最远点采样 (D-FPS) 中的欧几里德距离。3DSSD 的推理速度可与基于Voxel的方法相媲美。VoxelNet 将 3D 空间划分为等间距的Voxel,并将point-wise特征编码为voxel-wise特征。然后 3D 卷积中间层对这些编码的Voxel特征进行操作。稀疏点云空间上的 3D 卷积带来了太多不必要的计算成本。SECOND 提出使用稀疏卷积中间提取器,大大加快了推理时间。在 PointPillars 中,点云被分成pillarsvertical columns),它们是特殊的Voxel,沿 z 方向没有任何分区。pillars的特征图可以被视为伪图像,因此昂贵的 3D 卷积被 2D 卷积取代。PointPillars 在 TensorRT 加速的帮助下达到了最快的速度。SA-SSD 在稀疏卷积中间层添加了一个可分离的辅助网络来预测point-wise前景分割和中心估计任务,可以提供额外的点级监督。SA-SSD 还提出了一种part-sensitive warpingPS-Warp)操作作为额外的检测头。它可以减轻预测边界框和分类置信度图之间的错位,因为它们是由检测头中的两个不同卷积层生成的。CIA-SSD 也注意到了错位问题。它设计了一个 IoU 感知的置信度校正模块,在检测头中使用一个额外的卷积层来进行 IoU 预测。预测的 IoU 值用于校正分类分数。通过仅引入一个额外的卷积层,CIA-SSD 比 SA-SSD 更轻量级。SE-SSD 提出了一个self-ensembling post-training框架,其中一个预训练的教师模型产生预测,这些预测除了来自标签的hard targets之外,还用作soft targets。这些预测通过 IoU 与学生的预测相匹配,并由一致性损失监督。soft targets更接近学生模型的预测,因此可以帮助学生模型微调其预测。这里SE-SSD还提出了Orientation-Aware Distance-IoU Loss来替代训练后边界框回归的smooth-L1损失,以提供监督信号。SE-SSD 还设计了形状感知数据增强模块来提高学生模型的泛化能力。混合方法旨在利用基于Point和基于Voxel的方法。基于Point的方法具有更高的空间分辨率但涉及更高的计算成本,而基于Voxel的方法可以有效地使用 CNN 层进行特征提取,但会丢失局部point-wise信息。因此混合方法试图在它们之间取得平衡。HVPR 是一种single-stage检测器。它有两个特征编码器流,分别提取Point特征和Voxel特征。提取的特征被整合在一起并分散成一个伪图像作为混合特征。在混合特征图上执行一个卷积中间模块,然后是一个single-stage检测头。STD 是一个two-stage检测器,它使用 PointNet 来提取point-wise特征。具有球形Anchor点的基于Pointproposal生成模块旨在实现高召回率。然后一个 PointsPool 模块对每个proposal进行Voxel化,然后是一个 VFE 层。在框细化模块中,将 CNN 应用于这些Voxel以进行最终预测。PV-RCNN 使用 3D 稀疏卷积进行Voxel特征提取。每个卷积层都添加了一个Voxel集抽象(Voxel-SA)模块,将Voxel特征编码为一小组关键点,通过最远点采样对其进行采样。然后通过前景分割分数重新加权关键点特征。最后,它们用于增强 ROI 网格点以进行细化。 R-CNN 从多视图投影中提取point-wise特征。它将点云分别投影到笛卡尔坐标下的鸟瞰图和Pillar坐标下的透视图。BEV 特征和point-voxel (PV) 特征连接在一起以在 BEV 中生成proposal,并融合在一起作为point-wise空心 3D (H3D) 特征。然后在 3D 空间上执行Voxel化,并将point-wise H3D 特征聚合为 voxel-wise H3D 特征以进行细化过程。RangeDet 是一种基于 LiDAR 的 anchor-free single-stage 3D 目标检测器,纯粹基于 range view representationRangeDet结构紧凑,没有量化误差。使用 RTX 2080 TI GPU 的推理速度为 12 Hz。运行时间不受检测距离扩展的影响,但是 BEV 表示会随着检测范围的增加而减慢推理时间。RangeRCNN 是另一个使用range imagepoint viewbird’s eye view (BEV) 的 3D 目标检测器。anchor在 BEV 中定义,以避免尺度变化和遮挡。此外,使用两阶段区域卷积神经网络(RCNN)来提高 3D 检测性能。本文设计了一个实时 LiDAR-only 3D 目标检测器(SE-ProPillars),可以应用于现实世界的场景。

论文题目:Real-Time And Robust 3D Object Detection with Roadside LiDARs
详细解读:https://www.aminer.cn/research_report/62d0e16f7cb68b460feb9936icon-default.png?t=M666https://www.aminer.cn/research_report/62d0e16f7cb68b460feb9936
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值