【论文速览】任何运动检测器:从一系列LiDAR点云中学习与类无关的场景动态

摘要

在复杂的城市环境中,目标检测和运动参数估计是自动驾驶车辆安全导航的关键任务。 在这项工作中,作者提出了一种新颖的实时时态上下文聚合方法,用于基于3D点云序列的运动检测和运动参数估计。作者引入了自我运动补偿层,以实现实时推理,其性能可与原始点云序列的简单里程转换相媲美。所提出的体系结构不仅能够估计车辆或行人等常见道路参与者的运动,而且可以概括为训练数据中不存在的其他对象类别。还将对不同的时间上下文聚合策略(例如循环单元和3D卷积)进行深入分析。 最后,多提出的最新模型与KITTI Scene Flow数据集上现有解决方案的比较结果。

主要贡献

自动驾驶车辆从安装在其自身上的传感器捕获数据,这在传感器数据中构成了自我运动补偿的问题,用于时间上下文聚合过程和周围物体运动参数的估计。

在这项工作中,作者提出了Any Motion Detector(AMDNet),这是一种新颖的实时端到端架构,用于根据一系列LiDAR点云对场景动态进行分类诊断。 作者工作的主要贡献如下:

  • 作者提出了一种新的实时架构,用于基于连续LiDAR点云的复杂城市环境中的分类诊断运动检测;
  • 作者引入了可区分的自我运动补偿层来进行时间上下文聚合;
  • 作者对时态上下文聚合的替代方法进行了定量分析;
  • 作者将最新的模型与开放的KITTI Scene Flow数据集上的现有解决方案进行比较。

算法框架:

作者提出AMDNet,是一种使用点云序列作为输入完成动态目标检测和运动参数估计。输入的是点云序列,和相应的变化矩阵,即从传感器坐标系到真实世界坐标系的转换。输出是每个单元的鸟瞰视角网格的动/静态分割和每个像元在XY平面的二维运动速度。网络结构如下图所示,包括体素特征编码层(点云特征提取),RNN单元与自运动补偿层(积累时间上下文),ResNet18-FPN,输出网络预测的两个分支。一路分支是二维速度网格,另一路分支是二值的动、静单元分割。使用分割结果为速度网格提供掩模。它有助于消除由于IV-E节中描述的特定损失函数而在没有点的区域中可能发生的错误速度预测。 图展示了整个架构。
在这里插入图片描述
A. Voxel Feature Encoder
划分体素网络,然后使用体素内部相对坐标扩展每个坐标。
在这里插入图片描述
在每个提速中单独多次使用VFE,最终,使用最大池化层为每个体素得到一个单独的特征向量。与原始论文不同,没有应用3D卷积,而是沿垂直轴堆叠所有特征向量以获得描述观察者周围空间的3D张量。还利用体素化表示的稀疏性,并在非零列上进行1 * 1卷积以压缩通道尺寸,从而减少了推理时间。 最后,我们应用两个卷积层以考虑相邻列之间的依赖性。
B. Ego-Motion Compensation Layer
为了估计场景中动态对象的运动,我们需要汇总时间上下文。 Voxel Feature Encoder输出随后点云的张量表示,但是每个点云都在其局部坐标系中。给定从局部坐标系到世界坐标的变换,从局部模块计算两个连续的局部坐标系之间的变换Ti-1; i。

作者建议在质量和推断时间上使用一种简单但相当有效的技术,该技术能够重用先前时间戳中已经计算出的特征张量。给定i-1时间戳的某个特征张量Hi-1,变换Ti-1; i,从局部坐标系映射到张量坐标系的映射D,自我运动补偿层将计算以下张量Hi-1。此操作速度很快,并且不会带来大量开销。此外,重要的是,这种操作相对于Hi-1是可区分的,因此,它可用作神经网络中的一层,允许使用标准反向传播对其进行训练。应用自我运动补偿层后,^ Hi-1在空间上与连续点云张量表示对齐。
C. Temporal Context Aggregation
为了聚合时间上下文,我们将卷积RNN单元与自我运动补偿层一起用于先前的隐藏状态。RNN单元可以描述如下:
在这里插入图片描述
该单元的示意图如图3所示。
在这里插入图片描述
D. Feature Extractor
经过时间上下文聚合后,获得了存储有关过去信息的特征张量。应用ResNet18特征金字塔网络来学习高级特征。然后,我们通过两个不同的分支传递特征,以获得动态/静态分割和速度网格。

实验结果

当前,不存在包含自动驾驶设置中场景中所有动态对象的带标签速度的开放数据集。 我们认为,我们可以使用具有指定速度的3D边界框来通过图4中描述的过程获得分割和速度网格。
在这里插入图片描述
在KITTI Scene Flow Results数据集上比对如下表:
在这里插入图片描述
在模拟环境中评估方法和FlowNet3D。 表II中的结果表明,该方法可以很好地推广到模拟数据。 此外,它具有非常准确的静态/动态分割。 它能够在静态物体上实现极高的质量。
在这里插入图片描述

Abstract

Object detection and motion parameters estimation are crucial tasks for self-driving vehicle safe navigation in a complex urban environment. In this work we propose a novel real-time approach of temporal context aggregation for motion detection and motion parameters estimation based on 3D point cloud sequence. We introduce an ego-motion compensation layer to achieve real-time inference with performance comparable to a naive odometric transform of the original point cloud sequence. Not only is the proposed architecture capable of estimating the motion of common road participants like vehicles or pedestrians but also generalizes to other object categories which are not present in training data. We also conduct an in-deep analysis of different temporal context aggregation strategies such as recurrent cells and 3D convolutions. Finally, we provide comparison results of our state-of-the-art model with existing solutions on KITTI Scene Flow dataset.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值