在自动驾驶领域,基于激光雷达(LiDAR)的 3D 物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。
激光雷达的多帧时序数据,提供了对于检测物体的多视角观测(multiple views),历史记忆(history memory),安全冗余(redundant safty),以及运动特征(motion kinematics)等丰富的信息;可用来帮助提高检测速度和精度,并且增加检测结果的可靠性。
对于感知的下游模块,例如追踪和预测,时序信息则更为重要。
在传统视频理解领域,时序信息融合研究相对比较成熟,具体方法主要通过后处理 (post-processing)来建立检测物体间的对应关系 [1,2];借助光流(optical flow)跨越多帧来传播高层特征 [3,4];或者利用记忆对准(memory alignment)直接融合多帧特征信息 [5,6]。
相较于视频或者图像,激光雷达的点云非常稀疏,导致对其提取的特征图谱 (feature maps)也非常稀疏;此外,在点云鸟瞰图(bird’s eye view)中绝大多数前景物体如车辆和行人只占据很小的空间范围。所以如何有效融合激光雷达的时序信息对于学术界和工业界仍然是一个开放的问题。
时序融合—3D物体检测
FaF 是一个具有代表性的考虑激光雷达时序信息的物体检测和行为预测算法。
论文标题: Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net 论文来源: CVPR 2018 论文链接: http://openaccess.thecvf.com/content_cvpr_ 2018/ papers/Luo_ Fast_and_ Furious_CVPR_ 2018_paper.pdf该论文提出了一种结合检测,跟踪和预测于一体的网络结构。通常自动驾驶系统包含检测,跟踪,轨迹预测与规划等模块,下游模块以上游模块的结果作为输入。
这样的解决方案存在一个问题,即每个模块的误差会在下游逐步累积,例如误检或漏检的物体会对后续的跟踪与预测带来很大影响,从而造成错误的规划,最终对乘车舒适度甚至安全造成负面影响。
FaF 提出了一种端到端的网络用以同时完成检测,追踪和预测三项任务,从而在一定程度上缓解了各个模块错误的逐级累积。其具体做法是首先将相邻若干帧激光雷达扫描得到的点云转换到同一坐标系下,把每一帧的点云进行体素化 (voxelization)。
同时为了避免在单帧上使用 3D 卷积及其所引入的计算复杂度,将高度这一维作为通道(channel),从而将每一帧表示成为一个三维张量以便使用 2D 卷积处理。网络以多帧点云的鸟瞰图作为输入,直接输出当前输入 5 帧的检测结果以及未来 10 帧的预测结果(如下图所示)。