PointFlowNet: Learning Representations for Rigid Motion Estimation from Point Clouds
基于点云的刚体运动估计
1. Abstract
- [设备:LIDAR] 基于图像的3D场景光流估计的传统方法不仅精确度难以满足应用要求,且往往需要更多的其它配置,比如在自动驾驶中用激光扫描代替传统相机,从而直接建立3D点云。
- [模型:PointFlowNet] 本文根据这些无结构点云利用DNN进行3D运动估计。通过一次前向估计,模型同时预测3D光流和场景中的运动刚体及其3D边界框。
- [数据表示] 由于传统解决方案中刚体运动的全局表示难以应用于CNN中,本文还提出了一种替代的表示方法。
- [数据集] 此外,本文对KITTI数据集进行了增强,增加了包含遮挡和传感器噪声的虚拟物体。
2. Introduction
2.1 原因
对于诸如自动驾驶一类的人工智能系统而言,精准的环境理解是其关键技术。
同时,在导航和路线规划时为了预测未来,要求系统获取环境的3D几何模型以及场景中其它智能体的3D运动模型(3D motion)。3D场景光流(3D scene flow)用于表示该3D运动模型,它为每个被测点的3D运动创建一个对应的速度矢量(velocity vector)。
2.2 现存问题
-
传统方法中,3D场景光流通过一个 校准立体装置(calibrated stereo rig) 的两个连续图像对进行估计得到,称为 stereo-based scene flow methods。但由于该方法预测时计算时间长,且需要双目几何图像——而双目图像中 深度错误 随着观测距离呈平方增加,因此很少被工业化应用。因此,大多数现代自动驾驶平台采用LIDAR(激光雷达)技术来实现3D几何感知。
-
与传统基于图像的相机不同,激光扫描仪(laser scanner)可以通过一个传感器来获取360度的视域,且通常不受光照环境和观测距离影响。但通过LIDAR获取的精确3D点云测量数据来做运动估计并不容易。原因:
- (1) 点云的天然稀疏和不统一(non-uniform)特质
- (2) 缺乏外观信息使得数据难以联系
- (3) 扫描仪生成的如圆环(circular rings)等特征模式,会随着观测着运动且误导估计算法的本地响应
本文为解决上述现存问题,提出PointFlowNet,用于从无结构的3D点云中学习3D场景流。所做具体工作见摘要。
3. Related Work
相关工作按照期望输入种类分类,并主要讨论基于学习(learning-based)的解决方案。
-
3.1 图像序列
最常见的方法就是基于两个校准立体图像对(calibrated stereo image pairs)进行估计。早期的方法是从粗糙到精调逐步优化 [22, 24, 25, 42],但在大位移时性能差,因此提出了 slanted-plane模型,将场景按照刚体运动分割为一系列场景块[22, 24, 25, 42]。当前基于图像的算法主要受限与双目几何图像的深度错误限制。 -
3.2 RGB-D序列
即带深度信息的RGB图像。主要困难有两点:1. 同样受深度错误限制;2. 图像难以获取。 -
3.3 3D点云
在机器人社区, 基于3D点云的运动估计主要是通过传统经典算法。对应的,本文提出了端到端的模型。 -
3.4 基于学习的解决方案
即端到端的方法。目前针对立体的和光流(flownet2.0-2016, pwcnet-2019)的算法都有若干,但针对场景光流估计的较少,如SceneFlowNet (cvpr2016,A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation),它结合了Flownet和DispNet[23]来做基于图像的场景流估计。对应的,本文提出端到端的基于无结构3D点云的场景流估计。
此外,(cvpr2018, Deep parametric continuous convolutional neural networks.)提出了一种连续卷积操作,并将其应用于3D分割和场景流,但并未考虑刚体运动估计。