Multi-View Fusion of Sensor Data for Improved Perception and Prediction in Autonomous Driving
本文融合了激光雷达信息和栅格化的高清地图的特征进行端到端目标检测和轨迹预测。改方法建立在最新的BEV网络上。
现在的一些方法将目标检测和运动轨迹预测分为两个部分,并且单独训练。而作者认为这样的多级系统可能会由于缺乏特性共享而增加系统延迟,并存在级联错误。而本文就是使用单个端到端系统来执行这两个任务的联合模型。
现在端到端模型研究工作采用鸟瞰视图(BEV),将原始激光雷达数据投射到以Self-driving vehicle(SDV)为中心的自上而下网格中。激光雷达回波的BEV编码在使目标检测和运动预测任务更容易学习方面有几个优势。这样做的一个优点是,无论距离如何,物体的大小都是恒定的,这就大大简化了问题。使用该方法还能够有效融合历史激光雷达数据,以及高清地图特征的有效融合。然而,这种表示将激光雷达数据离散化为立体像素,丢失了可能用于检测更小物体(如行人和自行车)的细粒度信息。而激光雷达的Range-View (RV)表示能够有效地解决这个问题。若模型学习从RV到BEV的转换再加上感知物体大小的变化。这样会使模型更加复杂,而且需要更大的数据集,而且在RV中融合历史激光雷达数据也具有一定难度,因为球面投影中心的偏移会产生畸变。
而本文的提出的模型,结合了BEV和RV的优点,在BEV和RV数据中分别对激光雷达数据进行多视图编码和处理,然后在一个共同的BEV特征空间中融合两种视图,并且融合相机数据和激光雷达的RV数据。
激光雷达
激光雷达数据用于深度学习,需要将其转换为适合深度模型吸收的特征表示。大体有三种方法:
·将点云中的点作为点方向的特征向量的无序集合。例如PointNet;
·将点云立体像素化到BEV网格上,接着用CNN处理BEV的特征图。例如VoxelNet;
·通过将圆柱形激光雷达扫描信息映射到二维特征地图上,也就是RV表示方法,例如LaserNet。
当然也一些方法结合以上的方法来做特征提取。就比如本文的方法。
激光雷达与相机的融合
由于相机图像无法直接的出每个像素的深度,所以不能简单地将相机像素投射到BEV网格上。
·使用相机图像做二维的检测,再将检测结果对应雷达的3D坐标,来实现三维检测。例如F-PointNet;
·对相机图像做深度估计,生成伪雷达点云,然后利用稀疏的激光雷达信息对伪雷达信息进行校正,接着在伪激光雷达点云上使用3D检测算法。例如PL++;
·将相机图像特征投影到激光雷达的RV特征中,参考 LaserNet++,再与BEV特征相结合。本文的方法。
模型细节
输入:
激光雷达数据 :使用下面这篇论文的方法将点云转化到BEV视角中,每个时刻t的激光雷达扫描 S t S_t St的激光雷达点云表示为( x , y , z x, y, z x,y,z)。然后,在以SDV为中心的BEV图像中将扫描 S t S_t St立体像素化,体素大小分别为 △ L . △ W . △ V \triangle_L.\triangle_W.\triangle_V △L.△W.△V分别表示的x、y和z轴。并且将过去 T T T-1时刻的编码映射到同一个BEV框架中,并沿着通道维度堆叠特征映射。
N. Djuric, H. Cui, Z. Su, S. Wu, H. Wang, F.-C. Chou, L. S. Martin, S. Feng, R. Hu, Y . Xu, et al. Multixnet:Multiclass multistage multimodal motion prediction. arXiv preprint arXiv:2006.02000, 2020
使用下面这篇论文的方法将将点云转化为RV表示,每个激光雷达点用距离 r r r,强度