End-to-end Interpretable Neural Motion Planner
1 简介
由Uber高级技术小组与多伦多大学合作完成的End-To-End Interpretable Neural Motion Planner是一篇关于端到端的可解释的神经运动规划器文献,发在CVPR_2019上。论文通过将检测、感知、预测和计划整合到单个神经网络中,该神经网络生成单个模块的输出以及用于计划的成本函数。这些输出可以被检查,从而提高最终驾驶决策的可解释性。
关键点
从前文得到的一些关键信息,帮助理解全文:
- 动机(motivation):产生可解释中间表示帮助人理解机器生成的规划控制信息;
- 输入-中间表示-输出 :输入是原始雷达数据和HD地图,中间表示是3D检测和轨迹预测信息,输出是规划视野上车辆可选择位置的cost volume;
- 轨迹采样:用Sampling的方法采样轨迹,基于位置成本量捕获多模态轨迹信息;
- 数据集:北美几个城市的真实驾驶数据;
- 实验结果:更安全的规划轨迹;
一些背景信息
目前通用技术有两种:mid2mid,end2end;
- mid2mid(传统堆栈技术),优点:主问题子问题化,商业化成熟,具有人为选择的成分在其中,可解释性强,通过先验知识来进行行为决策;缺点:每个子问题的输入输出经过人为标准的选择可能会导致次优问题出现,子问题的impove不一定能够提高整个系统的表现,子问题划分越多计算时间越多,SDV(self-driving-vehicle)反应时间越慢;
- end2end(端到端驱动框架),优点:框架结构简单,理论可行,想法超前,通过修改模型框架的提高对系统表现有明显的提升;缺点:可解释性差,难以融合先验知识。
3 深度结构化规划
3.1 深度结构化规划
将 s = s= s={
s 0 , s 1 , . . . , s T − 1 s^0,s^1,...,s^{T-1} s0,s1,...,sT−1} 看作是跨越未来时间步骤 T 上的轨迹, s t s^t st 表示时间步骤 t 式在鸟瞰图(BEV)上的位置。那么最小化轨迹就可以表示成
s ∗ = a r g m i n s ∑ t c t ( s t ) s^*=arg\underset{s}{min} \underset{t}{\sum}c^t(s^t) s∗=argsmint∑ct(st)
c t c^t ct表示在时间t时的学习成本量索引,最小化轨迹通过采样近似得到。
通过卷积网络骨干计算成本量,从原始LiDAR数据和高精地图中提取特征,输入到卷积网络的两个分支中计算和成本量一样输出3D检测和行为预测。
输入表示
原始点云作为输入,通过顶部的雷达捕获。用连续10个时间步骤来作为预测的观察数据。利用这些扫描图来修正自我运动,将过去10帧的点云带入以SDV为中心的坐标系中。
为了使输入数据适合标准卷积,遵循 Intentnet:Learning to predict intention from raw sensor data 并将空间栅格化为3D占用网格,其中每个体素都有一个二进制值,指示它是否包含一个LiDAR点。 这导致了尺寸为 H ∗ W ∗ ( Z T ′ ) H*W*(ZT') H∗W∗(ZT′) 的三维张量,其中Z、H、W分别表示高度和x-y空间维数。本文沿着Z维串联了时间步骤,从而避免了内存和计算密集型的3D卷积。
加入包含语义信息的HD地图,与Intentnet:Learning to predict intention from raw sensor data类似,对地图进行栅格化,形成M通道张量,其中每个通道代表不同的地图元素。
骨干网络
主干是从 Pixor: Realtime 3d object detection from point clouds 的检测网络改编而来的,由五个块组成。 每个块都有{2,2,3,6,5}Conv2D层,过滤数为{32,64,128。 256,256},过滤器大小3x3和步长为1。每3层后接一个MaxPool。
在前4个块之后生成多尺度特征映射调整到输入大小的1/4,并将它们连接在一起,以增加有效的接收场[。 这些多尺度特征然后被输入到第五块。 整个骨干下采样率为4。
感知头
感知头有两个组成的卷积层,一个用于分类,一个用于回归。 为了减少回归目标的方差,在每个特征映射位置使用多个预处理锚盒 a i , j a a_{i,j}^{a} ai,ja,其中下标i,j表示特征映射上的位置,k索引在锚上。 总共有12个锚在每个位置,有不同的大小,纵横比和方向。
分类分支为每个锚输出一个分数 P i , j k P_{i,j}^{k} Pi,jk,指示车辆在每个锚的位置的概率。回归分支还在不同的时间步骤为每个锚 a i , j a a_{i,j}^{a} ai,ja输出回归目标。 这包括定位偏移 l x t l_{x}^{t} lxt, l y t l_{y}^{t} lyt,大小 s w t s_{w}^{t} swt, l h t l_{h}^{t} lh