自动驾驶导航问题可以描述为从感知输入(sensory input)到控制输出(control output)的映射函数,并实现这一函数,目前有三种主要的方法:
modular pipelines (MP)
MP将自动驾驶问题分成更小、更容易的子问题: 感知、路径规划和控制。该方法通常依赖于各种传感器,产生周围环境的一致表示(consistent representation)。然后基于该表示做出驾驶决定。尽管MP由于其模块性而相对可解释(interpretable),但它们依赖于人工选择的复杂中间(intermediate)表示(例如光流),通常难以足够精确地估计出来,并且可能不一定是解决感觉运动控制任务(sensorimotor control task)的最佳选择。此外,MP需要大量注释数据(annotated data),获取这些数据的成本很高,例如,用于训练神经网络的像素语义分割(pixel-wise semantic segmentation)或用于定位的高清地图(high-definition maps)。
模仿学习 imitation learning, IL
IL直接从原始输入映射到控制输出,并以端到端的方式从数据中学习。IL跳过构建显式环境模型的中间步骤。与MP相比,用于训练基于IL的导航系统的数据采集相对容易,即只需要驾车行驶,并记录视频片段(video footage)以及驾驶轨迹。但是,IL面临的问题是在一个单步骤中学习一个非常复杂的映射(从原始输入到控制)。因此,需要一个具有高容量(high capacity)和大量训练数据(a large amount of training data)的模型来处理测试时可能遇到的各种各样的真实世界情况。此外,IL缺少透明度(transparency),因为很难理解神经网络的内部决策过程。这带来了安全问题(raise security concerns):一个不透明的驾驶系统可能不被人信任或放心使用(be confidently used)。
直接感知 direct perception, DP
DP旨在结合MP和IL的优点。DP的目标不是预测环境的详细表示,而是预测环境的低维中间表示,然后在常规控制算法中使用它来操纵车辆。因此,DP不要求网络端到端地学习复杂的感觉运动控制问题;也无需假设具有像素级或盒级标签(pixel-level or box-level labels)的数据集的可用性(这类标签的获取明显比图像级标签更耗时)。陈等人[1]在使用开源模拟器将这种方法应用于公路驾驶(highway driving)时证明了良好的结果。然而,与在农村(rural)或城市(urban)地区驾驶相比,高速公路驾驶是相当容易的任务。在考虑市区导航任务时,增加了几个难点:agent必须遵守交通规则(限速、红灯等)、考虑道路上可能存在的障碍物(如行人过街)、处理具有多个方向的路口(junctions)。DP的核心是如何选择中间表示(intermediate representations),该表示应当是低维的,并应该包含驾驶决策所需要的所有必要信息(comprising all necessary information)。Axel Sauer等[2]采用了affordances (环境赋使)作为中间表示,: 即可用于限制允许的动作空间的环境属性(attributes of envir. which limit the space of allowed actions)。
affordances表示的理解:例如,环境中考虑到前方车辆的距离限制了自我车辆加速的能力;也可以以高层的驾驶决策(例如由传统的导航系统提供)为基础。考虑一辆在十字路口的车辆: 到中心线的距离随着我们希望车辆转弯的方向而变化 (即我们期望follow的lane)。
Ref:
- Chen, C., et al. Deepdriving: Learning affordance for direct perception in autonomous driving. in Proceedings of the IEEE international conference on computer vision. 2015.
- Sauer, A., N. Savinov, and A. Geiger. Conditional affordance learning for driving in urban environments. in Conference on Robot Learning. 2018. PMLR.