自动驾驶的三种控制范式

自动驾驶导航问题可以描述为从感知输入(sensory input)到控制输出(control output)的映射函数,并实现这一函数,目前有三种主要的方法:

modular pipelines (MP)

MP将自动驾驶问题分成更小、更容易的子问题: 感知、路径规划和控制。该方法通常依赖于各种传感器,产生周围环境的一致表示(consistent representation)。然后基于该表示做出驾驶决定。尽管MP由于其模块性而相对可解释(interpretable),但它们依赖于人工选择的复杂中间(intermediate)表示(例如光流),通常难以足够精确地估计出来,并且可能不一定是解决感觉运动控制任务(sensorimotor control task)的最佳选择。此外,MP需要大量注释数据(annotated data),获取这些数据的成本很高,例如,用于训练神经网络的像素语义分割(pixel-wise semantic segmentation)或用于定位的高清地图(high-definition maps)。

模仿学习 imitation learning, IL

IL直接从原始输入映射到控制输出,并以端到端的方式从数据中学习。IL跳过构建显式环境模型的中间步骤。与MP相比,用于训练基于IL的导航系统的数据采集相对容易,即只需要驾车行驶,并记录视频片段(video footage)以及驾驶轨迹。但是,IL面临的问题是在一个单步骤中学习一个非常复杂的映射(从原始输入到控制)。因此,需要一个具有高容量(high capacity)和大量训练数据(a large amount of training data)的模型来处理测试时可能遇到的各种各样的真实世界情况。此外,IL缺少透明度(transparency),因为很难理解神经网络的内部决策过程。这带来了安全问题(raise security concerns):一个不透明的驾驶系统可能不被人信任或放心使用(be confidently used)。

直接感知 direct perception, DP

DP旨在结合MP和IL的优点。DP的目标不是预测环境的详细表示,而是预测环境的低维中间表示,然后在常规控制算法中使用它来操纵车辆。因此,DP不要求网络端到端地学习复杂的感觉运动控制问题;也无需假设具有像素级或盒级标签(pixel-level or box-level labels)的数据集的可用性(这类标签的获取明显比图像级标签更耗时)。陈等人[1]在使用开源模拟器将这种方法应用于公路驾驶(highway driving)时证明了良好的结果。然而,与在农村(rural)或城市(urban)地区驾驶相比,高速公路驾驶是相当容易的任务。在考虑市区导航任务时,增加了几个难点:agent必须遵守交通规则(限速、红灯等)、考虑道路上可能存在的障碍物(如行人过街)、处理具有多个方向的路口(junctions)。DP的核心是如何选择中间表示(intermediate representations),该表示应当是低维的,并应该包含驾驶决策所需要的所有必要信息(comprising all necessary information)。Axel Sauer等[2]采用了affordances (环境赋使)作为中间表示,: 即可用于限制允许的动作空间的环境属性(attributes of envir. which limit the space of allowed actions)。
affordances表示的理解:例如,环境中考虑到前方车辆的距离限制了自我车辆加速的能力;也可以以高层的驾驶决策(例如由传统的导航系统提供)为基础。考虑一辆在十字路口的车辆: 到中心线的距离随着我们希望车辆转弯的方向而变化 (即我们期望follow的lane)。

Ref:

  1. Chen, C., et al. Deepdriving: Learning affordance for direct perception in autonomous driving. in Proceedings of the IEEE international conference on computer vision. 2015.
  2. Sauer, A., N. Savinov, and A. Geiger. Conditional affordance learning for driving in urban environments. in Conference on Robot Learning. 2018. PMLR.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值