两万字长文 _ 面向不确定性环境的自动驾驶运动规划:机遇与挑战

两万字长文 | 面向不确定性环境的自动驾驶运动规划:机遇与挑战

附赠自动驾驶最全的学习资料和量产经验:链接

自动驾驶系统是指一种可在部分或完全脱离人类驾驶员的情况下实现车辆安全行驶的自主系统,主要包括环境感知、路径规划、行为决策、导航控制等主要技术模块[1]。车辆使用多种车载传感器获取车辆自身状态和所处环境信息,并基于传感器技术、信号处理技术、通讯技术、自动控制技术、计算机技术、人工智能技术等多领域技术对数据做出分析和判断,最终依据环境和自身意图完成类人的自主决策控制。

由于自动驾驶和辅助驾驶技术不断发展和进步,汽车工业正迎来一次智能化浪潮。以车道偏离预警、车道保持、全速域自适应巡航等为代表的一系列辅助驾驶功能,在乘用车上逐渐普及,并被越来越多的消费者接受。以辅助驾驶技术为主的渐进式自动驾驶路线开始与变革式的完全自动驾驶路线在人工智能赛道上出现交汇[2]。得益于传感器、通信等相关技术的进步,自动驾驶领域迎来快速发展的机遇,汽车的智能化应用也在部分场景展现出更多的可能性。现阶段自动驾驶技术大规模应用的主要阻碍是“不确定性冶挑战,特别是动态交通环境带来的不确定性几乎会影响到相关算法的每个阶段。

路径规划算法作为衔接多个技术模块的重要环节,存在的不确定性问题尤为突出。然而目前大部分自动驾驶运动规划的研究工作依然基于确定性假设,难以处理更动态的不确定性环境。确定性规划虽然有精密的物理模型和动力学模型为其提供良好的先验知识,但通常仅适用于特定、动态程度较低的场景,在复杂场景下缺乏实际应用的意义。自动驾驶车辆在复杂拥堵的交通场景下,需要有效地与交通流交互,这要求主体车辆必须预测自身行为对其它车辆行为的影响,得到在未来一段时间内安全的轨迹,即进行具有交互性与预测性的规划。车辆之间的相互作用是一种复杂和耦合的动态交通状况,局部偏差会在车辆间进行传播,极易导致不确定性的快速积累[3]。其他交通参与者行为具备灵活性和随机性,并有一定的集体特性,目前对其轨迹预测的可靠性仍有待提升。

自动驾驶汽车需要具备更通用性的方法建模交通环境,并实时响应难以预测的状况,从而保证即使在复杂的城市情况下,车辆也能做出及时、安全的响应。不完整的环境表示和不确定性会影响运动规划,因此仍有两个因素需要进一步深入研究:不确定性环境的表征和该环境下的规划。

本文将不确定性下的自动驾驶运动规划算法归纳为两类。

1)部分可观测马尔可夫决策过程(POMDP),基于当前置信状态,计算使未来折扣奖励最大的策略,在车道变更、路口车流、行人交互场景内均有良好应用。

2)概率占用栅格图(POGM),使用概率表征对应栅格上的占用情况,衡量车流动态变化的可能性,良好表征不确定性情况。

本文从问题建模、求解方法、实际应用等方面深入分析这两种方法,并展望不确定性问题解决方法的未来发展方向,分析仍存在的挑战。

01  自动驾驶系统结构及其不确定性分析

自动驾驶系统由环境感知定位、规划决策、执行控制子模块构成,结构如图1所示。环境感知基于车上的多传感器系统,从里程计、惯性测量单元、雷达、相机等传感器中获得感知信息并融合,以此表征环境。多传感器系统可为后续的航迹估算和位置估计提供车辆的运动信息。建图结果作为环境表示,定位结果与地图建立联系。在获得车辆位姿、周围环境后,决策规划生成多条采样轨迹并最终选择安全可行的一条轨迹,计算得到可行速度和加速度。执行控制根据规划得出的轨迹和车辆状态进行自主驾驶。

image

图 1 自动驾驶系统结构图

城市环境中不确定性的因素对自动驾驶系统中的各个模块都会产生影响[4]。在定位模块中,天气和GPS灵敏度等不确定性因素都会导致车辆自身位置在世界系下出现观察误差。在感知模块中,传感器本身固有的不确定性和环境噪声都会导致障碍物位置检测不准确甚至误检漏检,引入碰撞风险。感知与定位会直接影响环境地图的构建与精度。雷达同样存在不确定性,如雷达单次扫描的结果可能出现噪声引起的空间上的误检,而两帧间的信息缺失来源于其固定存在的扫描时间。通信系统带来的不确定性会导致主体车辆与周围交通参与者及道路智能交通设施之间的交互具有滞后性和随机性,难以精确获取其他交通参与者的意图。即使上述不确定性可通过技术性手段进行良好处理,但控制模块仍受制于运动模型本身受到微小扰动的影响,对噪声敏感,难以极短时间内达到预期的加速度和速度。

鉴于上述部分模块存在的不确定性,自动驾驶系统中起到承上启下作用的规划模块需要具备处理上游模块引入的不确定性的能力,并且规划过程中的不确定性与其他交通参与者联系最密切,与车辆自身的安全性密不可分。如果不能正确处理好规划中的不确定性,可能会造成违反交通规则、碰撞等结果。在面临突发危险时,规划能及时响应,给出一条安全可行的轨迹或及时的预警信号,是保证驾驶员和车辆安全的一道防线。因此,处理规划问题中的不确定性,是自动驾驶发展的重要一环。规划要能处理其他交通参与者交互引入的不确定性,即在静态环境的基础上处理动态对象的时间、空间、速度、行为等方面的不确定性。

不确定性存在于自动驾驶规划应用的各类场景,下面将从结构化环境与非结构化环境中介绍其影响。

结构化环境下的无保护左转是自动驾驶中一个亟待解决的难题。即使对于人类驾驶员而言,左转导致的事故率也是右转导致的事故率的十倍。对于自动驾驶车辆来说,路口缺乏信号、难以预测其它车的意图、缺乏其它车辆的转向灯信号等问题导致左转过程的高度不确定性与交互性[5],具体示意图如图2所示。

image

图2  复杂路口交通场景示意图

在非结构化环境中,多车场景的泊车问题同样具有极大的挑战性。随着城市规模增大、车辆密度变高,2022年全国汽车保有量达到3亿辆。高峰时段车辆密度高,邻近车位停车不规范,停车场光线暗、空间狭小,由于多车进入车位的意图不明确,难以根据车辆当前速度给出准确的未来轨迹判断。并且,其它车辆的运动多样化,在低速情况下可能会出现急刹车、倒车等复杂运动轨迹。这些情况都会导致车辆交互问题复杂、难以预测。同样地,车流具备高度连贯性、集体性,驾驶员驾驶习惯不尽相同,自身车辆与其它车辆的交互过程中对其他驾驶员的驾驶习惯不够了解,在产生交互时难以准确预测其他交通参与者的行为变化。确定性规划在上述复杂场景中得出的路径可能会随着场景的动态变化而变得不安全。

但是不确定性规划可通过滤波器预测其他交通参与者状态,使用概率表征可行空间,克服其不确定性引入的碰撞风险,在复杂环境中给出尽可能安全可靠的路径。

02  部分可观测马尔可夫决策过程

部分可观测的马尔可夫决策过程(POMDP)为不确定性环境中自动驾驶的决策和运动规划提供一种经典有效的建模方式。POMDP基于当前置信状态,计算使未来折扣奖励最大的策略,在特定场景下表现稳定,能有效处理非机动车、行人等意图难以预测的交通参与者参与的场景,在变革式自动驾驶系统中应用广泛。

然而,随着问题规模的增大,POMDP规划问题的观测空间、状态空间,甚至动作空间不断膨胀,计算复杂度呈指数级增长,限制POMDP的求解,称为维度灾难[6-7]。同时,迭代深度的增加导致搜索树的广度呈指数增加,称为历史灾难[8]。目前主流的POMDP求解算法通过采样、模拟等方式降低求解的复杂度,以便在可接受的时间内获得较准确的近似解。

2.1 理论介绍

POMDP为解决自动驾驶车辆在不确定性环境中规划决策问题的建模提供一个数学框架。POMDP通常用一个八元组表示image。S表示状态空间。A表示动作空间。image表示观测空间。T表示状态转移模型,

image

表示在状态s(image)下执行动作为a(image),得到下一时刻的状态为image的概率。在自动驾驶系统中,下一时刻的状态image通常还需要考虑交通参与者的运动学模型。O表示观测模型,image表示采取动作a、系统状态转移为image时,获得观测为imageimage)的概率。值得注意的是,观测信息是POMDP在马尔可夫决策过程(Markov Decision Pro-cess,MDP)的基础上新增的信息量,目的是通过观测信息预测环境的隐藏状态。考虑到环境的不确定性,决策主体无法通过传感器准确获取全部的系统状态,这种部分可观测性也是POMDP的特点之一。因此,决策主体需要利用现有的不完全观测量推测真实的环境状态量。image表示奖励模型,image表示在状态image采取动作image获得的即时奖励。人们一般根据如下3个指标对自动驾驶的运动规划效果进行衡量:安全性、有效性、舒适性[9-11]。安全性主要取决于自动驾驶车辆与动态障碍物、静态障碍物是否保持在安全距离内。安全是自动驾驶的第一要务,因此POMDP对非安全性行为赋予巨大惩罚。有效性体现运动规划的实际效果,由自动驾驶车辆到达目标位置耗时或车辆在行驶过程中的平均速度决定。有效性是自动驾驶运动规划追求的目标,因此POMDP对违背有效性的自动驾驶行为进行较大的惩罚。舒适性通常由轨迹的平均曲率及自动驾驶车辆的减速次数决定。通过惩罚违反舒适性准则的行为,自动驾驶车辆在保证安全有效行驶的前提下可为乘客提供良好的乘坐体验。image表示折扣系数,决定未来决策对当前状态的影响程度。一般情况下image,表示随着决策过程的不断迭代,未来决策收益对当前决策的影响逐渐减小。image表示初始信念状态,即初始时刻环境中不确定性状态的概率分布。

考虑到环境状态的部分可观测性,POMDP引出信念状态的概念,用于表示当前时刻环境各种可能状态的概率分布。自动驾驶系统中的不确定性可大体分为两类:1)系统硬件自身带来的不确定性,包括感知和控制的不确定性;2)其他交通参与者行为意图的不确定性。针对第1种不确定性,POMDP通常引入高斯噪声进行不确定性建模。针对第2种不确定性,POMDP通常将不同交通参与者的行为意图建模成不可观测的离散状态,如运动轨迹、速度、加速度、道路保持、换道等,并对每种不可观测状态赋予概率,模拟意图行为的不确定性。

将问题建模成POMDP的最终目的是获取在当前状态下的最优策略image

  • 32
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值