[决策规划算法]自动驾驶中的行为决策


前言

在多智能体决策的复杂环境中(存在感知不确定性情况下)进行规划这一问题一直是L4、L5级自动驾驶技术的核心瓶颈之一。
文章转自自动驾驶中的决策规划算法概述


一、有限状态机

自动驾驶车辆最开始的决策模型为有限状态机模型,车辆根据当前环境选择合适的驾驶行为,如停车、换道、超车、避让、缓慢行驶等模式,状态机模型通过构建有限的有向连通图来描述不同的驾驶状态以及状态之间的转移关系,从而根据驾驶状态的迁移反应式地生成驾驶动作。

有限状态机模型因为简单、易行,是无人驾驶领域目前最广泛的行为决策模型,但该类模型忽略了环境的动态性和不确定性,此外,当驾驶场景特征较多时,状态的划分和管理比较繁琐,多适用于简单场景下,很难胜任具有丰富结构化特征的城区道路环境下的行为决策任务。


二、决策树

决策/行为树模型和状态机模型类似,也是通过当前驾驶状态的属性值反应式地选择不同的驾驶动作,但不同的是该类模型将驾驶状态和控制逻辑固化到了树形结构中,通过自顶向下的“轮询”机制进行驾驶策略搜索。这类决策模型具备可视化的控制逻辑,并且控制节点可复用,但需要针对每个驾驶场景离线定义决策网路,当状态空间、行为空间较大时,控制逻辑将比较复杂。另外,该类模型同样无法考虑交通环境中存在的不确定性因素。


三、基于知识的推理决策

基于知识的推理决策模型由“场景特征-驾驶动作”的映射关系来模仿人类驾驶员的行为决策过程,该类模型将驾驶知识存储在知识库或者神经网络中,这里的驾驶知识主要表现为规则、案例或场景特征到驾驶动作的映射关系。进而,通过“查询”机制从知识库或者训练过的网络结构中推理出驾驶动作。

该类模型主要包括:基于规则的推理系统、基于案例的推理系统和基于神经网络的映射模型。

该类模型对先验驾驶知识、训练数据的依赖性较大,需要对驾驶知识进行精心整理、管理和更新,虽然基于神经网络的映射模型可以省去数据标注和知识整合的过程,但是仍然存在以下缺点:

  • 其“数据”驱动机制使得其对训练数据的依赖性较大,训练数据需要足够充分;

  • 将映射关系固化到网络结构中,其解释性较差;

  • 存在“黑箱”问题,透明性差,对于实际系统中出现的问题可追溯性较差,很难发现问题的根本原因。


四、 基于价值的决策模型

根据最大效用理论,基于效用/价值的决策模型的基本思想是依据选择准则在多个备选方案中选择出最优的驾驶策略/动作。

为了评估每个驾驶动作的好坏程度,该类模型定义了效用(utility)或价值(value)函数,根据某些准则属性定量地评估驾驶策略符合驾驶任务目标的程度,对于无人驾驶任务而言,这些准则属性可以是安全性、舒适度、行车效率等,效用和价值可以是由其中单个属性决定也可以是由多个属性决定。

澳大利亚格里菲斯大学的Furda和Vlacic提出了多准则决策方法从候选动作集中选择最优的驾驶动作;新加坡国立大学的Bandyopadhyay等人提出了基于POMDP的行为决策模型,用以解决存在感知不确定性的情况;卡内基梅隆大学的Wei J等人提出基于PCB(Prediction and-Cost-function Based)的行为决策模型,其侧重点在于如何构建恰当的代价函数来指导对环境的预测;为了解决在多智能体参与的复杂环境中的决策问题,许多基于博弈论的模型也被研究者用来推理车辆之间的交互行为,;此外,因为在特征提取方面的优势,深度强化学习技术也开始被广泛应用,以完成最优驾驶动作的生成。


  • 3
    点赞
  • 76
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Travis.X

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值