无人驾驶的规划与控制(二)——行为决策规划

本文深入探讨了无人驾驶行为决策,包括马尔科夫决策过程的定义、寻找最优策略的方法以及使用MDP的挑战。文章提出基于场景划分的设计行为决策,利用分治思想进行综合决策,确保安全性和驾驶舒适性。内容涵盖状态空间、激励函数设计、个体与综合决策的制定,以及实际应用中的决策系统框架。
摘要由CSDN通过智能技术生成

1 无人驾驶行为决策需要哪些信息

  1. 路由寻径的结果:车辆需要进入的车道是什么(target lane)。
  2. 无人车自身状态:GPS位置,速度,朝向,所在车道,是否正在变道等等。
  3. 历史决策信息:再上一个行为决策周期中,无人车所作出的决策是什么?跟车,停车,转换或是换道?
  4. 周边障碍物信息:障碍物车辆所在的车道,速度,位置,以及短时间内他们的行为预测和轨迹预测。
  5. 交通标识信息:是否有红绿灯,斑马线,停车线。
  6. 交通规则信息:当前道路限速,车道禁行限制等。

2 有限状态马尔科夫决策过程

2.1 马尔科夫决策定义

一个马尔科夫决策过程,由五元组定义:
( S , A , P a , R a , γ ) (S, A, P_a, R_a, \gamma ) (S,A,Pa,Ra,γ)

  1. S代表了无人车所处的有限的状态空间。形如一个包含了车道,环境和本身的珊格世界模型(我的世界)。
  2. A代表了无人车的行为 决策空间,即无人车在所有状态下行为(behavior)空间的集合:包含跟车Follow,换道Change Lane,左转右转Turn Left/Right,停车Stop等。
  3. P a ( s , s ′ ) = P ( s ′ ∣ s , a ) P_a(s,s')=P(s'|s,a) Pa(s,s)=P(ss,a)是一个条件概率(Probability),代表无人车在状态s和动作a的条件下,达到下一个状态s’的概率。
  4. R a ( s , s ′ ) R_a(s,s') Ra(s,s)是一个激励函数(Reward),代表了无人车在动作a下,从状态s跳转道s’得到的激励。
  5. γ ∈ ( 0 , 1 ) \gamma\in(0,1) γ(0,1)是一个激励的衰减因子,当前的激励系数为1,下一个时刻为 γ \gamma γ,下两个时刻为 γ 2 \gamma^2 γ
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值