文章目录
1 无人驾驶行为决策需要哪些信息
- 路由寻径的结果:车辆需要进入的车道是什么(target lane)。
- 无人车自身状态:GPS位置,速度,朝向,所在车道,是否正在变道等等。
- 历史决策信息:再上一个行为决策周期中,无人车所作出的决策是什么?跟车,停车,转换或是换道?
- 周边障碍物信息:障碍物车辆所在的车道,速度,位置,以及短时间内他们的行为预测和轨迹预测。
- 交通标识信息:是否有红绿灯,斑马线,停车线。
- 交通规则信息:当前道路限速,车道禁行限制等。
2 有限状态马尔科夫决策过程
2.1 马尔科夫决策定义
一个马尔科夫决策过程,由五元组定义:
( S , A , P a , R a , γ ) (S, A, P_a, R_a, \gamma ) (S,A,Pa,Ra,γ)
- S代表了无人车所处的有限的状态空间。形如一个包含了车道,环境和本身的珊格世界模型(我的世界)。
- A代表了无人车的行为 决策空间,即无人车在所有状态下行为(behavior)空间的集合:包含跟车Follow,换道Change Lane,左转右转Turn Left/Right,停车Stop等。
- P a ( s , s ′ ) = P ( s ′ ∣ s , a ) P_a(s,s')=P(s'|s,a) Pa(s,s′)=P(s′∣s,a)是一个条件概率(Probability),代表无人车在状态s和动作a的条件下,达到下一个状态s’的概率。
- R a ( s , s ′ ) R_a(s,s') Ra(s,s′)是一个激励函数(Reward),代表了无人车在动作a下,从状态s跳转道s’得到的激励。
- γ ∈ ( 0 , 1 ) \gamma\in(0,1) γ∈(0,1)是一个激励的衰减因子,当前的激励系数为1,下一个时刻为 γ \gamma γ,下两个时刻为 γ 2 \gamma^2 γ