第三节学习一下机器博弈具体是怎么解决自动驾驶中的规划问题的:
分为宏观上的决策(是否并道),或是以轨迹的形式表示决策
一、
在车道上多方的博弈可以看做是在过程中使自己的奖励最大化,通常的奖励可以设置为安全舒适和达到目的两部分。以并道事件为例,考虑到博弈的非合作性质,车辆最终会采用形成纳什均衡的策略。为了评估模型参数,可以使用双层估计方法,上层为最小二乘问题,下层为寻找平衡点的线性互补问题。
玩家1代表并道车辆,玩家2代表本来在道路上的车辆,双方必须在看到对方后立即决定一系列行动,以最大化各自在游戏中的奖励。这些决策基于它们的瞬时状态,包括速度和加速度等,以及它们对交互情况的预测。每个玩家的行动策略如下:
1.merge车辆可以选择立即并入干线交通,也可以等待下一个可用的间隙;
2. lag车辆的选择是保持当前的跟车状态,还是减速让路,以便顺利并道。
lead车辆虽然不作为玩家,但是其影响也会被记入博弈的收益函数。
纳什均衡:没有任何参与人能够通过改变选择特定策略的概率来单方面增加自己的预期收益时,就达到了均衡。
收益函数:首先是最小化碰撞风险,其次是最小化速度变化。典型的并道场景假设如下:(1)在接近并道路段之前,lag车辆和lead车辆与正常跟车情况一样相互作用;(2)当并道车辆出现在辅助车道上且lag车辆与merge车辆之间的距离小于阈值时,lag车辆和merge车辆立即构建各自的收益矩阵。超出这一距离阈值的车辆被假定为超出了相互作用范围。
二、
为了确定车辆的行为,该问题被描述为一个动态博弈,其中被控制车辆根据其他车辆的预期行为做出决策。采用问题分解技术,通过引入有限个数的连续子博弈来降低原始问题的维数。子问题根据每个变道决策的时间瞬间进行区分,并在相邻子问题的边界上保证受控车辆纵向和横向位置的连续性、速度和加速度。这使得我们可以使用基于子问题的庞特里亚金原理的高效求解方法在较低水平上寻找最优加速度,并计算每个变道策略的预测成本。然后,对预测成本进行比较,以优化更高层次的变道决策。可以生成未来的变道序列和加速度。