基于博弈论的交叉路口冲突决策框架

最新推荐文章于 2025-04-27 22:34:10 发布

Zhang__CJ

最新推荐文章于 2025-04-27 22:34:10 发布

阅读量2.6k

点赞数 5

分类专栏：路径规划文献综述文章标签：自动驾驶算法几何学

原文链接：10.1109/TITS.2021.3108409

版权

路径规划文献综述专栏收录该内容

3 篇文章

订阅专栏

文章目录

前言
一、摘要
二、正文
参考文献

前言

以下为大家解读一篇被IEEE Transactions on Intelligent Transportation Systems Early Access的关于无人驾驶路径规划方面的文章《Helping Automated Vehicles With Left-Turn Maneuvers: A Game Theory-Based Decision Framework for Conflicting Maneuvers at Intersections》，是伊利诺兹大学香槟分校的研究人员写的，该文章还未被收录，使用博弈理论解决交叉路口冲突。

一、摘要

联网自动驾驶汽车（CAVs）的部署为提高运输系统的安全和效率提供了机会。然而，尽管这项技术发展迅速，但预计人类驾驶的车辆将在交通中占主导地位，迫使CAVs需要能在混合交通环境中运行。在这种环境中实现可靠和安全的人车协作的关键是解决互动问题，并将人类驾驶员的基本决策机制纳入CAVs的运动规划算法。为了实现这一目标，并扩展先前开发的博弈理论模型，本研究提出了一种拟人化的决策方法解决交叉路口的冲突问题。该项目组搭建了现场测试环境，直接从CAVs的感知系统中提取所需的建模数据。模型考虑了环境不确定性，很好地捕捉人类驾驶员在无保护的左转机动中的真实行为。所得出的知识可以直接用于CAV运动规划算法，为车辆在混合交通环境中运行时提供更准确的行为预测结果。

二、正文

1.引言

A.背景介绍

本文考虑无人与有人车辆共同参与的混合交通场景。其中，最具挑战性的决策建模和预测场景之一是车辆在城市交叉口，人类的决策会极大地影响驾驶操作的安全和效率。人类交通参与者缺乏意识、反应迟钝或决策失误会导致不安全和不可靠的转弯动作或大幅降低驾驶速度以确保安全。然而，CAVs可以通过准确测量距离和速度，监测周围环境，并对各种驾驶情况及时作出反应，从而有可能克服这些限制。结合可靠的理解和对人类驾驶者行为的可靠理解和预测，CAV可以快速反应，执行可靠和安全的轨迹。
对车辆进行无保护路口左转的顺序分析通常是基于规则和模型的，比如基于迎面而来的车辆之间提供的间隙，以及左转弯司机的间隙接受程度。然而，现实世界的观察表明，实际行为可能更复杂。例如，迎面而来的车辆可能会加速以阻止左转动作或者减速为转弯车辆提供更大的间隙。因此，仅仅基于模型在作者认为是不够的。

B.本文贡献

本文主要思想是将现实世界中对人类行为的观察与非合作的纳什均衡理论联系起来，并建立一个行为决策架构，该架构可直接用于混合交通环境下的CAVs。我总结和精简一下：即从数据中估计博弈理论中回报收益的各个参数值。

2.博弈模型搭建

本文提出了一个基于博弈理论的建模框架，以近似人类在交叉路口左转决策，博弈场景主要由三个部分：（1）玩家（决策者）；（2）每个玩家可以选择的一组可能行动；（3）回报收益，代表玩家在每个游戏结果的预期回报。假设每个玩家都是理性的，即每个玩家都是以自己收益的最大化为动机的。本文利用完全信息动态非合作博弈。
在这里插入图片描述
我们从上图中直观的描述一下博弈理论中的三大要素，博弈参与者就是player A和B。A有两个可供选择的行为：左转或者等B通过十字路口；B也有两个可供选择的行为：直行或者减速。TABLE 1表明了这场博弈的四种策略组合，其中 $U_{xx}^A$ 和 $U_{xx}^B$ 分别表述A或者B在XX策略下的回报。
在这里插入图片描述
下面我们重点来介绍回报获取方法。

回报包括确定性因素 $v$ 和不确定因素 $\varepsilon$ ，然后作者结合图1分析了 $v$ 和哪些因素有关，得到下式：

对于A，在决策时，需要决定是左转还是等待，该决策中两个决定因素是车辆相对速度和距离。所以在A选择左转时的支付函数（也就是回报函数）中要引入避免碰撞的加减速度，此外在转弯时还需要保持舒适的加减速度，由此有了（2）（3）。此外，当 $\frac{h_1}{h_0}$ 越大，A等待下个间隙进行左转的概率就越高，这一信息可能需要通过V2V的方式获取，因为A可能看不到B后面的车，然后我们就有了（4）（5）。相同的方法分析B也是如此，得到（6）-（9）。值得注意的是比较（3）和（7），因为A的决策是停车，所以B直行时，不可能与A碰撞，但是呢B的策略是减速，所以A左转时，仍需要考虑可能与B发生碰撞。然后咱们就已经把博弈模型搭建好啦。
文中指出，如果A决定在当前博弈中等待，那么A和下一辆车将再次进行另一场博弈。

3.数据来源

接下来要做的事情就是通过大量数据辨识支付函数中的参数，然后再用大量数据验证这个参数可不可能，给出正确率，然后就大功告成，那么数据怎么来呢？在本文中，作者提出相关数据非常少，因为大部分研究都基于仿真，所以他们自己去采数据。
在这里插入图片描述
对其中一个情况，作者做了分析：

这样子的数据，作者提取出来了224组，做了如下汇总：

4.模型求解

对于一个博弈模型，有同步的也有贯序的（就是动态的），在之前的研究当中，作者已经用了同步的方法，这里他用贯序的方法（斯塔克伯格博弈）对该场景进行建模，并比较了之前的建模方法，以挖掘更近似人类真实驾驶模式的博弈模型。
受到Kita《An inverse analysis of interactive travel behavior》这篇文章的启发，基于非合作博弈中的纳什均衡理论，使用了一种全新的方法校准博弈参数。目的是用与观测数据最一致的值估计参数，所提出方法基于对决策者之间交互行为的逆向分析，以一个分层的方式，首先计算每个可能组合是纳什均衡点的概率。然后，将每个组合的纳什均衡概率设置为和观测的数据一致。使这些概率最大化的参数即为估计参数。

A. 纳什均衡

（1）同时博弈纳什均衡

纳什均衡（NE）是博弈论中一个解决方案的概念，即当他人决策不改变时，我能使我回报最高的决策，用数学话语描述，即当A选1，B选1为纳什均衡解时：
在这里插入图片描述
事实上，纳什均衡点可能不止一个，当下面这个式子被满足时，纳什均衡点就有两个：

因此需要确定一个标准来选择唯一的纳什均衡点，以指定实现哪个结果，与实际观测值才能进行匹配。虽然有研究指出从多个平衡点中选取一个平衡的方法，但是在无人驾驶领域中并没有广泛接受的方法，在本文中，假设当存在两个纳什均衡点时，均衡点的选择概率记为 $\delta$ 和 $1-\delta$ ，因此A选策略1，B选策略1是纳什均衡点的概率为：
在这里插入图片描述

（2）斯塔克伯格博弈纳什均衡

即玩家一个接一个选择动作，后选策略的玩家有关于先前玩家选择策略的信息。通过逆向归纳法确定策略，称为子博弈完美纳什均衡（SPNE）。
这里作者给了个图，有误，有兴趣的同学可以去看一下，我重新画了一个，方便大家理解这个贯序博弈。按照交通法规，在无信号灯的路口，转弯让直行，右转让左转，所以B拥有优先决定权。
在这里插入图片描述

B 逻辑模型

为了解PSNE 和 SPNE概率，需要对支付函数中不可观测部分做出一些假设。用下式表示第k个玩家在游戏n中采用i策略可以得到最大回报值的概率。
在这里插入图片描述
假设 $\varepsilon_{i|n}^k$ 已知，该式子就可以表示为 $\varepsilon_{j|n}^k$ 的累积分布函数，然后我们就可以通过假设误差项的模型来表示这个累计分布函数，使用的是Gumbel分布来表示误差项，其累计分布函数（CDF）和概率密度函数（pdf）如下所示：
在这里插入图片描述
对于每个他人决策j，都需要满足，所以最终是采用连乘的形式来表示，如下所示：

假设 $\varepsilon_{i|n}^k$ 未知，那么通过概率密度函数，就可以描述为在每个 $\varepsilon_{i|n}^k$ 下的积分结果，如下所示：
在这里插入图片描述
通过一些数学转换，文中没提，也不是他的创新点，变成了著名的Logit模型：

可以看到，误差项，直接没了，这就是数学，太牛逼了，所有研究的基础，具体推导有兴趣的同学了解去吧，我是没这个实力的。通过这一步，再加上之前设立处理多个纳什均衡时的 $\delta$ ，我们就可以算得指定策略组合是纳什均衡的概率。

C. 最大似然估计(MLE)

文中使用最大似然估计校准博弈参数，以使得观测结果的概率最大化。考虑将现实生活中观测得到的N个真实博弈场景作为参数估计。在游戏n中玩家使用实际观测到的相同策略的概率通过以下公式得到（即观测到的策略=纳什均衡策略）：
在这里插入图片描述对于N个博弈来说，就可以获得似然函数likelihood function：

我们的目标就是建立一组 $\theta$ 使得 $L(\theta)$ 最大。这点我用通俗一点的语言再解释以下，以防朋友们还没理解，就是说对于N次博弈中的每一个，我们都先根据那些观测到的已知参数，比如距离啊，速度啊之类的，以及 $\theta$ ，根据前面的方法求各个策略是纳什均衡点的概率，然后呢看我们观测到的真实的那个策略在求出来的那个分布概率里面的值是多少，拿出来，然后对N次博弈每次都这样操作以下，乘积就是似然函数。

5. 结果分析

本文224个观测结果中，用了168个进行参数校准和估计，剩余的用于测试，使用python3.7 scipy库实现优化，用MLE进行参数估计。从耗时角度，使用斯塔克伯格博弈节约了8%时间，参数校准结果如下：
在这里插入图片描述
测试方法就是求出对应参属下策略组合为纳什均衡点的分布，然后看最大概率是不是实际观测得到的策略组合。然后用均方根误差来描述：

$1(x_i' - x_i)$ 表示当估计策略与实际策略相等时，为0，否则为1。
在这里插入图片描述
表4说明使用贯序的博弈准确率和RMSE更高，至于 $l^2$ 是个啥，原文甚至都没有解释，就很离谱，感兴趣的同学可以帮我一起找找原文里哪里说了这是个啥意思，我猜测是时间，可以留言哈，谢谢大家！

表5对错误进行了分析，A判断错误概率，B判断错误概率，以及AB都判断错误概率，可以看出来，贯序博弈和同时博弈对于B来说差不多，因为B先嘛，但是对A影响比较大，贯序博弈使得对左转的那个车判断更准确了。
在这里插入图片描述
这张图完全看不懂，我感觉作者搞错了，文字部分他说通过这张图可以看出玩家选择的观察到的决策集在所提出的斯塔克伯格贯序博弈中被指定为平衡点的概率与同时博弈模型高。但这上图是概率分布图啊，面积和竟然不是1，而且概率会超过1，不理解，一般纵坐标是概率，横坐标是策略组合吧。
然后作者又给了一张可能在我看来是错误数据的表来描述斯塔克伯格博弈在敏感性问题上表现比同时博弈要好，我们来看看我为啥这么说：
在这里插入图片描述
如何评价敏感性呢，就是说当相关参数都增加百分之一，看看系统表现怎么样，但是呢图中给的数据明显都一样，应该是给错了。

最终下了结论，用贯序博弈更好,全篇完！

参考文献

Analooee A, Kazemi R, Azadi S. SCR-Normalize: A novel trajectory planning method based on explicit quintic polynomial curves. Proceedings of the Institution of Mechanical Engineers, Part K: Journal of Multi-body Dynamics. 2020;234(4):650-674. doi:10.1177/1464419320924196