MPDM：动态不确定环境下的自动驾驶多策略决策

最新推荐文章于 2024-10-15 01:20:33 发布

智驾人在路上

最新推荐文章于 2024-10-15 01:20:33 发布

阅读量938

点赞数 26

分类专栏： EPSILON时空联合学习文章标签：人工智能自动驾驶

本文链接：https://blog.csdn.net/qq_40875526/article/details/142000116

版权

EPSILON时空联合学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

1.简介

MPDM（Multipolicy Decision-Making in Dynamic,Uncertain Environments for Autonomous Driving）：动态不确定环境下的自动驾驶多策略决策，通过假设被控车辆和其他交通参与者在每个时间步长执行一组可行的闭环策略，该算法选择最佳可用策略供被控车辆执行。通过使用前向仿真模型来为被控车辆与其他智能体选取策略，有效地从他们相互作用的高可能性结果中采样。然后使用自定义的代价函数对不同的驾驶行为进行评分，并选择得分最高的策略。该论文在实车上验证了超车场景，在仿真平台上验证了汇入场景。

2.本文的主要贡献

（1）一种能够处理交通的决策算法

（2）该技术利用闭环交互的仿真来推断行为结果

（3）实车上验证了超车场景，在仿真平台上验证了汇入场景

3.原理介绍

将被控车辆与周围其他车辆以一种闭环策略进行建模，假设其他车辆会做出合理，安全的决定，从而增加不确定性。对于每个候选策略，我们从当前世界状态中采样，使用前向仿真器模拟自车和其他交通参与者的未来行为，从而得到最优策略。然后，我们可以根据驾驶行为的采样结果来评估奖励函数，比如达到目标的快速性以及驾驶舒适性。此外，我们从部分可观察的马尔可夫决策过程(POMDP)模型(参见教程[3])中以原则性的方式开发了我们的方法，因为它提供了一个强大的框架，可以同时考虑最优性标准和动态环境的固有不确定性。但是在连续状态和动作域中寻找一般POMDP的最优解是很困难的。

pomdp为动态、不确定场景(如自动驾驶)中的决策问题提供了严格的数学公式。在[11][12]文献中存在多种寻求近似解的通用POMDP求解器，尽管如此，与现实世界的场景相比，即使对于具有非常小的状态、动作和观察空间的问题，它们也需要几个小时的计算时间。

（1）一般决策过程公式

假设v ∈ V表示局部区域N个车辆中的一个，包括我们的被控车辆，我们可定义一个动作∈ A，使其从t时刻的状态∈ X，转变为新的状态，动作变量是汽车上用于转向、油门、刹车、换挡和方向的驱动控制的元组。请注意，为了可靠地控制车辆，有必要以相对较高的速率选择这种粒度的动作-大约为30到50 Hz。为了表示方便，设为所有车辆的状态变量集合，相应地设为所有车辆的动作状态变量集合。

为了模拟系统中的动力学和不确定性，我们使用基于动力学、观测和驾驶员行为模型的马尔可夫模型来及时地使系统向前发展。条件概率函数T(, ,) = p(|, )模拟动作对车辆状态的影响。同样，我们将观测不确定性建模为条件概率函数Z(,) = p( |)，其中∈Z是每次t时刻传感器观测的组合集，包括观测到的车辆状态和环境中静态危险的地图。我们进一步将环境中其他智能体的行为建模为条件概率分布D(,, ) = p( |, )，其中驾驶员采取的行动仅以当前状态和观察为条件。

在这个决策过程中，我们希望解决的核心问题是为我们的车辆选择一个最优策略π *，其中车辆的策略是一个确定性映射: ×→，它从当前状态和观察中产生一个动作。决策过程在给定的决策范围H内选择奖励最大化的策略，如下所示:

其中，为奖励折扣因子，R（）为奖励函数，p()可表示为：

并使用上述状态转换、观察和驾驶员行为模型进行递归分解，

考虑到这是一个多车系统，我们可以假设每辆车的瞬时动作是相互独立的，因为动作只取决于当前状态和局部观测值。所以：

利用独立性假设，我们得到：

这个公式的问题是，当抽样时，由于每个阶段的不确定性，由于这个系统的状态空间很大，每个样本的后验概率都很小。具有许多不确定性水平的大状态空间导致组合爆炸，特别是当我们考虑到其他车辆可能采取的所有可能的动作序列时。在驾驶的实际案例中，我们希望对做出决策的高可能性情景进行抽样。对整个模型进行抽样将导致许多情况下，其他驾驶员的行为方式与人类驾驶员的行为方式有很大不同，包括急转弯驶离道路和进入其他车道。然而，我们希望在我们的模型中捕获绝大多数驾驶情况，即所有驾驶员在大多数情况下都是安全的，因此我们可以预测其他车辆可能采取的行动。下一节应用旨在将采样集中在更可能的结果上的近似。

(2) 近似决策过程

在本节中，我们将介绍两个关键的近似，它们可以充分减少状态空间，以便于实时使用:

从一组有限离散的已知策略中为我们的车和其他车选择策略
通过具有指定策略的所有车辆的确定性闭环前向仿真，逼近车辆动力学和观测模型。这些近似的结果将把寻找策略的问题转化为对高级车辆行为的离散决策问题。

假设Π是一组精心构建的离散策略，其中每个策略捕获一个特定的高级行为，例如跟车或变道。因为我们假设道路上的其他车辆都遵循基本的驾驶规则，所以我们也可以选择一个策略∈Π来模拟它们的行为。因此，我们可以从式4中重构每辆车的行为：

其中，我们将驾驶员行为项近似为给定的。与公式（4）相比，为该车辆选定给定策略的概率。在本文中，我们假设给定路网模型，我们可以确定其他车辆最可能的策略，并重点关注我们车辆的控制。我们将在今后的工作中解决的精确计算问题。利用式(6)的单车联合分布公式，我们最终将其他车辆v∈v和我们控制下的车辆q∈v分别拆分为:

通过将策略建模为闭环系统，我们可以通过对系统动力学的确定性模拟，合理地近似式（6）中的状态转移项。这是一个合理的近似，因为我们假设我们已经设计了所有的策略，以产生在车辆安全性能范围内可实现的动作序列，从而减少不受控制的车辆动态的影响。

4.多策略决策

我们提出的算法MPDM使用确定性仿真来近似执行我们的汽车和附近汽车的闭环策略，实现了上述的近似决策过程。关键是假设环境中的智能体执行的动作可以建模为一组基于自动驾驶领域知识的策略，有效地近似于第三节中所述问题的解决方案。

MPDM对未来的不确定性具有鲁棒性，在离散决策层面通过连续的重新规划，在低级控制层面通过闭环策略模型，与模型预测控制技术类似，在较长时间范围内连续重新规划H，而只在较短时间内执行，使我们能够对不断变化的车辆行为做出反应。闭环策略模型在状态估计和执行中保证了对有界低阶不确定性的鲁棒性，因为策略可以适应局部扰动。

该算法将一组候选策略Π、当前最可能的状态p(x0)和决策时域H作为输入。请注意，对环境状态的估计包括当前由其他智能体执行的最有可能的策略，在这项工作中，我们根据路网模型和其中智能体的姿态来确定。然后，该算法确定一组适用的策略给到当前状态，下一步是使用前向仿真模型，根据用户定义的代价函数对每个策略进行评分。在这一步中，对于每个适用的策略π，我们对系统在π下从状态x0开始的演化进行采样，以获得系统的状态序列Ψ = (x0, x1, . . . , xH), 其中，0 < t ≤ H，接下来，使用用户定义的代价函数对序列Ψ进行评分。得到的分数c被添加到分数C的集合中。最后，返回与c中最高分相关的最优策略π *。对应的伪代码如下：

（1）策略设计

每个策略实现一个特定的闭环驾驶行为，例如沿车道行驶、变道或执行停车操作。在运行时，我们在独立于策略选择过程的流程中执行当前选择的策略。这些策略是单独设计的，以解释特定的驾驶行为，具有不同程度的复杂性。例如，在一个简单的驾驶场景中，策略可以是:

车道保持:在当前车道行驶，与正前方车辆保持距离;

向左变道/向右变道：每个方向的变道都对应一种独立的策略。

泊车：将车辆停在指定的停车位内

这组策略的构建主要依赖于覆盖在给定道路网络中导航和遵守交通规则所必需的行为集。我们可以调整所表示的行为的范围以匹配特定的应用程序，例如将汽车限制为仅限高速公路的行为。在任何给定的状态下，可能只有车辆行为的一个子集是可行的，因此我们首先对每个可用策略进行适用性检查。例如，如果我们的汽车在高速公路的最右边车道上，执行向右变道的策略将不适用。

请注意，在实践中，算法1中详细介绍的策略选择过程运行得不够快，无法解释紧急车辆处理或突然变化的状态，因此，所有策略的设计都是为了产生安全的行为。这种约束确保了我们能够以实时的速度对不断变化的环境做出反应，而不受策略选举速度的束缚。这个安全标准对于管理其他车辆的异常值策略()很重要，其中我们允许我们的个别策略去管理危险的场景。在未来的工作中，我们将扩展其他车辆的策略集，以包括更容易建模的异常情况，例如停车。

（2）多车辆仿真

通过将前向仿真转换为闭环确定性系统，我们可以捕获车辆之间必要的相互作用，从而为车辆行为做出合理的选择。我们为环境中的其他车辆选择一个可能的策略，然后通过前面在式（7）中详细介绍的确定性状态转移模型向前推进。为了实现1hz或更快的实时速率的策略选举，我们依靠低级控制的闭环特性来实现近似仿真。虽然可以进行高保真仿真，但在实践中，我们使用简化的仿真模型来假设理想的转向控制。关键在于，仿真充分模拟了车辆间的相互作用，以便对执行哪个策略做出合理的决策。

（3）策略选择

为了选择要遵循的策略，我们需要使用包含各种用户定义指标的代价函数来评估所考虑的每个策略的模拟结果，然后选择最佳策略。这个问题的难点在于考虑现实驾驶决策中出现的许多标准。自动驾驶汽车必须在及时到达目的地的同时，以乘客舒适的方式行驶，同时遵守驾驶规则并保持安全。我们将这些标准转换为一组度量m∈M，其中每个度量都是一个函数m: {xt}→R，用于评估固定时域H上的完整模拟状态和动作序列，我们的典型指标包括：

到目标的距离:从最终位置到地图中目标航路点的距离;

车道选择偏差:远离最右边车道的车道成本增加，

最大的yawrate：仿真轨迹中记录的最大的yawrate

简单策略成本:给定策略断开连接的硬编码常数成本。

这些指标包括目标的完成、安全性、“软”驾驶规则的实施以及驾驶员的舒适度。组合这些指标的挑战在于，每个指标都以不同的单位返回成本，并具有不同的预期成本分布。我们通过使用每个指标的标准化分数的线性组合计算每个策略的分数，将这些成本合并为每个策略的单个分数。对于每个指标mj，我们计算相应的权重wj，该权重wj根据用户需求调整指标的经验重要性，以及该指标在给定策略集内的信息量进行编码。我们降低了策略之间变化太少的无信息指标的权重。

5.评估

在超车和汇入场景中，通过实车和仿真环境来评估MPDM，这一评估突出了用闭环策略模拟我们的汽车和邻近汽车的实用性。超车动作表明，随着车辆的前进，有了更好的选择时，你可以在不同的策略之间切换。汇入场景强调了如何用闭环策略模拟所有汽车的前进，使我们的系统能够考虑到我们的行为对其他驾驶员的反应。

对于超车场景，我们再封闭的测试轨道上进行实车验证。我们在仿真环境中，以比实际测试环境中可能出现的更多车辆进行汇入场景的验证。由于本文的范围限制，我们假设其他车辆使用的策略很容易从直接观察中推断出来。在我们的系统中，其他车辆只执行简单的车道保持行为，会减速以考虑其路径内的车辆。然而，这种行为足以证明我们希望评估的车辆时相互作用的。整个实验中策略的选取时域H = 10s，离散的时间步长∆t = 0.25 s。