首个开源混合运动规划框架！规划可解释和决策准确两大王牌-CSDN博客

作者 | Rainer Trauth 编辑 | 深蓝AI

点击下方卡片，关注“自动驾驶之心”公众号

本文只做学术分享，如有侵权，联系删文

导读：

本文开发了一种新的混合运动规划方法，将环境和预测信息集成在Frenet坐标系中，提升了运动规划能力。本文将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合，从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。

▲图1｜运动规划代理的混合强化学习原理

本文介绍了一种自主运动规划的新方法，即在Frenet坐标系中使用强化学习（RL）代理来指导分析算法。这种组合直接解决了自动驾驶中的适应性和安全性问题。运动规划算法对于驾驭动态和复杂场景至关重要，然而，传统方法缺乏不可预测环境所需的灵活性，而机器学习技术，尤其是强化学习（RL），虽然具有适应性，但却存在不稳定和缺乏可解释性的问题。作者独特的解决方案将传统运动规划算法的可预测性和稳定性与RL的动态适应性相结合，从而形成了一个能够有效管理复杂情况并适应不断变化的环境条件的系统。

▲图2｜Frenetix运动规划器

正如各种碰撞报告所记录的那样，自动驾驶技术在现实世界中的实施拥有极大挑战。这些挑战包括在复杂的城市环境中导航、管理不可预测的交通和行人行为以及在新环境中做出明智的决策。这种不可预测性要求运动规划领域采用高度复杂且适应性强的算法。

传统的分析规划方法通常不足以处理现实世界场景的动态性质，这强调了自动驾驶系统对增强决策能力和强大适应性以确保安全和效率的迫切需求。此外，分析基于规则的模型需要调整参数，这涉及识别和调整适合特定场景的各种设置和参数，这些调整通常是通过专家知识和数值评估技术进行的。值得注意的是，即使是微小的参数变化也会明显影响系统的行为。调整整个系统既低效又昂贵，在处理多种配置和变体时，这一点变得更加明显。

当代机器学习方法，尤其是强化学习，在复杂场景中有望实现出色的性能。然而，学习过程的有效性取决于所使用的特定环境和训练配置。尤其是在自动驾驶中，用于运动规划的机器学习模型成功率较低，或者只能在高速公路驾驶等特定环境和场景中取得成功。此外，复杂场景需要较长的训练时间，并且Sim2Real可能会出现失真问题。此外，这些代理的决策过程通常缺乏固有的透明度，需要在验证和实施安全措施方面付出相当大的努力，以确保其行动的可靠性和可信度。应对这些挑战至关重要，尤其是在安全性和可靠性至关重要的自动驾驶领域。

相比之下，结合分析和机器学习模型的混合方法有望在这两个领域都发挥优势。基于此，作者提出了一种使用两阶段代理进行运动规划的新方法，如图1所示。在这种方法中，分析模型的基础稳健性与机器学习算法的动态学习能力相结合，提高了驾驶行为环境中的性能和适应性。这种混合方法有效地弥补了理论构造与实际应用之间的差距，特别是在具有复杂、非线性数据模式的环境中。特别注意，这些混合模型通常需要较少的数据进行有效训练，在数据匮乏的情况下具有优势。另外，可以将安全方法和附加功能有效地集成到分析规划算法中。

▲表1｜学习过程的观察空间

多年来，自动驾驶运动规划一直是研究的热门领域。目前，已有多种方法被开发用于解决自动驾驶的规划任务。规划方法大体可分为以下几类：

●基于图的算法通过节点和边的网络来寻找结构化路径；

●基于采样的方法通过生成大量可能性来探索各种轨迹；

●基于优化的规划方法则通过系统地评估各种约束和目标来找到最有效的轨迹，其通常使用线性规划、动态规划或基于梯度的优化等技术。

此外，利用人工智能的算法被开发出来用于在动态环境中提供高适应性。自动驾驶研究领域中已有几种机器学习模型可以学习控制方向盘和加速度，这些模型几乎完全使用特定场景进行训练，例如高速公路驾驶或决策代理。虽然这些模型体现出性能的改进，例如类似场景决策的准确性和决策制定的实时性都得到改进，但在更复杂的场景的成功率太低，特别是对于现实世界的应用。还通过逆强化学习研究了学习类似人类的行为。可以学习和采用某些特征的驾驶行为。然而，这并不能从根本上提高自动驾驶复杂场景行为规划成功率。

相关研究探讨了迭代学习和人类反馈如何改善自主机器人在复杂环境中的导航。通过将这些元素集成到传统导航系统中，该研究展示了潜在的性能改进，同时保持了系统的安全性和可解释性，这项研究为开发机器人自适应导航系统提供了一个值得注意的视角。结果虽然很有希望，但主要作为概念验证，它们没有纳入复杂的公共道路环境，也没有考虑到其他道路使用者的预测不确定性。此外，该方法没有集成复杂的分析规划算法；相反，它依靠机器学习来吸收基于专家知识的参数设置。

也有人提出了一种将RL与快速探索随机树相结合的自动驾驶汽车运动规划框架。它专注于有效控制车速和确保安全，使用深度学习技术适应不同的交通状况。该方法的主要问题是其在高维状态空间中的收敛速度慢，这损害了其实时适用性。此外，该方法仅适用于某些场景，限制了其通用性。其他研究采用 RL 通过分析模型确定执行动作的最佳切换点。这种方法适用于诸如定时车道变换和促进不同道路使用者之间的互动行为等场景。当前的研究表明，在探索一种将机器学习与强大的轨迹规划分析算法相结合的混合方法方面存在差距，这种方法可以确保高成功率、实时能力、可解释性和附加安全功能的集成。可以使用这种独立于监督学习数据集的概念来研究其优缺点。

▲图3｜学习过程结构的类图

本节介绍了基于分析采样的轨迹规划器架构与RL设计的结合，以开发混合运动规划方法。

■4.1 基于采样的运动规划器

本文所用的分析轨迹规划算法是基于Frenet坐标系中采样方法，作者使用神经网络的算法来预测场景中的其他车辆。该算法在一个时间步内的流程如图2所示。该流程可归纳为以下主要阶段：

●车辆状态更新：车辆使用自我、预测和环境信息更新与Frenet坐标系有关的所有状态。

●轨迹采样：该算法根据采样矩阵对可能的轨迹进行采样。作者使用时间、速度和横向采样指标来创建取决于当前自我车辆状态的不同轨迹方案。

●轨迹运动学检查：根据单轨模型和车辆参数检查生成的轨迹的运动学可行性。

●轨迹成本计算：作者使用不同的成本指标（如碰撞概率、加速度、到参考路径的距离和速度偏移成本）来区分不同轨迹的性能。作者将碰撞概率成本与来自预测信息的其他障碍物相结合。轨迹生成采用C++实现，以减少计算时间并加速训练过程。

●轨迹碰撞检查：分析成本最低的轨迹是否可能与车道边界和其他障碍物发生碰撞。此步骤在成本计算步骤之后进行，以提高计算效率。

按绝对成本排序的第一个无碰撞轨迹是更新当前车辆状态的最佳轨迹。根据为每个连续时间步计算的最佳轨迹更新车辆的状态。轨迹涵盖3秒的范围。模拟的时间步离散化为0.1秒。

▲图4｜轨迹损失观测空间

■4.2 强化学习过程

在本节中，作者将集成一个RL算法，该算法优化了后续提出的基于采样的轨迹规划器的轨迹选择过程。对于定制环境和训练过程，作者使用gymnasium4和stable-baselines35。对于代理的模拟环境，作者使用CommonRoad。优化由近端策略优化（PPO）执行，这是一种通过剪辑策略更新来平衡探索和利用的RL算法。它避免了可能导致性能下降的大型策略更新，从而使训练更加稳定和可靠。

该方程表示截断的替代目标函数，这对于PPO算法的效率和稳定性至关重要。这里，表示策略参数，是时间步长上的经验期望，表示新策略与旧策略下的概率比，表示时间时的估计优势，是控制目标函数中截断的关键超参数。作者使用MlpLstmPolicy的循环PPO优化来处理时间关系和信息。传统的PPO架构通过长短期记忆（LSTM）网络进行扩展，这是一种适用于动态时间序列数据的循环神经网络。这种方法在顺序数据和部分可观察环境中非常有效。

●LSTM状态更新：在每个时间步，LSTM根据当前输入、先前的隐藏状态和先前的单元状态更新其隐藏状态和单元状态，。

●策略和价值函数：更新后的隐藏状态随后被策略网络和价值网络使用，其中是动作，是时间的状态。这种集成使网络能够记住过去的状态，从而增强复杂环境中的决策能力。

▲表2｜PPO训练过程的混合奖励

为了启动优化过程，首先需要设计几个关键组件：观察空间、终止标准、奖励系统的结构以及代理行动空间的定义。图3显示了类图，概述了训练过程中不可或缺的功能。

◆观测空间：观测空间分为表1中的类别和观测值。

◆类别可以分为各种类型：源自自我车辆的类别、与实现目标区域相关的类别、周围信息、轨迹细节以及与采样轨迹相关的成本信息。与其他仅假设直接车辆控制的系统不同，作者的方法提供了增强观察空间的补充数据。轨迹规划算法的数百条采样轨迹通过图2中的计算步骤包含附加信息。这些数据的关键要素包括运动学上可行的轨迹数量、每条轨迹的相关风险水平及其各自的成本分布。此外，作者使用图4中所示的概念来解决碰撞概率感知问题。

示意图显示了采样的轨迹。作者可以通过采用时间、速度和横向相关采样来构建网格。该网格使作者能够分析与最外层轨迹相关的碰撞概率成本的变化，从而丰富了观察空间。这种方法可以映射随时间变化的差异和相关性。在图中，正横向d方向的轨迹比负d方向的轨迹具有更高的碰撞概率成本。

◆动作空间：图1显示了分析轨迹规划器和RL代理之间的连接。代理学习动作，即轨迹规划器的成本权重。理论上，任何调整都可以传递给轨迹规划器。在作者的案例中，作者研究成本权重的调整来证明这一概念。为了实现和谐的行为，代理可以减少或增加轨迹规划器的当前成本权重。等式（2）显示了代理在时间步中关于每个成本项的动作空间。

考虑，它是范围内的浮点值。这里，和分别表示绝对成本项的预定义最小值和最大值。此外，表示来自前一个时间步的权重，而表示算法的当前动作。值得注意的是，每次执行后，成本项都会重置为其默认值。

▲表3｜PPO算法超参数设定

◆奖励设计：训练过程需要奖励配置，这对成功和驾驶行为至关重要。作者在学习过程中使用的奖励如表 II 所示，作者使用混合奖励系统来提高训练效率，包括终止奖励和稀疏奖励。

终止奖励对于成功完成场景至关重要，而稀疏奖励则指导车辆行为。主要目标是尽量减少碰撞，尤其是受终止奖励影响的碰撞。此外，还需要稀疏奖励来优化驾驶性能和行为，例如满足舒适度指标或最大限度地降低整体驾驶风险。车辆可以通过六种不同的方式完成场景。每个场景都有一个不同的时间范围，这样的时间范围就是一个匹配可实现目标的窗口。这允许比分配的时间间隔更快或更慢地达到目标，具体取决于车辆的性能。场景可能会因与障碍物或道路边界相撞而结束，或者如果车辆在任何时间步都找不到有效的轨迹。此外，如果车辆未达到目标就停下来，场景将在超过特定时间限制后自动终止。最佳性能包括严格遵守参考路径、保持指定速度、最大限度地接近目标距离以及最大限度地降低风险。作者正在整合成本调节项，以增强车辆动作的稳定性。这一增加旨在防止动作过度波动，促进更平稳、更和谐的驾驶行为。作者使用当前动作与轨迹规划器的默认成本设置之间的绝对差。

▲图5｜各种情景下自我风险和第三方风险的平均值

本节展示模型的训练、选定的测试场景和结果。作者定性和定量地探索了该模型，将研究独立默认分析轨迹规划器（DP）和建议的混合规划器（HP）之间的差异。

▲图6｜HP（蓝色）和DP（橙色）左转，迎面驶来车辆

■5.1 实验环境和参数设置

作者使用T型路口场景（见图6）进行训练，因为它们与其他车辆表现出复杂且关键的交互动态。数据集中的各种场景提供了一定程度的可变性，以降低过度拟合的风险。对于模型的训练和执行，计算资源包括AMD 7950x处理器、NVIDIA GeForce RTX 4090显卡和128GB RAM。作者研究中使用的超参数如表III所示。

训练与核心数并行，大约需要24小时才能完成700万个时间步。数据分为训练集（75%）、验证集（15%）和测试集（10%）。根据一系列评估场景中的奖励函数选择最佳模型。训练在2-3百万个训练步骤后收敛，具体取决于设置。作者使用超参数调整，因为训练结果高度依赖于它。

▲图7｜HP和DP的速度分布以及由于混合规划器的操作而导致的碰撞概率权重的相对变化

■5.2 风险感知轨迹规划

首先，作者研究学习到的代理的风险行为，并为此设置奖励（见表II）以优化代理的行为。除了成功率之外，自动驾驶中的风险也是评估算法安全性的决定性因素。随后，风险通过将轨迹的最大碰撞概率乘以造成的伤害来计算。

作者的评估涵盖了64种不同的场景来评估风险水平。通过计算所有场景的平均风险，作者获得了对整体安全状况的宝贵见解。值得注意的是，结果表明，自车和第三方道路使用者的风险降低，凸显了道路安全性的提高。图5显示了场景中的自车风险和第三方风险。蓝色表示HP，橙色表示DP。与DP相比，HP仅显示自车风险的33%左右。

▲图8｜HP和DP算法的自车风险分布

代理降低风险的奖励对轨迹的选择过程具有可持续的影响。作者的分析表明，尽管目标变量众多，但车辆可以改变其行为。强调在此框架内仔细选择奖励条款的重要性至关重要。通过奖励机制过于激进地追求降低风险可能会导致车辆在某些情况下选择完全停止的情况。为了缓解这种情况，作者加入了一个特定的奖励条款，如表II所示，以确保遵守指定的目标速度，从而以可控的方式平衡安全性和运营效率。风险是根据所选轨迹计算的，取决于规划范围。DP在短时间内接受明显更高的风险，并且仅在识别出风险后才对降低做出反应。另一方面，此处介绍的模型通过环境和障碍物信息在风险发生之前识别风险情况。风险在绝对值和持续时间方面都显着降低。通过提前减速，还可以确定风险峰值的发生时间与DP的风险峰值有延迟。

■5.3 适应代理的驾驶行为

HP使得在运行时调整分析轨迹规划算法的驾驶行为成为可能。在下面的分析中，作者展示了所提出的模型和独立分析轨迹规划器在驾驶行为上的差异。图6分别以蓝色和橙色显示了相同场景中HP与DP的比较。

▲图9｜DP与HP的比较，共547个场景：DP以不同的碰撞概率成本执行，以调查不同的设置。橙色表示发生碰撞的场景数量

从定性上讲，可以确定迎面驶来的车辆对驾驶行为的强烈适应性。根据时间戳点显示自车的中心位置。如蓝色轨迹所示，作者的方法证明了对指定参考路径的遵守有所改善，并辅以更早的制动启动。相比之下，DP行驶时偏离参考路径较大，但很快接近迎面驶来的车辆。

这种加速接近导致车辆在第74个时间步意外违反安全限制，从而导致与迎面驶来的车辆相撞。可以通过仔细更改DP的手动设置参数来完成该场景。然而，结果表明作者的HP可以避免手动调整参数。图7显示了DP和HP的速度以及HP代理在同一场景中调整规划器碰撞概率权重的操作。与DP相比，HP的速度明显降低，因此在这种情况下不会发生碰撞。这是通过代理的动作连续增加碰撞概率成本项的权重来实现的。RL模型甚至可以部分补偿成本函数中的概念错误，这可以从DP在这种情况下的强烈加速度中得出。

图8显示了场景中主动自我风险的降低。可以看出，在作者的模型中，风险总额明显较低。理论上计算的风险不一定反映碰撞的发生。然而，模型可以避免碰撞，并将计算出的潜在危害风险最小化。对物体的错误预测会导致导致DP碰撞的行为。结果表明，这些可以通过模型进行补偿。

▲表4｜在不同场景下默认规划器和混合规划器之间的驱动特性测量

■5.4 场景性能评估

作者在DP中应用了不同的碰撞概率成本参数，以确保参数化的准确性。将结果与HP进行比较，如图9所示。可以看出，DP的成功率很高，但在每种配置中都会发生碰撞。适当设置碰撞概率成本对于平衡算法至关重要。成本设置得太低可能会导致过于激进的驾驶而发生碰撞。相反，过高的成本可能会因过于谨慎的行为而导致追尾碰撞。DP缺乏足够的灵活性，需要更多功能才能获得最佳性能。经过训练的HP表现非常出色，即使在以前未见过的测试场景中也没有观察到碰撞。可以从表IV中获得驾驶行为的差异。HP在与参考路径的最大允许偏差方面表现出色。此外，降低了最大和平均速度以改善T型路口场景的转弯机动。此外，与HP中的最佳轨迹相关的成本显示出更大的偏差。由于应用了可变权重，这种偏差的增加是可行的，为轨迹优化提供了更细致入微的方法。

▲图10｜RL模型预测、轨迹束计算和整体模型每次迭代的执行时间

■5.5 执行时间评估

图10以箱线图形式说明了RL框架内三个关键组件每次迭代的执行时间（以秒为单位）：RL模型预测执行、DP的采样步骤和整体模型执行。

计算时间基于十种不同的场景确定，代理预测执行的平均时间约为0.44毫秒。此步骤仅包括神经网络的执行，而不包括环境模型的更新。每个时间步长大约包含800条轨迹的生成、有效性检查和成本计算平均需要大约15.8毫秒。增加分析规划步骤中的轨迹数量对计算时间影响不大，因为由于C++包扩展，并行化过程是稳定的。运行整个模型每次迭代平均需要大约46毫秒的执行时间。

■5.6 结果讨论

结果表明，混合方法是有效的，并且可以显著改善分析模型，同时缩短执行时间。与其他纯RL模型相比，该模型的训练过程很快，成功率很高。通用性显著提高。虽然纯分析模型在某些情况下表现相对较好，但性能可能因情况而异。此外，通过正确的设置，所提出的模型可以补偿其他模型（例如预测算法）的误差。然而，对算法的重大修改需要对代理模型进行部分重新训练。该方法的设计也可以进行调整和增强。因此，方程（2）中的极限经常被利用，这表明该模型可以得到改进。此外，必须仔细考虑奖励值和场景的选择，这可能很耗时。总体而言，作者的概念展示了混合规划器提供的协同作用的有效利用，并通过更高的复杂性和在边缘场景中的适用性扩展了当前可用的方法

本文介绍了一种用于轨迹规划的混合运动规划器方法，以在变化的条件下增强车辆驾驶行为。针对传统分析轨迹规划器的低通用性，作者的方法将基于采样的规划器与RL代理相结合。该代理动态调整分析算法中的成本权重，提高其适应性。作者的方法利用观察空间，包括环境、语义地图和障碍物数据，这些数据对于混合代理学习车辆动力学至关重要。结果表明，代理的成功率显著提高，风险降低，同时保持了现实世界应用的高性能执行时间。且通过更广泛的调查，附加功能可以改善驾驶行为和模型性能。未来的工作可以使用RL优化分析规划器的采样参数，从而研究该算法在现实世界中的适用性。通过图形表示等方式纳入更全面的环境数据，可以进一步提高系统的稳定性和效率。

Ref：

A Reinforcement Learning-Boosted Motion Planning Framework: Comprehensive Generalization Performance in Autonomous Driving

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频