最新运动规划综述
A Survey on Hybrid Motion Planning Methods for Automated Driving Systems
💡摘要
运动规划是自动驾驶汽车模块化架构的重要组成部分,是上游感知模块和下游低级控制信号之间的桥梁。传统的运动规划器最初是为特定的自动驾驶功能 (ADF) 设计的,但高度自动驾驶系统 (ADS) 不断发展,需要为各种 ADF(包括不可预见的功能)提供运动。这种需求促使文献中开发了“混合”方法,寻求通过结合各种技术(例如数据驱动(基于学习)和逻辑驱动(分析)方法)来提高运动规划性能。最近的研究努力为战术决策 (TDM) 和轨迹生成 (TG) 的更高效、准确和安全的混合方法的开发做出了重大贡献,并将这些算法集成到运动规划模块中。由于混合方法种类繁多且潜力巨大,本综述文章对当前文献进行了及时和全面的回顾。我们根据混合运动规划器所包含的组件类型对其进行分类,例如基于采样的运动规划器与基于优化/基于学习的运动规划器的组合。通过评估所解决的挑战和局限性以及评估它们是否专注于 TG 和/或 TDM 来对不同类别进行比较。我们希望这种方法能够使该领域的研究人员深入了解混合运动规划的当前趋势,并为未来的研究指明有希望的领域。
📚Introduction
高度自动驾驶系统 (ADS) 的开发有望在未来几十年改变汽车行业。除了提高出行效率和乘客舒适度之外,ADS 还可以通过减少事故数量来提高乘客的安全性。每年有超过 130 万人死于交通事故,甚至造成更多永久性的、改变生命的伤害 [1]。尽管自 20 世纪 80 年代初以来自动驾驶取得了显著的进步 [2],但直到 2004 年和 2007 年,美国国防高级研究计划局 (DARPA) 举办的竞赛才真正推动了自动驾驶的发展。尤其是城市挑战赛,它标志着一个关键时刻,凸显了自动驾驶汽车 (AV) 的重要性 [3],[4]。这些竞赛中车辆的表现证明了自动驾驶概念的可行性,然而许多挑战,在该技术大规模商业化之前仍未得到解决。
开发 ADS 的两种主要方法是端到端和模块化解决方案 [5]。前者直接将传感器数据映射到车辆执行器的控制信号,而后者将问题分解为更简单的子问题,例如感知、定位、其他道路使用者的行为预测和运动规划。在模块化方法中,这是当前研究的重点,其中许多挑战在于运动规划和控制的设计和验证。该模块利用由其他模块(例如感知和预测)生成的周围环境语义知识,并且必须决定和计算“如何”在不同情况或驾驶场景中移动 ADS。轨迹生成 (TG) 和战术决策 (TDM) 这两个功能是运动规划的支柱,并且一直是研究的重点 [6],[7]。
运动规划的作用是在有限、确定性和短时间内(高更新频率)生成在安全性、舒适性和行驶效率方面最佳的轨迹,以确保实时计算。在复杂的道路环境中,各种行为各异的参与者共享同一空间,自动驾驶汽车 (AV) 应该能够正确且实时地做出反应,这增加了对运动规划模块的要求和限制。在过去十年中,大量研究致力于解决运动规划中的几个研究问题,这导致了大量评论和调查论文的发表,对 AV 设计中使用的各种方法进行了分类和归类,并讨论了它们的优缺点 [6]、[8]、[9]。人们已经在各种驾驶场景中评估了不同方法的性能,包括结构化环境,例如高速公路 [10],或非结构化环境(例如停车场)。此外,随着数据驱动算法和尖端计算资源的最新进展,Wilko 等人。在 [11] 中,以及最近,Teng 等人在 [5] 中回顾了 AV 中的决策和规划方法,重点关注基于学习的算法,例如端到端方法。然而,由于 AV 的运动控制是一个非常活跃的研究课题,有许多未解决的研究问题,最近的研究也一直专注于一种新的范式,即混合运动规划框架。
混合方法旨在通过结合传统的运动规划技术来提高运动规划的整体性能。例如,可以使用基于优化的方法来创建一个数据集,将驾驶环境(包括感知和预测)映射到最佳轨迹上。然后,只要生成了足够数量的训练数据,数据驱动方法就可以学习这种关系。在这种情况下,生成的混合运动规划器既利用了数据驱动方法的实时推理属性,又利用了基于优化的技术获得的最佳解决方案。另一个示例是使用通过基于采样的方法获得的可行轨迹初始化基于优化的技术。在这种情况下,生成的混合方法放宽了优化技术的高计算要求,因为搜索空间仅限于最佳样本的邻域。
由于运动规划算法的多样性,混合运动规划技术种类繁多。有趣的是,这些技术不仅针对单个车辆开发,还针对进行运动规划协作决策的联网车辆开发。据我们所知,目前还缺少对 ADS 最新 (SOTA) 混合运动规划方法的全面回顾,无法系统地分析和比较该领域现有的最新研究。现有调查主要关注使用非混合方法进行运动规划的研究,例如数据驱动方法 [5]、[11]、[12],或使用运动规划方法集合,而没有充分强调混合解决方案的重要性 [6]、[8]–[10]、[13]、[14]。本文涵盖了 50 多种混合运动规划方法,并对其进行了解释、分类和比较。分类逻辑最初基于混合/组合方法的组成部分,随后基于每种混合方法所应对的挑战。此外,对于每一种混合技术,都特别关注底层 TG 和 TDM 过程之间的相互作用。我们希望本文能够帮助研究人员全面了解如何通过整合多种技术来增强运动规划算法。
本文的其余部分分为以下几节:在给出术语和定义之后,第二节介绍了 AV 中的运动规划模块和相关子系统的架构。第三节在对传统方法进行分类之后,回顾了混合技术,第四节讨论了它们的性能。第五节总结了本次调查的重点。
📉II. 运动规划的背景
模块化系统架构是设计和实现自动驾驶系统 (ADS) 的常用模型,其中多个子系统专用于自动驾驶的不同任务。模块化架构将复杂的运动规划问题分解为战术决策 (TDM) 和轨迹生成 (TG)。这简化了运动规划器的设计,但是,还必须考虑 TDM 和 TG 之间的相互作用。图 1 显示了 ADS 运动模块的代表性模块化系统架构,包括全局路线规划、TDM 和 TG 之间的相互作用。全局路线规划器模块负责使用离线/在线地图计算起点和终点坐标之间通过道路和路径的最佳路线。全局路线通常由航点组成,不提供任何进一步的细节,此外,它只取决于当前坐标、端点和可行路径。全局路线规划仅在需要时调用(参见图 1 中的输入信号 A1),即当由于即将发生交通堵塞或道路施工等原因而无法再按照指定路线行驶时。其他两个主要组件,即 TDM 或行为层和 TG 相互作用,为车辆的低级控制提供参考信号,以激活其执行器(参见图 1 中的信号 D 和 O1)。
图 1. 模块化架构中 AV 控制模块的总体架构。输入和输出信号分别用棕色和绿色的 I 和 O 表示。信号的功能将在第二部分中解释。
接下来,在定义了 AV 控制系统的运动规划和 I/O 中使用的关键技术术语之后,详细描述了 TDM 和 TG 模块的作用。
A. 术语
为了对本调查中使用的术语有共同的理解,ADS 的关键技术术语定义如下。
• 车辆在二维平面空间中的配置包括其位置和方向,它们唯一地确定了车辆每个点在空间中的位置。配置可以用笛卡尔(全局或局部)坐标(图 2)、极坐标、弗雷内特框架等表示。
• 状态是指车辆的运动学,例如位置、速度、加速度等。车辆的配置可以是其状态的子集。
• 根据车辆在车辆周围物理空间中的碰撞检查,车辆的配置空间分为以下三个子集:自由空间、碰撞空间和未知空间。
• 路径定义为自由(或未知)空间的一组配置,与时间等任何其他变量无关。
• 轨迹定义为车辆状态空间的一组状态。图 2 中的红色曲线显示了轨迹,该曲线上的每个点都对应于一个特定的状态(作为时间的函数)。
• 运动是指车辆状态的任何变化。
• 动作是所有可用于操纵车辆运动的控制命令。
• 操纵由车辆运动的特征或特性定义,例如高速公路合并、超车、转弯、变道等。
• EGO 车辆 (EV) 是指规划算法针对所有其他周围车辆和道路参与者而设计的受控车辆。
• 由于车辆的运动学特性,非完整约束限制了两种状态之间的可能轨迹。在这样的系统中,通向某个状态的轨迹会影响该状态。对于 AV,3D 配置(2D 位置和偏航方向)仅由两个输入(油门/制动器和转向角)控制。当约束无法集成到运动方程中时,就会发生这种情况 [15]。
• 运动原语是一组预定义/预先计算的离散轨迹,EV 可以从给定状态采取这些轨迹。
图 2. 笛卡尔全局坐标系中路线、路径、航点和轨迹生成的示例图。车辆在时间 t 的状态根据其位置 x、y、方向 θ 及其导数(例如加速度、加速度等)来定义。轨迹(红色曲线)和路径(蓝色曲线)在空间上重合,但在此图中,为了清晰呈现,它们没有相互重叠。轨迹/路径不必包含航点,航点仅决定高级路线规划。
根据用于解决运动规划问题的方法,控制模块的架构及其所需的输入可能会相应改变。例如,端到端自动驾驶将感知、预测、规划和控制集成在一个单元中。因此,在这种情况下,运动规划器的输入是原始传感器数据,例如摄像头捕获的原始视频、激光雷达点云和雷达读数。而在模块化方法中,原始数据首先由感知模块处理以获得环境的语义表示,随后其他模块会使用该表示,例如用于预测、风险评估、控制和运动规划。
尽管模块化方法的架构并非独一无二,但控制运动规划和控制结构的关键功能是 TDM(即行为层)和 TG 功能。这些功能可以作为两个独立但交互的过程运行(类似于 DARPA 城市挑战赛 (DUC) 中大多数参赛车辆的分层规划设计 [4]),也可以作为单个集成单元运行 [16]–[18]。在本文中,我们将介绍为其中一个或两个过程开发的混合方法。因此,在对现有方法进行分类之前,我们将更详细地描述这两个模块的功能。值得一提的是,低级控制可以单独运行并使用反馈控制遵循参考轨迹(TG 模块的输出),也可以集成在规划部分中(类似于某些 MPC 运动规划算法 [19]),其输出直接用于为执行器供电(图 1 中的信号 O1)。
B. 战术决策 (TDM) 功能
原则上,TDM 功能负责根据感知到的驾驶环境计算车辆的最佳行为,例如,在图 3 所示的示例中决定是变道还是保持车道。全面了解周围区域是在动态驾驶环境中做出正确反应的先决条件。情境感知决策是自动化和自主性之间的主要区别,前者是指在特定条件下自动控制系统行为的能力,而后者还包括系统正确应对环境中意外变化的能力。传统的 TDM 层设计基于有限数量的可能驾驶场景中的有限选择或决策。最近的方法试图在设计中增加自主性,并解决车辆在意外情况下的行为,在这种情况下,驾驶环境无法归类为任何预定状态。第三部分将进一步阐述用于运动规划的传统和最近的 TDM 方法。此外,TDM 输出还可用于其他目的,例如通过视觉显示激活意图信号,以告知其他道路使用者 EGO 车辆的操纵意图(图 1 中的信号 O2)或通过修改传感器的关注区域来优化传感器覆盖范围(图 1 中的信号 O3)[4]。
图 3.基于机动的 TDM(车道变换或车道保持)和 TG(每个 TDM 输出两个候选轨迹)的示例图。
C. 轨迹生成(TG)函数
如第 II-A 节所述,轨迹通常被定义为物体在空间中行驶的“路径”,是“时间”的函数。这就是为什么在一些技术文本中,轨迹也被称为“时空”函数 [20],[21]。虽然路径和轨迹在空间域(可驾驶区域)中的几何表示是相同的(见图 2),但轨迹包括车辆的额外运动(时间)信息(状态)。对于 AV,工作空间或物理空间(道路网络)通常是平面(2D),而配置空间是 3D,其中两个坐标表示车辆重心的位置,第三个坐标表示绕法线轴的旋转。不同的 TG 方法可能需要使用不同的物理空间表示,例如使用 Voronoi 镶嵌、成本图或状态格 [8]。 TG 过程负责计算低级控制要跟踪的最终信号,参见图 1 中的信号 D,该信号将最终动作应用于 AV 的执行器。然而,在基于(动态)模型的方法(例如滚动时域规划和控制)中,最终反馈/前馈控制集成到规划模块中,输出信号直接输入到执行器中。在下一节中,将详细解释 TG 的传统和混合方法的不同类别。
👍III. 现有方法的分类
在过去的三十年中,自动驾驶汽车的运动规划引入了各种各样的算法和方法。这些方法不断发展,导致研究人员对它们进行了不同的分类。这种多样性在某些情况下会让读者感到困惑。在本节中,我们将尽我们所知对现有方法进行分类,并介绍其分类的基础和逻辑。在重点介绍第 III-C 节中的混合方法之前,有必要分别回顾第 III-A 节和第 III-B 节中的经典和基于学习的运动规划方法,它们也是混合算法的基石。
A. 传统方法
本节后续部分分别总结和分类了 TDM 和 TG 过程的传统方法以及它们的优缺点,图 4 将传统运动规划方法细分为不同类别。
1)TDM 算法:在文献中,可以找到基于学习和基于逻辑/规则的方法用于运动规划模块的 TDM 部分,其中基于规则的方法分为以下几类 [22]:
a)基于法规的方法:它们涵盖道路管理部门制定的高级规则和法规,例如停车/限速标志。
b)基于路线的方法:在此类别中,TDM 由更高级别的全局路线规划模块决定(图 1 中的信号 A2)。例如,在收到有关即将发生交通堵塞或道路施工的额外信息后,可以更改交叉路口或环形交叉路口的出口选择。
c)基于操纵的方法:它们解决何时和/或如何采取行动。这种类型的战术决策至关重要,因为它们还与 TG 功能(图 1 中的信号 B1 和 B2)相互作用。
基于规则和基于路线的 TDM 方法分别由高级模块(例如在线/离线驾驶规则和全球路线规划系统)直接处理,它们被称为基于自动化的决策。这些方法通常独立于 TG 模块设计和运行。相反,基于操纵的 TDM 方法与 TG [16] 相互作用并对其产生影响,被称为基于自主性的决策。由于 TDM 和 TG 之间的相互作用,出现了一些新出现的挑战,在复杂环境中实时控制车辆的过程中,这些挑战变得更加难以解决。例如,TG 过程的输出可能与 TDM 选择的操纵相矛盾,或者 TDM 可能在不考虑轨迹的可行性/可接受性的情况下做出决策。一些研究已经通过使用拓扑感知技术 [16]、[17] 将 TDM 和 TG 结合起来或通过为每个操纵组生成轨迹 [18] 来解决这一挑战。因此,不建议在不考虑该过程与 TG 之间的联系的情况下决定采取何种行动。
2)TG 算法:TG 算法主要基于局部路径规划。为 AV 开发的第一批 TG 流程与路径规划方法类似,这就是为什么一些研究人员表示,TG 挑战可以通过能够处理差分约束(考虑时间的附加变量)的路径规划技术来处理 [13]。在大量研究中,基于逻辑的 TG 算法(图 4)是使用以下四种方法之一开发的:基于样本、基于搜索、基于优化和势场 (PF) 方法,以下段落将进一步讨论和回顾这些方法。
图 4. 用于 AV 运动规划和控制系统的传统方法(混合方法的元素)的分类。
a) 采样方法:这些方法是为移动机器人运动规划体验开发的第一批算法之一。大多数为 AV 实施此方法变体的现代参考文献都受到 DUC [21]、[23]–[26] 的启发。基于采样的方法通过使用碰撞检测模块的采样方法探索环境,以确定一系列样本是否在物理空间中构建了有效配置。参见图 5(b) 的示例说明。采样方法计算效率高、易于实现,可进一步分为随机采样和确定性采样。随机采样方法通常是增量的,例如快速探索随机树 (RRT),使其适用于实时应用。例如,在 RRT 方法中,一次只采样一个点(增量采样),算法必须决定是否将此点连接到树。然而,对于惯性特性很重要的模型,例如高动态机动,现实世界中的实际系统通常不遵循运动学模型。因此,不做任何修改就实现 RRT 之类的算法会非常复杂。在参与 DUC 的 MIT Talos 车辆中,通过增强基于模型的闭环控制来扩展 RRT 方法,以生成更适合车辆动力学的轨迹 [23]。在确定性采样方法中,轨迹模式是根据车辆的运动学约束或道路曲率预先定义的。不同版本的状态格 [20],[21] 或由可微多项式(三次、五次等)生成的候选轨迹都归属于此类别 [25],[26]。为了选择最佳轨迹,基于评估每个预定义轨迹成本的成本函数应用图形搜索方法。此外,为了避开障碍物,与障碍物相撞的候选轨迹将从选择池中移除。最终轨迹来自预定义的离散空间,这意味着它是次优的。请注意,次优性是基于采样的 TG 方法的主要缺点,因为它们要么是增量的(随机采样),要么仅使用一组预定义模式(确定性采样)。
b)搜索方法:基于搜索的方法通过使用一组运动原语(AV 的预先计算的运动)来离散化周围环境(例如道路网络),然后应用基于图的搜索策略(例如 Dijkstra [27],[28] 或 A* 系列算法 [29],[30])根据运动规划的启发式或目标找到最佳路径或轨迹。参见图 5(c)中的示例说明。在基于搜索的方法中,处理车辆的运动约束取决于用于构建搜索图的运动原语。提出了一些修改,例如混合状态 A* 系列算法 [31],以考虑 AV 中的非完整运动学。与基于样本的方法不同,基于搜索的方法需要提前了解道路网络的拓扑结构。尽管如此,由于连续空间的离散化(基于图)表示,最终轨迹可能仍不是最优的或不平滑的。增加搜索图的大小或搜索网格的分辨率可以提高所选轨迹的质量和平滑度,但是,在这种情况下处理时间也会成倍增加,计算负荷将成为实时应用的主要关注点。
图 5. 示例展示了基于采样(b)与基于搜索(c)的车道变换场景(a)。此图中的搜索空间是通过参数曲线生成的占用网格(c)和轨迹样本(b)。颜色显示候选(蓝色)、被排除(红色)和接受(绿色)轨迹。
c) 优化方法:基于优化的 TG 旨在解决基于样本和基于搜索的算法的缺点,即次优性和不平滑性。此外,在确定性采样方法中,轨迹候选是预定义的,不符合新环境。相反,基于优化的方法在连续空间中起作用,并且更灵活地适应不断变化的环境 [32]。缺点是,它们通常计算成本高昂 [8]、[32]-[35],并且由于计算周期间的结果振荡,它们可能导致不稳定的行为 [36]。
d) 势场 (PF) 方法:与其他传统运动规划方法一样,PF 被引入机器人领域。Khatib 等人提出了一种避障运动规划方法,他们分别为障碍物和目标分配排斥力和吸引力 PF,并使用它们在机械手 [37] 和移动机器人 [38] 的配置空间中导航。基于 PF 的方法的主要优势在于其简单性,它提供了具有多个障碍物、不规则几何形状和边界的复杂环境的抽象,这使得它们成为运动规划算法的理想选择。然而,尽管有修改版本 [39]、[40],它们的主要缺点是存在局部最小值陷阱,排斥力和吸引力相互抵消,从而阻碍了向目标前进。在 ADS 中,当另一个道路使用者位于 EGO 车辆和目标之间时,可能会发生这种情况,这种情况经常发生。PF 方法的另一个问题是梯度下降导航引起的障碍物和边界附近的振荡。这个问题已经通过调整梯度 [41] 或通过将比例微分 (PD) 增强到 PF 方法(PD 的输入是 PF 而不是参考轨迹的误差)来修改控制命令来解决。在这种方法中,PD 控制器系数可用于调整车辆靠近障碍物的行为 [42]。还有其他方法可以弥补 PF 方法的缺点,这些方法将 PF 与基于优化的方法(如模型预测算法)相结合,这将在后面专门讨论混合方法的部分中讨论。
B. 人工智能和基于学习的方法
在深入研究混合运动规划方法之前,我们将在本节讨论另一类运动规划器(除传统运动规划器之外),即数据驱动的运动规划器,根据图 4,它可以是端到端的,也可以是模块化的。正如我们将在下一节中很快看到的那样,数据驱动的模块化运动规划可以成为混合方法中使用的组件之一。
数据驱动方法的流行源于近年来处理硬件的突破和各种驾驶场景下道路交通数据集的激增 [11]。这些方法大致可分为两大类,即端到端或模块化规划。前者指的是运动规划器的输入特征是从 LiDAR、RADAR、GPS [43] 或摄像头 [44]、[45] 收集的传感数据的方法,而在后者中,感知和运动规划是在单独的模块中完成的。在模块化方法中,感知模块的输出可作为运动规划的输入(见图 1),提供周围环境的语义表示,例如用边界框表示的其他道路使用者及其速度,以及车道标记的位置和道路几何形状。在模块化和端到端方法中,运动规划的输出可以是触发机动的决策 [46],[47]、周围环境的状态预测 [48]、参考轨迹 [49] 或控制命令,如转向角和油门/刹车激活信号 [50],[51]。
由于耗时的学习阶段基本上是离线进行的,因此基于学习的方法在实时推理过程中具有计算效率。另一个理想的特点是,在有足够的训练数据的情况下,它们可以适应不同的驾驶场景,而无需对主要结构进行重大改变。主要挑战在于它们的性能取决于训练阶段提供的数据的质量和多样性,这意味着一旦测试情况偏离训练条件,性能就会开始下降(或者至少可靠性水平会下降)。此外,由于数据驱动技术中众所周知的可解释性问题,在运动规划模块失败或改进的情况下也很难调试。
为了克服上述经典算法的挑战,已经开发了一些其他技术,称为“混合”或“组合”方法。在这些方法中,可以通过将它们组合在各种混合框架中来解决前面解释的算法的一些缺点,这可以进一步提高运动规划和控制在实际应用中的性能。
C. 混合方法
到目前为止,所审查的大多数传统运动规划方法并不直接适用于 SAE 3 级以上自动驾驶汽车,因为它们无法同时处理所有运动规划目标,例如低计算成本、全局最优、及时响应动态环境、适应一般驾驶场景等。为了满足高度 ADS 的要求,最近发布的运动规划算法是通过结合各种传统方法开发的。由此产生的算法被称为混合运动规划器,它们将 TDM 和 TG 分解为更简单的子问题,或者尝试使用专门为该特定目标设计的适当方法分别解决每个运动规划目标。这意味着一种方法的缺点可以用另一种方法弥补,从而综合提高整体性能。为了对混合方法进行分类和审查,我们将首先探讨 ADS 中的运动规划算法需要克服的挑战。之后,将根据混合方法旨在解决的挑战对其进行分类。如图 1 所示,假设其他道路使用者行为的感知和预测由其他模块提供给运动规划系统。在本篇评论论文中,我们不考虑不完善的感知/预测对运动规划的影响,这本身就需要仔细关注。
a) 车辆动力学和可行性挑战:设计运动规划算法的第一个挑战源自受控车辆的运动学和动力学约束。在自动驾驶的情况下,这些约束包括前轮转向系统的非完整运动学以及油门/制动和转向执行器的幅度和变化率的控制力饱和。即使在没有任何其他参与者的开阔平坦的可驾驶区域,运动规划系统仍然必须应对这一挑战。忽略车辆的运动学约束可能会导致不可行的参考轨迹,随后低级控制器中会出现更多错误。
b) 驾驶环境挑战:这组挑战与空间结构和驾驶场景或影响 EGO 车辆 (EV) 驾驶环境的其他道路参与者施加的环境约束有关。驾驶环境可以分为结构化(预定义路线,如道路和高速公路)和非结构化空间(停车场和越野)。结构化环境可进一步分为城市驾驶和高速公路驾驶两大类,其中城市场景可能包括交叉路口和环形交叉路口、交通拥堵等,而高速公路场景可能指超车、变道、车道保持、高速公路合并或退出。基于情境的驾驶挑战在确定哪种运动规划方法适合特定情况方面起着至关重要的作用。克服这一挑战的一种方法是开发通用的运动规划方法,这些方法可以在包括意外事件在内的各种驾驶情况下运行。然而,实现这一目标并非毫无困难,正如文献中现有方法所强调的那样,这些方法通常假设驾驶场景由一组有限的预定动作组成,随后作为 TG 和 TDM 过程的输入。[10] 中的作者推断,高速公路驾驶中最有前途的运动规划算法是参数/半参数曲线规划方法(基于采样的 TG)。正如那里得出的结论,其他基于逻辑的规划方法不适合单独用于高速公路场景中的 TG,建议使用混合算法。
c) 实时实施挑战:下一个挑战来自需要规划和实施车辆的运动,以便电动汽车能够尽快采取行动并对环境做出反应,即 TG 和 TDM 模块中的计算应实时执行。鉴于当代传感器的更新率约为 100 毫秒,实时算法应在 100 毫秒的时间段内至少更新一次(以 10 Hz 或更高的速率运行)。对于能够产生最安全、最可靠和交通效率最高的输出并适用于各种驾驶环境的方法来说,绝对没有价值,但其处理时间比电动汽车的状态改变率或周围环境的动态要慢。因此,运动规划模块的更新率是决定 AV 最大行驶速度的参数之一。
d) 基于安全的挑战:评估运动规划方法的最重要指标之一是所提供的安全级别,这在算法的设计中得到了明确考虑。可以使用几个成熟的关键性能指标来衡量安全性,例如(修正的)碰撞时间 (TTC)、与周围车辆的间隔时间和距离,以及在某些情况下在冲突区内的侵入后时间。同时,最好在提高 ADS 安全性的同时不损害受控系统的稳定性、乘客的舒适度(乘坐质量),也不应增加对安全驾驶员发出的不必要的接管请求数量(车辆的故障安全控制)。对于文献中的一些方法,安全指标直接纳入运动规划问题的数学公式中,而其他方法则通过使用模拟或实验评估来研究安全标准。
e) 基于不确定性的挑战:开发运动规划算法的最后一个挑战是如何处理由于其他模块(如感知、预测、定位等)提供的输入数据中的任何不完善而导致的不确定性。获得对各种系统故障的鲁棒性也可以进一步提高运动规划算法提供的乘坐质量和安全水平。
表 I 总结了针对上述挑战评估的传统运动规划方法的性能。通过检查该表,可以清楚地发现,没有一种方法可以解决所有挑战,例如,基于优化的方法在可行性、对驾驶环境的适应性、安全性和对不确定性的适应性方面表现良好,但它们的性能可能会在实时 ADS 实施中受到严重影响。这个问题最近引发了所谓的混合技术的大量研究,这些技术将各种方法结合在一起,旨在提高传统方法的性能。接下来,将根据同一系列挑战对用于运动规划的 SOTA 混合方法进行解释、分类和评估。我们的审查研究结果也在表 II 中列出。
- 分解几何和运动规划:简化 TG 问题的最常见方法是将几何路径与轨迹的运动学特性(例如速度、纵向和横向加速度)分开。这样,复杂的时空 TG 问题就分解为两个更简单的问题,即路径规划和速度剖面规划,这两个问题可以在分层设计模型中处理,参见图 6 的示例说明。例如,Li 等人在 [26] 中采用三次 B 样条生成候选轨迹,以初步细化来自高级路线规划器的输入参考路径,然后,为了解决安全性和舒适性问题,通过明确考虑运动学约束(例如纵向/横向、速度/加速度限制和交通法规)来生成速度剖面。这种方法为速度剖面规划提供了闭式解,这会显著降低所提算法的实时处理能力(实现的更新率约为 70 毫秒)。 [52] 中的 VisLab AV 的运动控制也采用了相同的概念,首先生成圆形几何路径,然后根据路径的最小和最大曲率计算速度曲线,最终根据舒适度(横向加速度)和电动汽车的输入控制极限(最大转向角)选择最佳轨迹。这种方法类似于非完整室内移动机器人使用的多级运动规划,其中轨迹的曲率和速度特征以顺序方式改进 [53]。在另一项研究 [54] 中,使用数据驱动方法生成航路点,以此为参考基于贝塞尔曲线对几何路径进行采样,然后计算每条路径的速度曲线。该方法已用于具有挑战性的城市场景,例如环形交叉路口、十字路口和 T 型路口,时间范围为 3 秒和 6 秒,最低更新率为 4 Hz。
分解的几何和运动学规划方法使得可以对每个部分使用不同的方法。对于高度受限的驾驶环境,Zhang 等人 [55] 将 TG 问题分解为一个多层规划器,包括两个步骤:基于几何的路径生成和基于优化的速度规划阶段(图 6)。与 [56] 和 [31] 中使用的混合 A* 算法相比,作者成功地减少了计算量,同时根据模拟结果,还在平滑度和曲率/航向速率大小方面提高了运动规划性能。同样,Artunedo 等人 [57],[58] 开发了一种在城市场景等受限驾驶环境中用于 ADS 的实时运动规划,首先使用五次贝塞尔曲线生成路径,然后通过考虑路径曲率、速度规则、加速度限制等造成的限制来规划纵向速度。该方法复杂度低,适用于开发 [59] 中研究的防撞紧急(故障安全)轨迹。在那里,基于最安全的几何路径规划纵向/横向加速度曲线,该路径是通过评估每条候选路径上的碰撞风险来选择的。这种方法的另一个优点是用于运动规划设计的优化问题的灵活性和凸性,如 [60] 所示。本研究的重点是优化由分层运动规划系统中的另一个过程提供的连续几何曲线的速度曲线。此过程确保优化过程在有限的时间跨度内完成,并满足实时实施的挑战。最后,Lim 等人 [36] 提出了一种混合 TDM 和 TG 方法,该方法同时利用了采样和优化技术。首先,作者通过对车辆的横向运动进行采样来找到最佳道路场景;其次,他们使用线性模型预测控制 (MPC) 设计来优化受先前计算的安全走廊约束的纵向速度曲线。
上述算法的开发方法是基于采样的几何路径生成方法(见图 6 中的蓝色表面)和基于优化的计算最佳速度曲线的方法(见图 6 中的路径表面的棕色速度曲线)的混合。换句话说,分解有助于改善候选轨迹的采样,方法是先在可驾驶区域进行智能采样 [61],然后通过解决简化的优化问题来规划速度曲线,从而获得更高效的计算结果。
图 6. 分解的几何和运动运动规划示例图。可以使用不同的方法来生成几何路径(蓝色表面)和相关的速度曲线(棕色曲线)。给定 2D 选定路径(前蓝色表面),显示了具有相同初始/终端速度和不同行程时间的不同轨迹(棕色曲线)。
- 基于势场的混合方法:人工势场 (PF) 方法是模拟影响 AV 的 TDM 和 TG 过程的各种元素的合适工具。但是,如第 III-A2d 节所述,该方法也存在一些挑战,可以通过将 PF 与其他运动规划算法相结合来缓解这些挑战。
大多数基于 PF 的混合运动规划器都旨在简化优化过程。例如,在基于优化的技术中,无需添加不等式约束来描述复杂的驾驶场景,因为这会大大增加所制定的优化问题的计算复杂度,而是可以使用 PF 作为成本函数中的惩罚因子。一些研究集中于创建一种基于 PF 的混合运动规划方法,其中 PF 被设计为凸的,以简化优化过程 [19]、[62]。Rasekhpour 等人。在 [19] 中,Dixit 等人定义了一个二次型排斥性 PF(不可穿越/可穿越),作为电动汽车与其他参与者之间的相对距离和速度的函数(图 7),此外还有车道标记(另见 [63]、[64])和道路边界。得到的 PF 用于 TG 的 MPC 成本函数,并在合并、变道和超车等不同场景中进行测试。Dixit 等人在 [65] 中使用类似 PF 的函数定义一个安全区,作为高速公路超车操作中 MPC 控制器的参考。通过这样做,他们弥补了 PF 和基于优化的方法的缺点,并保证了规划轨迹的可行性,同时对各种道路元素(如车道、边界、周围车辆及其运动信息)进行建模。 [66] 中开发了一个类似的框架,将类似人类的驾驶习惯(积极性/谨慎性)添加到 AV 的运动规划模块中,同时借助算法的 MPC 部分保留最佳轨迹。将 MPC 与 PF 相结合的混合方法也用于在事故不可避免的情况下减轻碰撞的严重性 [67]。Hang 等人在 [68] 中将 MPC 和 PF 与博弈论框架相结合,以模拟类似人类的决策行为。这一方面对于 AV 与人类驾驶车辆共存的混合交通条件可能很重要。
图 7. 为以与 EV 相同的速度(相等、更快和更慢)移动的障碍物(另一辆车)产生的排斥势场。PF 用作 [19] 中 MPC 运动规划器中成本函数的一部分。轮廓的颜色编码(从蓝色到红色)分别与低和高 PF 幅度相关。
使用 PF 表示环境也提高了其他 TG 方法的性能。Huang 等人在 [69] 中介绍了一种新颖的运动规划方法,提出了一种导电状态格子网格结构(还考虑了车辆的非完整约束,类似于第 III-A2b 节中讨论的基于搜索的方法),其中根据该边缘中间的 PF 值为每个边缘分配一个电阻。然后,通过在 AV 的当前位置和局部目标点之间添加一个电压源,通过遵循从起点到终点的最大电流路线来构建路径。给定路径,根据上一节中讨论的分解几何和运动规划来计算速度。在另一项研究中,Park 等人在 [70] 中设计了一种混合算法,用于沿具有多个障碍物的弯曲道路(城市驾驶情况)进行轨迹规划。他们使用障碍物的 PF 来取代混合 A* 算法中使用的成本模型,并提高了其实时性能。
综上所述,基于 PF 的混合运动规划方法背后的主要思想是使用 PF 和基于优化或搜索的方法来描述具有挑战性的环境,例如具有弯曲道路、(非凸)边界和低复杂度密集交通的城市驾驶场景。简单地使用传统的基于优化或搜索的方法和高分辨率密集网格将产生更高的计算工作量。
- 基于优化的混合方法:第 III-C2 节和第 III-C1 节分别讨论了一些将基于优化的方法与 PF 和采样技术相结合的混合运动规划方法。然而,还有更多的混合方法的例子,其中通过将基于优化的技术与另一种运动规划算法相结合来提高其性能。接下来将回顾这些例子。
基于优化的方法的主要挑战是它们的高计算开销,这可能使它们不适合实时实现。缓解这一挑战的一种方法是将另一种方法纳入基于优化的框架。Lattarulo 等人在 [71] 中提出了一种混合运动规划方法,该方法由两个主要步骤组成:首先,计算平滑的标称轨迹,然后使用具有解耦点质量动力学模型的 MPC 架构优化轨迹/机动,同时考虑障碍物和道路条件施加的约束。在类似的方法中,Wonteak 等人提出了一种基于优化的混合运动规划方法,该方法由两个主要步骤组成:首先,计算平滑的标称轨迹,然后使用具有解耦点质量动力学模型的 MPC 架构优化轨迹/机动,同时考虑障碍物和道路条件施加的约束。 [99] 中的 Hidalgo 等人开发了一种分层运动规划算法(行为和轨迹),该算法兼具优化和采样方法的优点。具体而言,采样算法负责确定基于行为的高级粗略轨迹,然后考虑到车辆和环境引入的动态约束,生成基于优化的低级轨迹。本质上,首先对 TDM 使用采样,然后对 TG 采用优化。在该框架中,优化方法的高性能基本得以保留,而整体实现复杂度保持在较低水平。[72] 中的 Hidalgo 等人通过将用于路径规划的参数曲线(贝塞尔曲线)与用于纵向和横向控制的 MPC 相结合,提高了环岛合并场景中运动规划的性能。他们成功地降低了总体计算成本,同时保持了 MPC 的高性能。[73] 中的 Gu 等人为 TG 开发了一个多层框架。在第一步中,作者优化了一条无交通的粗糙轨迹(曲线和速度曲线),在接下来的两个步骤中,他们生成了最终的平滑轨迹,并将其他交通参与者的行为作为约束。Ding 等人在 [75] 中和 Zhang 等人 [74] 通过使用安全时空走廊 (SSC) 将可驾驶环境定义为时间函数,简化了优化问题。因此,由于搜索空间限制在 SSC 内,可以降低 TG 的计算复杂度。对所提出的混合方法的性能进行了实验评估,并成功地与 [24] 中开发的其他方法进行了比较,显示出了令人鼓舞的结果。以类似的方式,Xin 等人在 [76] 中首先使用基于搜索的算法在 3D 时空地图中找到参考非平滑轨迹(参见第 III-A2b 节),然后在下一阶段使用 MPC 来平滑选定的轨迹。最后,在 [100] 中,遗传算法与基于 PF 的方法相结合,实现了实时优化的运动规划。由于 PF 部分能够简单准确地捕捉动态环境中的变化,因此可以实现反应性规划,而遗传算法部分则可确保计算轨迹的最优性。此外,传统的路径规划技术(如快速探索随机树 (RRT))本身可能表现出次优性能,可以与计算密集型优化方法结合使用 [77]。这种方法背后的思想是在寻找最优解之前修剪解空间。
总而言之,基于优化的混合方法背后的主要思想是通过仔细减小解空间的大小来促进耗时的优化过程。这通常是通过使用另一种(传统)运动规划方法修剪一些可行的驾驶行为来实现的,然后调用基于优化的技术在搜索空间内生成最佳轨迹。
4)逻辑方法与基于学习的方法相结合:最近,基于人工智能 (AI) 的方法与其他众所周知的运动规划算法一起用于混合框架,以提高整体性能。在本节中,我们将在以下段落中回顾各种类型的逻辑学习混合运动规划器。
基于优化的轨迹生成方法也可以纳入基于学习的运动规划框架。在 [82] 中,通过开发一个训练用于学习优化算法输出的人工神经网络 (ANN),减少了优化方法的计算时间。优化算法在生成最终轨迹之前监督 ANN 的输出,以确保满足安全约束。类似地,Alexandru 等人在 [83] 中使用从非线性 MPC 获得的轨迹以及相应的输入,并训练了替代 ANN,以解决基于优化的算法的高计算成本挑战。在另一项研究中,[84] 中的作者通过提出一种分层结构解决了计算复杂性的挑战,其中第一层由 MPC 训练的神经网络组成,下一层负责保证规划轨迹的可行性。基于学习的 TDM 和基于优化的 TG 也开发了混合框架 [87]。在他们的出版物中,通过基于学习的方法在 TDM 期间捕获电动汽车和人车之间的交互,而后续的 TG 过程负责生成优化轨迹以满足混合交通流环境中的上游决策。
基于学习的方法也已用于提高基于采样的运动规划方法的性能。张等人 [89] 开发了一个混合规划框架,其中采样点根据驾驶环境(即参与者行为和道路布局)动态调整。同样,在另一项调查 [90] 中,通过两步过程改进了基于采样的运动规划。最初,基于注意力的神经网络与时间占用流概念 [101] 结合使用,以捕捉各种语义信息与动态参与者未来状态之间的相互作用,这些交互发生在多种驾驶场景中。随后,基于前一步获得的注意力图生成轨迹样本。他们的研究中提出的结果表明,这种方法有效地解决了不同驾驶场景中的运动规划挑战,而所有这些都不需要预先了解驾驶环境。[102] 发表了一篇关于机器人运动规划中类似混合方法的综述。在另一项研究 [103] 中,图神经网络被用于通过减少采样过程中的碰撞检查来改进基于采样的运动规划器。
最近,通过将基于优化的方法与基于学习的方法 [104] 结合到混合框架中,预测和运动规划得到了共同解决。在 [85] 和 [93] 中,作者提出了一个基于集成预测规划注意力的网络,其中设计了一个可微分成本函数来生成最终轨迹,而输入信号是纵向加速度和转向角。为了通过反向传播实现学习,必须将运动自行车模型线性化。值得注意的是,该框架之所以脱颖而出,是因为成本函数本身是通过训练过程进行微调的,因为运动规划成本函数被集成到神经网络的损失函数中。模仿学习 (IL) 预测方法可用于类似人类的运动规划或驾驶 [90]。在刘等人最近发表的一项研究中 [86],采用基于 Transformer 的 DNN 来同时处理其他道路使用者的关节运动预测和电动汽车的运动规划任务。作者利用基于 IL 的学习从一组预定义模式中识别驾驶模式。随后,他们通过有限范围内的开环优化来改进所选模式,以计算最终的规划轨迹。此外,还有进一步的研究 [90]、[92] 将 IL 与自然启发逻辑(如流体流动模拟 [105])相结合,以指导神经网络捕捉参与者之间的相互作用,从而减轻训练工作量。
PF 与基于学习的方法相结合是此类混合运动规划器的另一个示例。Li 等人在 [78] 中训练了一个卷积神经网络 (CNN),以实现类似人类的决策。CNN 的输入是感知环境的鸟瞰视图,而输出是电动汽车的速度和转向角。最终输出是通过在 CNN 的最后一层添加其他车辆在横向和纵向对电动汽车施加的加权排斥人工力来计算的。他们的研究表明,PF 可以有效减少 CNN 中的层数,同时成功模仿人类的驾驶行为并确保安全。Wang 等人在 [79] 中使用人工 PF 的概念来降低与学习阶段相关的复杂性。他们从路线(由高级规划器获得)和前视 RGB 图像中提取了意图潜在图(另见 [80])。随后,他们将这个 PF 与直接从 LiDAR 点云获得的障碍物潜在图相结合,构建了一个类似 PF 的人工地图。下一步,将生成的潜在图作为 CNN 的输入来规划轨迹。
最近,强化学习 (RL) 运动规划算法与经典方法的结合也被引入。Wang 等人在 [81] 中开发了一种 AV 混合控制系统,以应对强化学习方法中使用的离散动作空间的挑战。他们结合使用了 Q 学习和传统的比例-积分-微分 (PID) 控制方法,而不是训练具有数十万个神经元的神经网络,这是一项耗时且需要大量计算能力的任务。此外,他们引入了另一个神经网络来计算负责生成最终连续动作(横向/纵向)的 PID 控制器的调整参数。通过这种方式,运动规划器可以适应各种驾驶场景。在另一项研究 [88] 中,奖励是基于采样的轨迹规划器设计的。因此,这导致了一种同时优化行为和运动并产生平滑轨迹的策略。模糊逻辑是另一种工具,当与基于学习的方法(例如人工神经网络或 RL)相结合时,可以提高运动规划模块的整体性能。陈等人。 [91] 提出了一种基于 CNN 的混合端到端运动规划框架。他们分别使用 CNN 和长短期记忆 (LSTM) 网络从摄像机图像中提取空间和时间特征,然后将这些特征作为全连接神经网络的输入,以计算控制命令,即转向角度和加速度/减速度。然而,在最后一层,他们没有直接使用控制命令,而是计算了两组模糊参数,最后使用最大去模糊化获得了控制命令。为此,他们用模糊逻辑来制定两个输出命令的依赖关系,而不是将它们包含在神经网络中,使学习过程更加复杂。例如,高转弯速度和高加速度不应同时发生。这种方法可以产生更稳定、更流畅的控制命令。
总而言之,在离线训练期间,基于学习的方法可以监督使用传统基于优化的方法实现近乎最优性能的运动规划器。同时,可以使用 PF 来降低训练复杂性,因为它们能够以简化的方式非常有效地描述复杂的驾驶场景/环境。
- 混合协同规划:前面几节中回顾的 TG 和 TDM 方法基于 EV 的独立硬件和软件功能。然而,专用短程通信 (DSRC)、ITS-G5 和蜂窝 V2X (C-V2X) 等无线车对万物 (V2X) 通信技术的出现将实现车辆之间或车辆与基础设施或云之间的广泛连接。这些通信技术对 ADS 的影响已在 [106]–[108] 中得到广泛研究。具体而言,通过将车载传感器数据与通过 V2X 通信系统接收的车外信息融合,可以增强 EV 在视野有限或有遮挡的复杂驾驶情况下的感知 [109], [110]。本小节回顾了利用共享信息进一步提高驾驶效率和改善交通流量的混合运动规划方法。
联网和自动驾驶汽车的运动控制分为两大类:单独控制和批量控制。单独控制类似于独立运动控制,但其他道路参与者的轨迹和/或决策也作为输入提供给电动汽车的运动规划器。例如,电动汽车不需要预测其他车辆的未来意图,而是可以使用通过 V2X 接收的机动协调服务 (MCS) 消息等来获取它们的计划和期望机动和轨迹 [111]。类似地,电动汽车可以通过蜂窝连接接收弱势道路使用者的未来意图。在批量控制中,有一个中央或高级处理单元,负责为车队而不是单个车辆规划运动。
对于单独协作运动控制,PF、基于优化的方法 [94](尤其是 MPC)及其组合的性能已在 [95] 中进行了研究。与非协作运动规划相比,唯一的区别是在预测其他车辆状态方面获得了更高的准确度。例如,MPC 算法的成本函数中用于惩罚电动汽车与其他障碍物碰撞的术语变得更加切合实际,因此,规划的轨迹/决策将更加可靠。相反,在交通控制和车队行驶等批量控制的情况下,除了每个道路参与者的动态模型之外,还必须对车辆之间的相互作用进行建模。在批量控制的情况下,也使用了混合框架来提高运动规划系统的性能。Hidalgo 等人 [96] 设计了一种基于 MPC 和参数曲线算法的混合 TG 算法,负责车队合并中的车道变换任务,以及用于纵向控制的反馈/前馈控制器,以保证实时性能。在另一项研究中,Huang 等人 [97] 结合使用人工 PF 和 MPC 算法来开发多车辆协作车队控制。
值得注意的是,在协作车辆运动规划和控制中还使用了另一种混合框架,即混合自动机。与以前的混合方法不同,以前的混合方法使用不同的方法组合来设计单个模块,例如 TG 或 TDM,而混合自动机用于将 TG(连续)和 TDM(离散)两个模块组合在一起。因此,模型中考虑了这些模块之间的相互作用(图 1 中的信号 B1 和 B2),整体控制性能也相应提高。例如,在 [97]、[98] 中,混合自动机模型制定了协作车辆的离散操纵切换和连续运动控制。然而,还有其他研究通过隐式融合决策和 TG 任务来解决同样的挑战 [16]。
根据 TDM 和 TG 相互作用进行分类:迄今为止审查的混合运动规划方法也在表 II 中进行了总结,其中可以轻松检索每种方法的组合元素以及解决的运动规划挑战。在比较迄今为止文献中出现的各种混合方法之前,我们还想指出,这些方法可以根据底层 TDM 和 TG 过程之间的相互作用进一步分类。这可以进一步阐明每种混合方法所针对的运动规划挑战。如表 III 所列,虽然一些混合运动规划器(单独)专注于 TG 或 TDM 过程,但也有一些混合方法(交互式)导致组合 TG 和 TDM 算法,两个过程之间有隐式或显式交互。本综述文章的另一个贡献是将现有文献中的 AV 混合运动规划方法分为(i)以经典方法为构建块元素、(ii)已解决的挑战和(iii)TDM 和 TG 相互作用,这也有助于确定研究差距。
↪️IV. 讨论和尚未解决的挑战
虽然尚未使用相同的数据集对所审查的混合运动规划方法进行评估或比较,但本节将根据它们旨在解决的挑战讨论和评估它们的性能。此外,本节后半部分将重点介绍研究差距和未来工作的潜在方向。
A. 性能评估与比较
表 II 总结了第 III-C 节中描述的五大类下大约 50 项混合运动规划研究的分类以及它们针对五项挑战(“a”至“e”)的表现评估。从中可以看出,目前还没有一种混合方法能够解决三个以上的挑战。最受欢迎的类别是“解耦几何和运动学规划”,它通过分别设计路径(使用参数曲线)和轨迹的运动学特征来降低运动规划的高计算负荷。尽管可以实现实时应用,但规划的轨迹可能不是最优的,而且由于没有明确考虑车辆的非完整约束,因此也不能保证其可行性。
“使用势场的混合方法”在文献中以各种形式出现,但研究人员主要将 PF 纳入“PF 优化”和“PF 学习”混合结构中,以提高 TG 和/或 TDM 的性能。在“PF 优化”混合框架中,PF 是通过抽象可驾驶区域的几何形状和其他道路使用者的相对距离/速度,以及用于量化驾驶安全性和舒适度作为成本函数的其他语义信息(例如车道标记)来生成的。结合包括车辆动态模型在内的滚动时域优化方法,PF 可以实现反应性和可行的运动规划。虽然这种混合方法可用于各种场景的 TG(甚至 TDM),但由于驾驶环境的语义信息被高度抽象为标量成本值,因此需要进行微调才能适应新场景。在“PF 学习”混合结构中,PF 用于修改 ANN 的输入或输出。在前一种情况下,PF 用于将语义信息解释为风险图,以降低端到端算法的复杂性。在后一种情况下,PF 用于通过在神经网络输出端编码人工排斥力来确保控制动作(输出)的安全性和合理性。同样,“模糊逻辑”也已用于通过对神经网络输出中的相关性进行编码来降低基于学习的方法的复杂性,以实现更平滑、更合乎逻辑和更安全的输出。最后,“基于学习和逻辑的组合方法”的主要目标是提高可解释性并方便调试,同时提供适用于多种驾驶场景的通用运动规划,只需更改训练数据而无需对神经网络结构进行重大更改。
上面讨论的混合方法也用于“协同控制”。 “混合自动机”是一种用于协同运动规划的特殊框架,其范围是解决 TDM 和 TG 之间的交互,它们分别是离散系统和连续系统(过程)。尽管一些研究报告称,“混合自动机”方法在车队等分布式系统的运动规划方面表现出色,但这种方法可以处理的操作数量相当有限,而且该方法中使用的预定义(原始)运动对规划轨迹的可行性提出了挑战。
B. 研究空白和未来研究机会
根据本调查中回顾的研究,混合框架是一种很有前途的方法,可以克服与 AV 运动规划问题相关的若干挑战。现有文献主要涵盖了基于车辆和基于环境的挑战,然而,安全性和特别是与不确定性相关的挑战尚未深入研究。表 II 也证明了这一事实,从中可以看出,挑战“e”(基于不确定性的挑战)迄今为止并不是研究的主要目标。为了突出各种不确定性对运动规划的影响,例如,考虑由于各种系统/传感器故障导致的感知和定位的可靠性与 AV 的故障安全控制密切相关。因此,进一步研究重点是能够抵御感知和定位缺陷的(混合)运动规划方法是一个很有前途的方向。
此外,由于现有的混合运动规划方法仅适用于有限数量的场景,未来的研究可以集中在开发一个通用框架上,其中考虑各种 TDM 和 TG 算法之间的相互作用,以实现从一种模式或操作到另一种模式或操作的安全过渡。这也可能减少向安全驾驶员发出移交(或后退)请求的频率,从而提高 SAE 的自主性。虽然有几项研究试图设计一个通用运动规划器并解决挑战“b”(驾驶环境挑战),但根据表 II,只有两项研究同时考虑了生成轨迹的可行性,即挑战“a”(车辆动态和可行性)。因此,开发通用运动规划器以应对剩余挑战仍然是一个开放的问题。
最后,另一个值得研究的方向是运动规划与其他道路使用者的行为/意图预测之间的强耦合。决策应考虑其他道路使用者的预测意图,但是,他们的意图会根据电动汽车的决策/行为而动态变化,反之亦然。预计这种耦合将进一步增加运动规划和控制算法的实时实施要求(挑战“c”),尤其是在高速环境中,例如高速公路合并和高速公路司机。因此,进一步研究混合方法以降低其计算复杂性将对此类场景非常有益。
❗V. SUMMARY AND CONCLUSIONS
这篇评论表明,目前设计 AV 运动规划算法的趋势是基于将各种传统算法结合在一起的混合框架。我们定义了四类混合运动规划器,据我们所知,它们涵盖了现有文献中的所有混合方法,即 (i) 分解几何和运动规划、(ii) 使用势场的混合、(iii) 基于优化的混合,以及 (iv) 逻辑和基于学习的方法的组合。我们还将混合协作运动规划定义为一个单独的类别,它使用 V2X 通信来协助单个车辆进行运动规划或对车队进行批量控制。对上述类别下约 50 种混合方法的性能评估表明,将两种或多种传统运动规划方法结合在一起是一种很有前途的方法,可以帮助消除每种单独方法的缺点,而不会牺牲其组件的优势。根据图 8(顶部)中显示的时间线,过去两年中流行的方法是逻辑和基于学习的方法的结合。随着计算能力和机器学习的不断进步,我们预计这一趋势将持续并增长。
图 8. 基于混合组件(顶部)和运动规划架构(底部)的不同类型混合运动规划方法的时间线。
此外,我们确定了运动规划的以下关键挑战,并将它们用作比较不同方法的指标:(a)车辆的动力学和可行性,(b)驾驶环境,(c)实时实施,(d)基于安全性,以及(e)基于不确定性的挑战。我们的审查表明,现有混合方法的主要重点是正确模拟驾驶环境并减少计算时间,以便实现可靠且安全的实时运动规划。然而,仍有一些问题需要克服,例如感知和定位的不确定性会影响生成轨迹的安全性。解决基于不确定性的挑战的混合方法在现有文献中代表性不足。例如,可以将与感知/定位模块输出相关的置信区间纳入运动规划器以确保安全,这是未来工作的有希望的方向。
最后,本评论的另一个贡献是根据战术决策 (TDM) 和轨迹生成 (TG) 模块之间的交互对混合技术进行分类。这表明 TDM 和 TG 方法在驾驶场景方面缺乏通用性,这是建议进一步研究的方向。通用运动规划器有助于减少安全驾驶员退回的频率,并实现更高的 SAE 自主性水平。当前的趋势是 TDM 和 TG 之间的交互式隐式设计,见图 8(底部),预计这种趋势将继续下去,培养这两个过程之间的全面互动,以涵盖各种可能的驾驶场景。我们相信,这篇综述论文将引发更多关于模块化自动驾驶系统运动规划的研究活动,并帮助研究人员和行业更好地定位他们的工作,包括混合运动规划的构建块算法、所解决的挑战以及底层 TDM 和 TG 过程之间的相互作用。