2023最新综述!自动驾驶的运动规划:现状与展望全面回顾(传统/端到端/强化学习)...

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【规划控制】技术交流群

后台回复【规划控制综述】获取自动驾驶、智能机器人规划控制最新综述论文!

摘要

智能汽车(IVs)凭借其增强的便利性、安全性优势和潜在的商业价值而受到广泛关注。尽管一些自动驾驶独角兽断言,到2025年,IVs将实现商业部署,但由于各种问题,它们的部署仍然局限于小规模验证,其中安全性、可靠性和规划方法的通用性是突出的问题。由于复杂环境下的感知缺陷,通过规划方法精确计算控制命令或轨迹仍然是IVs的先决条件,这对IVs的成功商业化构成了障碍。本文旨在回顾最先进的规划方法,包括模块化规划和端到端规划方法。在流水线方法方面,提供了对选择算法的调查,并讨论了扩展和优化机制,而在端到端方法中,驾驶任务的训练方法和验证场景是值得关注的问题。对实验平台进行了调查,以便于读者选择合适的培训和验证方法。最后,讨论了当前的挑战和未来的发展方向。本次调查中的并排比较有助于深入了解所审查方法的优势和局限性,这也有助于系统级的设计选择。

总结来说,本文的主要贡献如下:

  • 本文首次全面审查了IVs中的所有规划方法,包括模块化规划和端到端规划方法;

  • 本文提供了对最新数据集、模拟平台和半开放现实世界测试场景的全面分析和总结;

  • 本文总结了当前面临的挑战,并提出了未来的研究方向。

这里也推荐『自动驾驶之心知识星球』,星球内部近期分享了L2++决策算法的演进梳理,欢迎关注!

3073bb2f291db8547b93b0cb1351e1e5.png

流水线方法

流水线方法也被称为模块化方法,被工业界广泛使用,目前被认为是传统方法。管道系统源于主要为自主移动机器人发展而来的架构,这些架构由感知、定位、规划和控制等独立但相互连接的模块构建。

流水线方法规划框架负责计算ego车辆的低级别控制器要跟踪的轨迹点序列,通常包含三个功能,即全局路线规划、局部行为规划和局部轨迹规划[6],[7]。全局路线规划在全局地图上提供从起点到终点的道路级路径。

“局部”代表在空间或时间范围内较短的合成轨迹,否则ego车辆无法对超出传感器范围的风险做出反应,局部行为规划决定接下来几秒钟的驾驶行为类型(例如,跟车、轻推、侧传、让行和超车),而局部轨迹规划基于决定的行为类型生成短期轨迹。

事实上,局部行为规划和局部轨迹规划之间的界限相当模糊[6],例如,一些行为规划人员所做的不仅仅是识别行为类型。为了便于理解,本文没有严格区分这两种函数,将相关方法简单地视为轨迹规划方法。因此,本小节将相关算法分为两个功能:全局路径规划和局部行为/轨迹规划。

全局路径规划

全局路径规划负责在道路网络中找到最佳道路级路径,该路径以包含数百万条边和节点的有向图的形式呈现。路径规划器在有向图中搜索,以找到连接起点和终点节点的最小成本序列。在此,成本是基于所考虑的查询时间、预处理复杂性、内存占用率和解决方案鲁棒性来定义的[8]。Edsger Wybe Dijkstra是这一领域的先驱,他创新性地提出了以他的名字命名的Dijkstra算法[9]。Lotfi等人[10]构建了一个基于Dijkstra的智能调度框架,该框架计算每个代理的最优调度,包括最大速度、最小移动和最小消耗成本。Astar算法[11]是道路级导航任务中另一种著名的算法,它利用启发式函数的优势来简化研究空间。所有这些算法都大大缓解了交通效率问题,并在智能交通系统领域引起了极大的关注。

局部行为/轨迹规划

局部行为规划和局部轨迹规划功能协同工作,基于路线规划中识别的全局路线来计算安全、舒适和连续的局部轨迹。由于产生的轨迹是局部的,除非全球目的地不远,否则这两个功能必须以后退的方式实现[12]。值得强调的是,这两个函数的输出应该是轨迹,而不是路径[13],[14],并且轨迹与其他动态交通参与者相互作用,否则,自车需要额外的努力来躲避环境中的移动障碍物。

名义上,局部规划是通过解决最优控制问题(OCP)来完成的,该问题在满足多种类型的硬约束或软约束的情况下最小化预定义的成本函数[15],[16]。OCP的解决方案表示为时间连续控制和状态轮廓,其中所需轨迹由状态轮廓的一部分反映。由于这种OCP的分析解决方案通常不可用,因此需要两种类型的操作来构建轨迹。具体来说,局部规划分为三部分,第一类操作是识别一系列状态网格,第二类操作是在相邻状态网格之间生成基元,第三类操作是前两者的有机结合。

1)状态网格识别:状态网格识别可以通过搜索、选择、优化或潜在最小化来完成。基于搜索的方法将与上述OCP相关的连续状态空间抽象成图,并在那里找到状态的链接。流行的基于搜索的方法包括A*搜索[17]和动态编程(DP)[17],[18]。这些算法的许多高级应用已经将其影响力推到了顶峰,如混合A*[19]、双向A*、半优化A*[20]和LQG框架[18]。基于选择的方法通过寻找具有最优成本函数的候选者来决定下一步或几个步骤中的状态网格。贪婪选择[21]和马尔可夫决策过程(MDP)系列方法通常[22]、[23]属于这一类。

一种基于优化的方法将原始OCP离散化为数学程序(MP),其解为高分辨率状态网格[24],[25]。MP解算器进一步分为基于梯度的解算器和非基于梯度的求解器;基于梯度的求解器通常求解非线性规划[16]、[26]、二次规划[24]、[27]、[28]、二次约束二次规划[39]和混合整数规划;基于非梯度的解算器通常由元启发式表示[30]。多种先前的方法可以被组合以提供从粗略到精细的局部行为/运动规划策略。

2)原型生成:原型生成通常表现为闭式规则、模拟、插值和优化。闭式规则代表通过具有闭式解的分析方法来计算基元的方法。典型的方法包括Dubins/Reed-Shepp曲线[31]、[32]、多项式[21]和理论最优控制方法[33]、[34]。基于仿真的方法通过转发仿真生成轨迹/路径基元,转发仿真运行速度快,因为它没有自由度[17]。基于插值的方法由样条曲线或参数化多项式表示[32]。基于优化的方法在数值上求解小规模OCP,以连接两个状态网格[35],[36]。

3)其他方法:状态网格识别和原型生成是构建轨迹的两个基本操作。这两种操作都可以以各种方式进行组织。例如,Kuwata等人[37]将两种操作集成在迭代循环中;HU等人[35]在在线状态网格识别之前离线构建基元图;Fan等人[27]在生成连接基元之前识别状态网格。如果规划者只找到一条路径而不是一条轨迹,那么时间进程应该附加到计划的路径上,作为后处理步骤[36],[38]。这种策略被称为路径速度分解(PVD),之所以被广泛使用,是因为它将一个3D问题转换为两个2D问题,这在很大程度上促进了解决过程。相反,非PVD方法直接规划轨迹,这具有提高解决方案最优性的潜在优点[18],[39]–[41]。

该研究领域的最新研究包括如何开发适合特定场景/任务的特定规划者,特别是[12]、[40],以及如何在上游/下游模块不完善的情况下规划安全轨迹[40]。在过去的几十年里,自动驾驶领域取得了越来越快的进步。除了计算硬件的进步外,移动机器人运动规划理论计算方面的重大理论进展也促成了这一快速进步。毫无疑问,智能汽车将提供更好的道路网络利用率和安全性,从而推动了研究工作。

端到端方法

端到端代表从原始传感器数据到轨迹点或控制信号的直接映射。由于它能够提取特定任务的策略,因此在各个领域都取得了巨大成功[42]。与流水线方法相比,感知和控制模块之间没有外部间隙,很少嵌入人工定制的启发式算法,因此端到端方法更有效地处理车辆与环境的交互[43]。端到端有更高的天花板,有可能在自动驾驶领域实现专家级的性能。本节中将端到端方法分为三类:模仿学习、强化学习和并行学习。

模仿学习

模仿学习(IL)是指基于专家轨迹的智能体学习策略,通常提供专家决策和控制信息[44]。每个专家轨迹都包含一系列状态和动作,并提取所有“状态-动作”对来构建数据集。在IL任务中,模型利用构建的数据集来学习状态和动作之间的潜在关系,状态代表特征,动作展示标签。因此,IL的具体目标是评估状态和动作之间的最适合度映射,以便agent尽可能多地实现专家轨迹。表一列出了本部分复习的所有著名的模仿学习方法。

84fb5e1d3424be099bdc822cec3a94da.png

本部分对模仿学习方法进行了综述。有三种广泛使用的训练方法[63],首先表现为一种消极的方法,称为行为克隆(BC);第二个建立在BC的基础上,称为直接政策学习(DPL);最后是一种依赖于任务的方法,称为逆强化学习(IRL)方法。

1)行为克隆:行为克隆(BC)是自动驾驶中IL的主要方法[45],[64]。代理利用从专家到训练模型的状态-动作对,然后使用分类器/回归器复制策略。BC是一种被动方法,其目标是通过被动观察命令的完整执行来学习目标策略,然而,这需要所有轨迹中的状态-动作对是独立的前提。Bojarski等人[45]为BC构建了一个开创性的框架,该框架训练卷积神经网络仅计算前视图单眼相机的转向。这种方法只输出横向控制,而忽略纵向命令,因此只能在有限数量的简单场景中实现。Codevilla等人[46]提出了一个著名的IL模型,称为条件模仿学习(CIL),该模型包含横向和纵向控制,如图2所示。单目图像、ego车辆的速度测量和高级命令(直行、左行、右行和车道跟随)被用作CIL的输入,预测的经度和纬度控制命令都被用作输出。每个命令都充当一个开关来选择一个专门的子模块。CIL是CL方法在自动驾驶中的一个里程碑,它证明了卷积神经网络(CNN)可以学习自主执行车道和道路跟踪任务。

2533e708458f29f6be99fb64f0f020ef.png

基于CIL[46],许多研究人员在输入阶段包括了额外的信息,如全局路线、位置信息或点云[65]-[67]。由于有足够的感知数据输入,这些方法在各种条件下都表现出较强的泛化能力和鲁棒性。

由于其新颖的结构,IL方法排除了不同子系统之间的不确定性估计,并减少了反馈毫秒。然而,这一特征导致了一个显著的缺点,即缺乏可解释性,无法提供足够的理由来解释决策。许多研究人员试图通过插入中间表示层来解决这个痛点。Chen等人[47]提出了一种新的范式,称为直接感知方法,用于预测城市自动驾驶场景的可供性。启示表示一种纯电动汽车格式,它清楚地显示周围环境的特征,然后被馈送到低级别控制器以产生转向和加速度。Sauer等人[48]进一步提出了一种先进的直接感知模型,该模型利用视频和高级命令来进行中间表示,并计算控制信号作为输出。与[47]相比,该模型可以处理城市交通场景中的复杂场景。Urtasun和她的团队还提出了两个可解释的端到端规划者[49],[50],这两个规划者都利用原始激光雷达数据和高清地图(HD Map)来预测安全轨迹和中间表示,用于展示政策如何应对周围的场景。

BC方法的主要特点是只有专家才能生成训练示例,这直接导致训练集是在学习策略执行过程中访问的状态的子集[68]。因此,当数据集有偏差或过度拟合时,该方法仅限于泛化。此外,当代理被引导到未知状态时,很难学习正确的恢复行为。

2)直接策略学习:直接策略学习(DPL)是一种基于BC的训练方法,它评估当前策略,然后获得更合适的训练数据进行自优化。与BC相比,DPL的主要优势是利用专家轨迹来指导代理如何从当前错误中恢复[63]。通过这种方式,DPL缓解了由于数据不足而造成的BC限制。本节总结了一系列DPL方法。

Ross等人[51]构建了一种经典的在线IL方法,称为数据集聚合(DAgger)方法。这是一种基于Follow the Leader算法[63]的主动方法,每次验证迭代都是一个在线学习示例。该方法修改代理所经历的所有状态-动作对的主分类器或回归器。DAgger是解决序列预测问题的一种新方法,但其学习效率可能会因策略空间和学习空间之间的距离太远而受到抑制。作为回应,He等人[69]提出了一种DAgger by coaching算法,该算法使用coach为学习者演示易于学习的策略,并且演示的策略逐渐收敛到标签。为了更好地指导代理,教练建立了一个折衷策略,该策略并不比地面实况控制信号差多少,也比新手预测的行动好得多。

6f769e5a7ae31f634ae6e189d48ab5ac.png

其他研究人员也指出了DAgger方法[51],[69]的一些缺点:查询效率低,数据收集器不准确,泛化能力差。作为回应,Zhang等人[52]提出了SafeDAgger算法,旨在提高DAgger的查询效率,并可以进一步减少对标签准确性的依赖。Hoque等人[70]提出了一个ThriftyDAgger模型,该模型集成了人类对角落情况的反馈,Yan等人[53]提出了一种新的无地图场景下导航任务的DPL训练方案,这两种方案都提高了模型的泛化能力和鲁棒性。

为了微调感知到行动方法中的代理策略,Ohn-Bar等人[55]提出了一种优化情景驾驶策略的方法,该方法可以有效地捕捉不同场景中的推理,如图4所示。训练分为三个部分。首先该模型通过BC方法学习次优策略。其次训练上下文嵌入来学习场景特征。第三,通过与仿真的在线交互来完善集成模型,并通过基于DAgger的方法收集更好的数据。

d74ad4a7a58cd46a906c4a583d07298f.png

DPL是一种迭代的在线学习策略,它减轻了对数据集数量和分布的要求,同时通过有效地消除不正确的策略来促进策略的持续改进。

3)反向强化学习:反向强化学习(IRL)旨在通过推断输入和输出之间的潜在原因来规避上述方法的缺点[71]。与先前的方法类似,IRL需要在开始时收集一组专家轨迹。然而不是简单地学习状态-动作映射,而是首先推断这些专家轨迹,然后基于复杂的奖励函数优化行为策略。IRL方法可以分为三类,最大裕度方法、贝叶斯方法和最大熵方法。

max-margin方法利用专家轨迹来评估奖励函数,该函数使最优策略和估计次最优策略之间的裕度最大。这些方法使用线性组合算法表示具有一组特征的奖励函数,其中所有特征都被认为是独立的。

Andrew Wu[72]是该领域的先驱,他引入了第一个最大裕度IRL方法,该方法提出了三种计算精细奖励函数的算法。此外,Pieter等人[73]在[72]的基础上设计了一种优化算法,该算法假设专家奖励函数可以表示为已知特征的手动线性组合,目的是揭示权重和特征之间的潜在关系。

现有方法的局限性在于,专家轨迹的质量和分布设置了该方法性能的上限。作为回应,Umar等人[74]提出了一种基于博弈论的IRL方法,称为乘法权重,用于学徒学习,它能够将关于每个特征权重的先验策略导入代理,并利用线性规划算法来修改奖励函数,使其策略是稳定的。

此外,Phan Minh等人[62]提出了一个可解释的规划系统,如图5所示。轨迹生成模块利用感知信息来计算一组未来轨迹。安全过滤器用于通过可解释的方法保证基本安全。DeepIRL轨迹对预测轨迹进行评分,这是该系统的核心贡献。此外,[75]和[76]提出了偏好参考公式,用户可以根据个人偏好选择动作,这确实提高了模型的性能。

2a671ded1be517223e3a31892e2c7a2f.png

IRL的第二部分是贝叶斯方法,它通常利用奖励的优化轨迹或先验分布来最大化奖励的后验分布。Ramachandran等人提出了第一个贝叶斯IRL。[77],从贝叶斯的角度参考了IRL模型,并从先验分布推断出估计的奖励函数的后验分布。Levine等人[56]将核函数集成到贝叶斯IRL模型[77]中,以提高估计奖励的准确性,并提高隐形驾驶的性能。

IRL的第三部分是最大熵方法,它是通过在优化例程中使用最大熵来估计奖励函数来定义的。与以前的IRL方法相比,最大熵方法更适合连续空间,并且具有解决专家轨迹次优影响的潜在能力。Ziebart[59]提出了第一个最大熵IRL模型,该模型利用了与[72]相同的方法,可以缓解专家轨迹中的噪声和不完美行为。代理试图通过将特征线性映射到奖励来优化监督下的奖励函数。

然后,许多研究人员[60]、[61]、[78]将最大熵IRL实现到物理端到端自动驾驶。其中,[61]提出了生成对抗性模仿学习(GAIL),该算法已成为该领域的经典算法。GAIL利用生成对抗性网络(GAN)以无模型方法生成专家轨迹的分布,以缓解数据集不足导致的状态漂移问题。由于有足够的重建专家轨迹和竞争政策,GAIL在特定场景下实现了与人类驾驶员相当的性能。在[61]的基础上,提出了许多工作,如InfoGAIL[79]、Directed-InfoGAIL[80]、Co GAIL[81],所有这些工作都在其实现领域取得了有竞争力的成果。

IRL为自动驾驶提供了几项出色的工作,然而,与上述方法一样,它在拐角情况下也存在长尾问题。如何有效地提高IRL的稳健性和可解释性也是未来的方向。

强化学习

IL方法需要大量手动标记的数据,当遇到相同的情况时,不同的驾驶员可能会做出完全不同的决定,这会导致训练过程中的不确定性。为了消除对标记数据的渴望,一些研究人员努力利用强化学习(RL)算法进行自主决策规划。代理可以通过与环境交互来获得一些奖励。RL的目标是通过试错来优化累积数字奖励。通过与环境持续交互,代理逐渐获得最佳策略的知识,以达到目标端点。

随着人工智能的进步,深度强化学习(DRL)将深度学习的特征提取能力与传统强化学习的决策能力相结合。这有助于解决高维状态和广泛的行动空间带来的困境,并最终实现从状态输入到行动输出的端到端自动驾驶。在本次调查中,我们将主要的RL方法分为四部分:基于价值的强化学习、基于策略的强化学习,层次强化学习(HRL)和多智能体强化学习(MARL),表II列出了回顾的方法。

ba52ca6bc40c62576b85e0ce5460b9de.png

1)基于价值的强化学习:基于价值的方法试图估计给定状态下不同行动的价值,并学习根据在该状态下采取行动所能获得的预期回报为每个行动分配一个价值。代理学习将奖励与环境中采取的状态和行动相关联,并利用这些信息做出最佳决策[82],[83]。

在基于价值的方法中,Q学习[84]是最突出的。在端到端规划中实现QLearning的框架如图6所示。Mnih等人[85]通过基于Qlearning的方法提出了第一种深度学习方法,该方法直接从屏幕截图中学习以控制信号。此外,Wolf等人[86]将Q学习方法引入智能车辆领域,他们在Gazebo模拟器中定义了五种不同的驾驶动作[87],车辆根据图像信息选择相应的动作。为了缓解高维感知输入稳定性差的问题。提出了条件DQN[88]方法,该方法利用去模糊算法来增强不同运动命令的预测稳定性。所提出的模型在特定场景中实现了与人类驾驶相当的性能。

d480993f82acb57a3ef167620ca4436a.png

端到端自动驾驶的安全性也引起了人们的极大担忧。约束策略优化(CPO)[91]是一种用于约束强化学习的开创性通用策略利用算法,保证在每次迭代时接近约束满足。在此基础上,[92]和[93]提出了安全健身房基准套件,并在约束条件下验证了几种约束深度RL算法。Li等人[94]将风险感知算法引入DRL框架,以学习具有最小预期风险的变道任务的风险感知驾驶决策策略。Chow等人[95]提出了安全策略优化算法,该算法采用基于Lyapunov的方法[96]来解决CMDP问题。此外,Yang等人[97]构建了一种无模型安全RL算法,该算法在逐步状态约束场景中集成了策略和神经屏障证书学习。Mo等人[98]利用蒙特卡洛树搜索来减少高速公路场景中超车子任务的不安全行为。

2 基于策略的强化学习:基于价值的方法仅限于提供离散命令。然而,自动驾驶是一个连续的过程,可以在细粒度水平上控制不间断跨度内的连续命令[100]。因此,连续方法对于车辆控制更好。基于策略的方法具有在具有连续控制命令的高维动作空间中实现高天花板的潜力。这些方法比基于价值的方法表现出更好的收敛性和探索性。

在现实世界的IVs上执行RL是一项具有挑战性的任务。Kendall等人[99]在实际的智能车辆上实现了深度确定性策略梯度(DDPG)[101]算法,在车上执行所有探索和优化,如图7所示。单色图像是唯一的输入,智能体学习车道跟随策略,并在250米的道路测试中达到人类水平的性能。这项工作标志着在全尺寸自动驾驶汽车上首次应用深度强化学习。为了进一步提高驾驶安全性和舒适性,Wang等人[102]介绍了一种基于人类专家的车道变更政策的IVs创新方法。这种方法可以在单车或多辆车上执行,有助于顺利变道,而无需V2X通信支持。

为了缓解拥堵道路上自动驾驶的挑战,Saxena等人[103]采用近端策略优化(PPO)算法[104]来学习连续运动规划空间中的控制策略。他们的模型隐含地模拟了与其他车辆的互动,以避免碰撞并提高乘客的舒适度。在这项工作的基础上,Ye等人[105]利用PPO在真实的高速公路场景中学习自动变道策略。以自车及其周围的车辆状态为输入,智能体学会避免碰撞并以平稳的方式驾驶。其他几项研究[106]、[107]也证明了基于PPO的RL算法在端到端自动驾驶策略学习中的有效性。

在RL中从头开始驯龙策略通常是耗时且困难的。将RL与模仿学习(IL)和课程学习等其他方法相结合可能是一个可行的解决方案。Liang等人[108]将IL和DDPG结合在一起,以缓解在探索连续空间时效率低的问题,引入了一种可调节的门控机制来选择性地激活四个不同的控制信号,这使得模型可以由中央控制信号控制。Tian等人[109]利用从专家经验中学习的RL方法来实现轨迹跟踪任务,该任务分两步进行训练,即[66]中采用的IL方法和连续的、确定性的、无模型的RL算法来进一步改进该方法。

为了解决RL方法的学习效率限制,Huang等人[110]设计了一种新方法,将人类先验知识纳入RL方法。当面临自动驾驶的长尾问题时,许多研究人员将视角转向了利用专家的人类经验。Wu等人[111]提出了一种基于人工引导的RL方法,该方法利用一种新的优先体验重放机制来提高RL算法在极端场景下的效率和性能,所提出方法的框架如图8所示。该方法在两个具有挑战性的自动驾驶任务中得到了验证,并取得了有竞争力的结果。

a22b19b352eec1fd3ebd8b1d4d387502.png

3)分层强化学习:RL方法在各个领域都表现出了巨大的前景,然而,这些方法经常因训练困难而受到批评。特别是在自动驾驶领域,非平稳场景和高维输入数据会导致无法忍受的训练时间和资源使用[112]。分层强化学习(HRL)将整个问题分解为子任务的层次结构,每个子任务都有自己的目标和策略。子任务以分层方式组织,高级子任务为低级子任务提供上下文和指导。这种分层组织允许代理专注于较小的子问题,降低了学习问题的复杂性,使其更易于处理。

在强制执行变道任务时,Chen等人[113]提出了一种两级方法。高级网络学习用于决定是否执行变道动作的策略,而低级网络学习用于执行所选择的命令的策略。[114]和[115]还提出了一种基于[113]的两阶段HRL方法,其中[114]需要采用纯追击来跟踪输出轨迹点,[115]集成自我飞行器的位置、速度和航向,以进一步提高低级别控制器的性能。所有这些提出的方法为开发鲁棒和安全的自动驾驶系统提供了一个有前途的解决方案。

HRL的可推广性是一个研究热点。Lu等人[117]提出了一种用于复杂动态交通场景中的自主决策和运动规划的HRL方法,如图9所示。该方法由高层和底层规划层组成,高层利用基于核的具有不均匀采样和池策略的最小二乘策略迭代算法(USPKLSPI)来解决决策问题。Duan等人[116]将整个导航任务划分为三个模型。通过训练主策略网络来选择合适的驱动任务,该策略大大提高了模型的可推广性和有效性。为了进一步提高复杂场景中的决策质量,在[116]的基础上提出了Cola HRL[118],该方法由三个主要组成部分组成:高级规划器、低级控制器和状态空间的连续格表示。规划器和控制器都使用状态空间来生成高质量的决策。结果表明,Cola-HRL在大多数情况下都优于其他SOTA方法。

966ae7457a97778974a4d7456e8a3989.png

4)多代理强化学习:在真实场景中,通常存在不同的流量参与者,他们的互动会对彼此的策略产生重大影响[119]。在单智能体系统中,其他参与者的行为通常基于预定义的规则进行控制,并且智能体的预测行为可能会过度拟合其他参与者,从而导致比多智能体更具确定性的策略[14],[120]。多智能体强化学习(MARL)旨在学习环境中多智能体的决策策略。一种流行的MARL建模方法是分散部分可观测马尔可夫决策过程(DEC-POMDP)。然而,状态空间随着代理的数量呈指数级扩展,使得训练多代理系统(MAS)[121],[122]更具挑战性和速度更慢。

为了减少“维度爆炸”的影响,提出了一些有效的学习方案。Kaushik等人[123]使用一个简单的参数共享DDPG来训练代理执行两个不同的任务。通过将任务作为命令注入观察空间,同一个代理可以竞争或合作。Wang等人[124]在三种场景中训练自治代理:环形网络、八字形网络和具有各种场景的迷你城市。该方法将每个代理之间的图形信息共享与PPO集成在一起,以实现连续动作生成,并允许在一定范围内进行车辆通信。

尽管RL在变道决策方面已经得到了广泛的研究,但这些研究主要集中在单个智能体系统上。MARL方法为多车辆控制提供了一个全局视角。Zhou等人[125]制定了混合交通高速公路场景中多辆自动驾驶汽车与人类驾驶汽车共存的变道决策。除了简单的任务外,MARL方法在解决复杂场景中的决策和规划问题方面具有巨大的潜力。Chen等人[126]在时间关键的合流高速公路场景中训练代理以避免碰撞。特工观察周围车辆的位置和速度,然后选择相应的行动。

信用分配对于多智能体合作场景中的政策学习至关重要。Han等人[127]引入了一种有效的奖励再分配机制,使用具有Shapley价值奖励再分配的合作策略学习算法来激励IVs之间的稳定合作。该机制的实验结果表明,联网自动驾驶汽车的平均事件系统奖励显著提高。Peng等人[128]没有在代理人之间重新分配奖励,而是将社会价值取向的环度量纳入自驱动粒子(SDP)系统,这是MAS的一个类别。由于SDP系统中的每个组成代理都是自利的,并且代理之间的关系不断变化。所提出的方法,协调策略优化(CoPO),在一定距离内执行代理与其相邻车辆之间的局部协调,如图10所示。实验表明,所提出的方法在成功率、安全性和效率三个主要指标上优于MARL基线。

平行学习

自动驾驶中的规划方法受到几个挑战的限制。流水线规划方法结合了许多人工定制的启发式方法,导致计算效率低下和泛化能力低下。模仿学习(IL)方法需要相当大的数量和不同的专家轨迹分布,而强化学习(RL)方法需要大量的计算资源。因此,这些限制的存在阻碍了自动驾驶的广泛实施。

为了应对规划方法中的各种问题,虚拟现实交互提供了一种行之有效的解决方案[136]。基于网络物理系统(CPS)的智能控制可以促进物理空间和网络空间之间的交互和集成,但不考虑系统中的人类和社会因素。作为回应,许多研究人员在CPS中添加了社会因素和人工信息,形成了网络物理-社会系统(CPSS)。在CPSS中,“C”代表两个维度:现实世界中的信息系统和由软件定义的虚拟人工系统。“P”指的是传统的实物系统。“S”不仅包括人类社会系统,还包括基于现实世界的人工系统。

CPSS使虚拟系统和现实系统能够相互作用、反馈和促进。真实系统为人工系统的构建和校准提供了有价值的数据集,而人工系统则指导和支持真实系统的运行,从而实现自我进化。由于虚拟现实交互的优势,CPSS为端到端自动驾驶提供了一种新的验证方法。

基于CPSS,王飞跃[129]在2004年提出了并行系统理论的概念,如图11所示,其核心概念是ACP方法,它是人工社会(A)、计算实验(C)和并行执行(P)的有机结合。在过去的二十年里,并行系统理论的研究体系通过实践中的大量实现得到了丰富和完善,如并行智能[137]、并行控制[138]、[139]、并行管理[140]、并行运输[141]、并行驾驶[133]、[142]、并行跟踪[143]、并行测试[135]、并行视觉[132]等。关于本节中提出的方法的调查如表III-C所示。

7c16a46fd56254086727ac799c44c4d5.png

一种基于并行学习的创新训练方法[131]为在完全端到端的自主堆栈中解决问题提供了一种替代解决方案。如图13所示,Wang等人[144]引入了一个并行驱动框架,这是ITS和IV的统一方法。该框架直接桥接专家轨迹和控制命令,以计算特定场景的最佳策略。从真实场景中收集了大量的专家轨迹,并使用神经网络来学习所有这些轨迹,该网络的输入和输出是目的地状态和控制信号。从并行学习的角度来看,这是一个自我标记的过程,该过程显著缓解了端到端方法的数据饥饿。

754be65f6125e084c224d30ce1e6accf.png

为了处理来自人工系统和计算实验的综合数据,提出了一种新的理论,称为并行强化学习(PRL),它结合了并行学习和深度强化学习方法。Liu等人[133]将数字四元组与并行驱动集成在一起。该框架定义了物理车辆、描述性车辆、预测性车辆和规定性车辆。基于对数字四胞胎的描述,三辆虚拟汽车可以被定义为实体汽车的三个“守护天使”,在复杂场景中扮演不同的角色,使IVs更安全、更可靠。

规划是自动驾驶最重要的组成部分之一。作为并行驱动的具体实现,Chen等人[133],[144]提出了一个端到端规划的并行规划框架,该框架构建了两种定制的方法来解决特定场景中的应急规划问题。对于数据不足的问题,并行规划利用人工交通场景,基于来自现实的预训练知识生成专家轨迹,如图14所示。对于非鲁棒性问题,并行规划利用变分自动编码器(VAE)和生成对抗性网络(GAN)从人工交通场景中生成的虚拟紧急情况中学习。对于学习效率低下的问题,从虚拟和真实场景中并行规划学习策略,并通过分析真实观察结果来确定最终决策。当紧急情况发生时,并行规划能够在没有沉重计算负担的情况下做出合理的决策。

3fc750f5234fb0b02ea96b2c2864bf4c.png

并行系统理论为复杂系统的控制和管理提供了有效的工具,特别是在自主控制领域,并行驱动有效地缓解了端到端规划模型的数据短缺、学习效率低下和鲁棒性差的问题。

实验平台

表4中显示了大多数著名的数据集。

0218057ccd4c817abf392ac06de9cba6.png

仿真平台

在真实世界的场景中测试自动驾驶算法通常伴随着重大的潜在风险,模拟测试显示了一种验证算法的智能方法,由于其低成本和高安全性,可以加快测试速度。

许多自动驾驶模拟平台都开发了开源代码和协议,可用于测试自动驾驶中的算法。SUMO[162]是一个开源的微观交通模拟平台,由德国航空航天中心开发,为大规模交通算法提供了一个强大的验证平台。它配备了一个精心设计的接口,支持广泛的数据格式。由于其优越的特性,SUMO一直是最早和应用最广泛的模拟器之一。此外,Apollo[150]和Autoware[163]不仅为验证算法提供了一个模拟平台,而且还为每个任务配备了开源算法,为开发人员提供了完整的开发验证部署链。

在自车自动驾驶方法的背景下,CARLA[164]提供了一个合适的答案。它是一个用于城市自动驾驶场景的开源模拟器,有助于底层城市自动驾驶系统的开发、训练和验证。

在多车辆交互方法领域,TORCS[165]提供了一个开放式赛车模拟器,具有50多种不同的车辆模型和20多条赛道。此外,它能够同时与50辆车比赛,这使它成为该领域研究的宝贵工具。MetaDrive[166]提出了一个开源平台,以支持机器自主的可推广强化学习算法的研究。它具有高度的组合性,能够通过程序生成和真实数据导入生成无限多的不同驾驶场景。其他仿真平台及其相关说明如表五所示。

56ade0ac97db30c5f6f6759be8e3db81.png

物理平台

随着计算机计算能力的提高,模拟测试越来越能够满足各种场景的测试要求,并已被证明在解决与此类系统相关的长尾问题方面是有效的。然而,模拟器中使用的预训练模型通常需要在现实世界中实现之前进行微调。此外,虽然模拟测试可以覆盖广泛的场景,但它不能考虑所有的角落情况。因此,一个专业且安全的半开放式自动驾驶验证站点至关重要[[169]。

自动驾驶技术在过去几十年中取得了重大发展,一些国家采取了允许在公共道路上测试机器人出租车的政策。在美国,从2022年起,Waymo被允许在旧金山街头测试机器人驾驶技术。Nuro最近开始在亚利桑那州、加利福尼亚州和得克萨斯州部署自动驾驶送货车。在英国,Aurigo正在伯明翰机场进行一项自动穿梭机的试验。Wayve被授权在五个城市之间进行长距离自动驾驶汽车测试。在中国,自动驾驶的商业化正在迅速推进,Apollo、Pony和Momenta等公司已经在几个城市实施了自动驾驶。此外,Waytous正在非结构化和封闭场景中进行无人驾驶运输,并已为多个露天矿提供无人驾驶解决方案。

挑战和未来方向

自动驾驶已经取得了相当大的进展,在各个城市的半开放道路上成功验证就是明证。然而,由于需要克服许多障碍和迫在眉睫的挑战,其完整的商业部署尚未实现。

挑战

感知的局限性:大多数自动驾驶框架在很大程度上依赖于感知结果,但大多数传感器受到其固有约束的限制。视觉传感器容易受到视场和天气的影响,在背光和强光照射下效果较差。感知结果往往存在部分感知问题,因此被障碍物掩盖的潜在危险可能会被忽视。这些缺点给自动驾驶带来了安全挑战。

规划的局限性:流水线和端到端规划都有内在的局限性,确保在不确定和复杂的场景下产生高质量的产出是不可或缺的研究目标。

安全限制:自动驾驶系统的黑客事件正在增加,即使是轻微的中断也有可能引发决策的重大偏差。因此,自动驾驶技术的大规模成功部署需要采取强有力的措施来对抗对抗性攻击。

数据集的局限性:仿真数据集有助于模型训练,而仿真环境中训练有素的模型往往无法直接转移到现实中。因此,弥合虚拟数据和真实数据之间的差距是一条势在必行的研究途径。

未来方向

目前规划方法很难处理所有复杂的场景,模型也受到安全性、通用性和可解释性的限制。未来的研究趋势包括:

  • 1)面对感知的限制:许多研究人员试图将认知纳入感知层。通过利用人类的认知能力,克服自动驾驶的挑战是可行的;

  • 2)解决端到端方法无法解释的问题:许多研究人员通过在潜在层中生成可解释的中间表示来增强可解释性。将这些表示用于端到端方法的探索代表了IVs的研究方向;

  • 3)针对IVs上的黑客攻击问题:目前的防御措施已被证明不足以抵御SOTA攻击,而针对此类攻击的强大防御技术的开发具有重要的研究意义;

  • 4)在复杂情况下面临决策挑战:将人类的认知能力融入自动驾驶,并全面了解场景特征,是克服目前局限性的有效方法;

  • 5)考虑到规划方法的稳健性和可推广性带来的挑战:ChatCPT[170]中训练有素的大型模型在解决复杂问题方面显示出超越人类水平的能力。这在自动驾驶领域也是如此,未来有希望的方向是合理化大型模型的应用;

  • 6)面对数据集从虚拟迁移到现实的挑战:并行系统理论的描述原理[171]可以作为一种有效的解决方案。通过使用描述原理将两种类型的数据耦合,生成了反馈回路,从而实现循环自优化。

参考

[1] Motion Planning for Autonomous Driving: The State of the Art and Perspectives

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

0c6a5dcc1e1fe3754505644ee36bd915.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

352bbc67e80c0cda615a4a06865d5c7e.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

53f4378aac0bbc1fcf2aa6aa9c20777a.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值