最新！自动驾驶运动规划全面回顾：全局规划、局部规划、模仿学习、强化学习等！...

最新推荐文章于 2024-11-14 17:26:11 发布

自动驾驶之心

最新推荐文章于 2024-11-14 17:26:11 发布

阅读量1.3k

点赞数 1

文章标签：自动驾驶学习人工智能机器学习

本文链接：https://blog.csdn.net/CV_Autobot/article/details/131714796

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

今天自动驾驶之心为大家分享自动驾驶运动规划的最新综述，文章全面回顾了流水线和端到端方法！如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心【规划控制】技术交流群

论文作者 | Siyu Teng

编辑 | 自动驾驶之心

论文链接：https://arxiv.org/pdf/2303.09824v4.pdf

智能汽车（IV）因其日益增加的便利性、安全优势和潜在的商业价值而受到全球关注。尽管预测到2025年将实现商业部署，但实施仍仅限于小规模验证，精确的跟踪控制器和运动规划器是IVs的基本先决条件。本文综述了最先进的IVs运动规划方法，包括管道规划和端到端规划方法。该研究考察了流水线方法中的选择、扩展和优化操作，同时研究了端到端方法中驱动任务的训练方法和验证场景。对实验平台进行了审查，以帮助读者选择合适的培训和验证策略。提供了这些方法的并排比较，以突出它们的优势和局限性，有助于系统级设计的选择。此外我们还讨论了当前的挑战和未来的展望。

规划控制作为整个自动驾驶/机器人算法流程中最下游的模块，直接决定着自动驾驶的安全性及舒适度。一个好的规控直接影响司机和乘客的乘车体验。这里也推荐自动驾驶之心联合业内某大厂规控工程师共同打磨的《规划控制理论与实战课程》线上课程，如果你正想要入门规划控制，深入理解算法原理，或者需要提升这方面的技术能力，不知如何优化，同时又缺少项目实战经验，那么一定要学习下这门课，课程内容详细介绍了规划算法基础知识、横纵解耦/联合的决策规划框架及常用的控制算法（PID、LQR、MPC等等）。课程即将开课，马上恢复原价！

本文对自动驾驶的总体规划方法进行了全面分析。从广义上讲，自动驾驶的规划方法可以分为两类：流水线和端到端。

在IVs的运动规划方面已经有了许多最先进的工作，然而，尚未对流水线和端到端方法进行全面的审查。流水线是行业中常用的经典规划方法，在先前的研究中概述了一般类别。在本文中，我们提出了一种新的流水线方法分类，基于每种方法的扩展和优化机制，以与行业选择更相关的方式捕捉广泛部署的方法。我们提出的分类包括状态网格识别、原始生成和其他方法。近年来，端到端方法已成为一个流行的研究方向，如先前的工作说明了将原始感知输入映射到控制命令输出的方法。在这项调查中，我们不仅回顾了模仿学习（IL）和强化学习（RL）的最新成果，还介绍了一个新的类别，称为并行规划。这一类别提出了一种虚拟现实交互混淆学习方法，用于可靠的端到端规划方法。此外，我们对最新的数据集、模拟平台和半开放的真实世界测试场景进行了全面的分析和总结，这些都是IVs发展的重要辅助元素。据我们所知，这项调查首次全面分析了各种场景和任务中的运动规划方法。

流水线规划方法

流水线方法，也被称为模块化方法，在行业中被广泛使用，并已成为传统方法。这种方法源于主要为自主移动机器人发展的体系结构，由感知、定位、规划和控制等独立的互连模块组成。

规划方法负责计算ego车辆的低级控制器要跟踪的轨迹点序列，通常由三个函数组成：全局路线规划、局部行为规划和局部轨迹规划。全局路线规划在全局地图上提供从起点到终点的道路级路径。当地行为规划决定了接下来几秒钟的驾驶行为类型（例如，跟车、轻推、侧传、让行和超车）。局部轨迹规划根据确定的行为类型生成短期轨迹。事实上，局部行为规划和局部轨迹规划之间的界限有些模糊，因为一些行为规划人员所做的不仅仅是识别行为类型。为了清晰起见，本文没有严格区分这两种函数，相关方法被简单地视为轨迹规划方法。

本节将相关算法分为两个功能：全局路线规划和局部行为/轨迹规划。为了提供更详细的分析和讨论，根据各自的扩展方法和优化理论，将局部行为/轨迹规划分为三个部分：状态网格识别、原始生成和其他方法。

A. 全局路径规划

全局路径规划负责在道路网络中找到最佳道路级路径，该路径以包含数百万条边和节点的有向图的形式呈现。路线规划器在有向图中搜索，以找到连接起点和终点节点的最小成本序列。在此，成本是基于所考虑的查询时间、预处理复杂性、内存占用率和解决方案稳健性来定义的。Edsger Wybe Dijkstra是这一领域的先驱，他创新性地提出了Dijkstra算法。Lotfi等人构建了一个基于Dijkstra的智能调度框架，该框架计算每个代理的最优调度，包括最大速度、最小移动和最小消耗成本。A-star算法是道路级导航任务中另一个著名的算法，它利用启发式函数的优势来精简研究空间。所有这些算法都大大缓解了交通效率问题，并在智能交通系统领域引起了极大的关注。

B. 局部行为/轨迹规划

局部行为规划和局部轨迹规划功能协同工作，根据路线规划中识别的全局路线计算安全、舒适和连续的局部轨迹。由于产生的轨迹是局部的，除非全球目的地不远，否则这两个功能必须以后退的方式实现。值得强调的是，这两个函数的输出应该是轨迹，而不是路径，并且轨迹与其他动态交通参与者相互作用，否则，自车需要额外的努力来躲避环境中的移动障碍物。

名义上，局部规划是通过解决最优控制问题（OCP）来完成的，该问题在满足多种类型的硬约束或软约束的情况下最小化预定义的成本函数。OCP的解决方案表示为时间连续控制和状态轮廓，其中所需的轨迹由状态轮廓的一部分反映。

由于这种OCP的分析解决方案通常不可用，因此需要两种类型的操作来构建轨迹。具体而言，局部规划分为三部分，第一类操作是识别一系列状态网格，第二类操作是在相邻状态网格之间生成基元，第三类操作是前两者的有机结合。

1）状态网格识别：状态网格识别可以通过搜索、选择、优化或潜在的小型化来完成。基于搜索的方法将与上述OCP相关的连续状态空间抽象成图，并在那里找到状态的链接。流行的基于搜索的方法包括A*搜索和动态规划（DP）。这些算法的许多高级应用已经将其影响力推到了顶峰，如混合A*、双向A*、半优化A*\和LQG框架。基于选择的方法通过寻找具有最优成本函数的候选者来决定下一步或几个步骤中的状态网格。贪婪选择和马尔可夫决策过程（MDP）系列方法通常属于这一类。

一种基于优化的方法将原始OCP离散为数学程序（MP），其解为高分辨率状态网格。MP解算器进一步分为基于梯度的解算器和非基于梯度的求解器；基于梯度的求解器通常求解非线性规划、二次规划、二次约束二次规划和混合整数规划；基于非梯度的求解器通常由元启发式表示。多种先前的方法可以被组合以提供从粗略到精细的局部行为/运动规划策略。

2）原始生成：原始生成通常表现为闭式规则、模拟、插值和优化。闭式规则代表通过具有闭式解决方案的分析方法来计算基元的方法。典型的方法包括Dubins/Reed-Shepp曲线、多项式和理论最优控制方法。基于仿真的方法通过转发仿真生成目标/路径基元，由于没有自由度，因此运行速度快。基于插值的方法由样条曲线或参数化多项式表示。基于优化的方法数值求解小规模OCP，以连接两个状态网格。

3）其他方法：状态网格识别和初始生成是构建轨迹的两个基本操作。这两种操作可以以各种方式组织。例如，Kuwata等人将这两种操作集成在迭代循环中；胡等人在在线状态网格识别之前离线构建基元图；Fan等人在生成连接基元之前识别状态网格。如果规划者只找到一条路径而不是一条轨迹，那么作为后处理步骤，应该在计划的路径上附加一个时间进程。这种策略被称为路径速度分解（PVD），之所以被广泛使用，是因为它将一个三维问题转换为两个二维问题，这在很大程度上促进了求解过程。相反，非PVD方法直接规划轨迹，这具有提高解决方案最优性的潜在优点。

该研究领域的最新研究包括如何开发适合特定场景/任务的特定规划者，以及如何在上游/下游模块不完善的情况下规划安全轨迹。在过去的几十年里，自动驾驶领域取得了越来越快的进步。除了计算硬件的进步外，移动机器人运动规划理论计算方面的重大理论进步也促成了这一快速进步。毫无疑问，智能汽车将提高道路网络的利用率和安全性，从而推动了研究工作。

端到端规划方法

端到端代表从原始传感器数据到轨迹点或控制信号的直接映射。由于其提取特定任务政策的能力，它在各个领域都取得了巨大成功。与流水线方法相比，感知和控制模块之间没有外部间隙，而且很少嵌入人工定制的启发式算法，因此端到端方法更有效地处理车辆与环境的交互。端到端有更高的天花板，有可能在自动驾驶领域实现专家级的性能。本节将端到端方法与学习方法分为三种不同的类型：使用监督学习的模仿学习、使用无监督学习的强化学习和包含混淆学习的并行学习。图2进一步阐明了端到端规划器的结构关系，强调了所审查方法的性能和先进性。

A. 模仿学习

模仿学习（IL）是指基于专家轨迹的智能体学习策略，通常提供专家决策和控制信息。每个专家轨迹都包含一系列状态和动作，并提取所有“状态-动作”对来构建数据集。在IL任务中，模型利用构建的数据集来学习状态和动作之间的潜在关系，状态代表特征，动作展示标签。因此，IL的具体目标是评估状态和动作之间的最适合度映射，以便agent尽可能多地实现专家轨迹。IL的配方总结如下：

基于这一公式，三种广泛使用的训练方法在这一部分得以幸存，首先表现为一种消极的方法，称为行为克隆（BC）；第二个建立在BC的基础上，命名为直接政策学习（DPL）；最后是一种依赖于任务的方法，称为逆强化学习（IRL）方法。表一列出了本部分所回顾的所有著名的模仿学习方法。

1）行为克隆：行为克隆（BC）是自动驾驶中IL的主要方法。代理利用专家轨迹到训练模型，然后使用分类器/回归器复制策略。BC是一种被动方法，其目的是通过被动观察命令的完整执行来学习目标策略。这需要一个前提，即所有轨迹中的状态-动作对是独立的。

Bojarski等人为BC构建了一个开创性的框架，该框架训练卷积神经网络仅计算前视图单眼相机的转向。这种方法只输出横向控制，而忽略纵向命令，因此只能在有限数量的简单场景中实现。Codevilla等人提出了一个著名的IL模型，称为条件模仿学习（CIL），该模型包含横向和纵向控制，如图3所示。单目图像、自车的速度测量和高级命令（直行、左行、右行和车道跟随）被用作CIL的输入，预测的经度和纬度控制命令被用作输出。每个命令都充当一个开关来选择一个专门的子模块。CIL是CL方法在自动驾驶中的一个里程碑，证明了卷积神经网络（CNN）可以学习自主执行车道和道路跟踪任务。

BC方法的主要特点是只有专家才能生成训练示例，这直接导致训练集是学习策略执行过程中访问的状态的子集。因此，当数据集有偏差或过拟合时，该方法仅限于推广。此外，当代理被引导到未知状态时，很难学习正确的恢复行为。

2）直接策略学习：直接策略学习（DPL）是一种基于BC的训练方法，它评估当前的策略，然后获得更合适的训练数据进行自优化。与BC相比，DPL的主要优势是利用专家轨迹来指导代理如何从当前错误中恢复。通过这种方式，DPL缓解了由于数据不足而导致的BC限制。在本节中，我们总结了一系列DPL方法。

Ross等人构建了一种经典的在线IL方法，称为数据集聚合（DAgger）方法。这是一种基于Follow the Leader算法的主动方法，每个验证迭代都是一个在线学习示例。该方法修改代理所经历的所有状态-动作对上的主分类器或回归器。DAgger是序列预测问题的一种新的解决方案，但其学习效率可能会因策略空间和学习空间之间的距离太远而受到抑制。作为回应，He等人提出了一种DAgger-by-coaching算法，该算法使用coach为学习者演示易于学习的策略，并且演示的策略逐渐收敛到标签。为了更好地指导代理，教练建立了一个折衷策略，该策略并不比地面实况控制信号差多少，也比新手预测的行动好得多。如图4所示，π是预测的命令，π*表示专家轨迹，π'表示折衷轨迹。代理在每次迭代中学习次优策略的π比π*容易得多，并且策略是渐近最优的。

DPL是一种迭代的在线学习策略，它减轻了对数据集数量和分布的要求，同时通过有效地消除不正确的策略来促进策略的持续改进。

3）反向强化学习：反向强化学习（IRL）旨在通过推断输入和输出之间的潜在原因来规避上述方法的缺点。与之前的方法类似，IRL在开始时需要收集一组专家轨迹。然而，不是简单地学习状态-动作映射，而是首先推断这些专家轨迹，然后基于复杂的奖励函数优化行为策略。IRL方法可分为三类，最大裕度方法、贝叶斯方法和最大熵方法。

最大裕度方法利用专家轨迹来评估奖励函数，该函数最大化最优策略和估计次最优策略之间的裕度。这些方法使用线性组合算法表示具有一组特征的奖励函数，其中所有特征被认为是独立的。

Andrew Wu[71]是这一领域的先驱，他介绍了第一个最大裕度IRL方法，该方法提出了三种计算精细奖励函数的算法。更进一步，Pieter等人设计了一种优化算法，该算法假设专家奖励函数可以表示为已知特征的手动线性组合，目的是揭示权重和特征之间的潜在关系。

现有方法的局限性在于，专家轨迹的质量和分布为该方法的性能设置了上限。作为回应，Umar等人提出了一种基于博弈论的IRL方法，称为乘法权重，用于学徒学习，它能够将关于每个特征权重的先验策略导入代理，并利用线性规划算法修改奖励函数，使其策略是稳定的。

IRL的第二部分是贝叶斯方法，它通常利用奖励的优化轨迹或先验分布来最大化奖励的后验分布。第一个贝叶斯IRL由Ramachandran等人提出。Levine等人将核函数集成到贝叶斯IRL模型中，以提高估计奖励的准确性，并提高隐形驾驶的性能。

IRL的第三部分是最大熵方法，它是通过在优化例程中使用最大熵来估计奖励函数来定义的。与以前的IRL方法相比，最大熵方法更适合连续空间，并且具有解决专家轨迹次优影响的潜在能力。Ziebart提出了第一个最大熵IRL模型，该模型利用了与[71]相同的方法，可以缓解专家轨迹中的噪声和不完美行为。代理试图通过将特征线性映射到奖励来优化监督下的奖励函数。

IRL为自动驾驶提供了一些优秀的工作，然而与上述方法一样，它在拐角情况下也存在长尾问题。如何有效地提高IRL的稳健性和可解释性也是未来的方向。

IL方法的目标是从专家轨迹中获取状态到动作的映射。然而，当数据集存在固有缺陷（例如，过拟合或不均匀分布）时，该方法的可推广性可能会受到损害。此外，当代理被引导到未知状态时，预测正确的行为成为一项艰巨的挑战。为了克服这些限制，许多研究人员使用数据扩充以及真实数据和虚拟数据的组合显著丰富了数据集的分布。这些努力确保了方法的可推广性，并获得了有竞争力的结果。

B. 强化学习

IL方法需要大量手动标记的数据，当遇到相同的情况时，不同的驾驶员可能会做出完全不同的决定，这导致了训练过程中的不确定性困境。为了消除对标记数据的渴望，一些研究人员努力利用强化学习（RL）算法进行自主决策规划。强化学习是指通过与环境交互来实现agent学习策略。RL代理的目标不是模仿专家行为，而是通过试错最大限度地提高环境中的累积数字奖励。通过与环境的持续交互，代理逐渐获得最优策略的知识，以实现目标。

马尔可夫决策过程（MDP）通常用于公式化RL问题。目标是找到最优策略π*，从而获得最高的预期折扣奖励总额：

基于这一公式，开发了两种实现最优策略的主要RL方法，例如基于价值的强化学习和基于策略的强化学习。此外，基于这些方法，层次强化学习（HRL）和多智能体强化学习（MARL）是解决更复杂问题和更适合真实驾驶场景的有前途的方法。使用RL方法训练无人驾驶车辆已成为端到端自动驾驶研究的一个日益增长的趋势。

1）基于价值的强化学习：基于价值的方法试图估计给定状态下不同行动的价值，并学习根据在该状态下采取行动所能获得的预期回报为每个行动分配一个价值。代理人学会将奖励与环境中采取的状态和行动联系起来，并利用这些信息做出最佳决策。

在基于价值的方法中，Q学习是最突出的。在端到端规划中实现Q学习的框架如图7所示。Mnih等人提出了第一种基于Q学习的深度学习方法，该方法直接从屏幕截图中学习以控制信号。此外，Wolf等人将Q学习方法引入智能车辆领域，他们在Gazebo模拟器中定义了五种不同的驾驶动作，车辆根据图像信息选择相应的动作。为了缓解高维感知输入稳定性差的问题。提出了条件DQN方法，该方法利用去模糊算法来增强不同运动命令的预测稳定性。所提出的模型在特定场景中实现了与人类驾驶相当的性能

为了在特定场景下为IVs执行高级决策，Alizadeh等人训练一个与DNN相结合的DQN代理，该代理输出两个离散动作。自我车辆的安全性和灵活性可以在行驶中得到平衡，这表明RL代理可以学习自适应行为。此外，Ronecker等人结合控制理论中的深度Q网络，提出了一种在高速公路场景中更安全的IV导航方法。通过为轨迹规划器提出目标，在模拟中对所提出的网络进行了训练，以进行中央决策，这表明基于价值的RL可以在高速公路交通场景中产生高效和安全的驾驶行为。

端到端自动驾驶的安全性也引起了人们的极大担忧。约束策略优化（CPO）是一种开创性的通用策略利用算法，用于约束强化学习，在每次迭代时都能获得接近约束的满足。李等人将风险感知算法引入DRL框架，以学习具有最小预期风险的变道任务的风险感知驾驶决策策略。Chow等人提出了安全策略优化算法，该算法采用基于李雅普诺夫的方法来解决CMDP问题。此外，Yang等人构建了一种无模型的安全RL算法，该算法在逐步状态约束场景中集成了策略和神经屏障证书学习。Mo等人利用蒙特卡洛树搜索来减少高速公路场景中超车子任务的不安全行为。

2）基于策略的强化学习：基于价值的方法仅限于提供离散命令。然而，自动驾驶是一个连续的过程，在不间断的范围内的连续命令可以在细粒度上进行控制。因此，连续方法更适合车辆控制。基于策略的方法具有在具有连续控制命令的高维动作空间中实现高天花板的潜力。这些方法比基于价值的方法表现出更好的收敛性和探索性。

在真实世界的IVs上执行RL是一项具有挑战性的任务。Kendall等人在实际的智能车辆上实现了深度威慑-最小策略梯度（DDPG）算法，在车上执行所有探索和优化，如图8所示。单色图像是唯一的输入，智能体学习车道跟随策略，并在250米的道路测试中达到人类水平的性能。这项工作标志着在全尺寸自动驾驶汽车上首次应用深度强化学习。为了进一步提高驾驶安全性和舒适性，王等人介绍了一种基于人类专家变道政策的IVs创新方法。这种方法可以在单车或多辆车上执行，有助于在不需要V2X通信支持的情况下顺利变道。

为了解决RL方法的学习效率限制，Huang等人设计了一种新的方法，将人类先验知识纳入RL方法。当面临自动驾驶的长尾问题时，许多研究人员将他们的视角转向了利用专家的人类经验。吴等人提出了一种基于人工引导的RL方法，该方法利用一种新颖的优先体验重放机制来提高RL算法在极端场景下的效率和性能，该方法的框架如图9所示。该方法在两个具有挑战性的自动驾驶任务中得到了验证，并取得了具有竞争力的结果。因此，提高驾驶任务的表现可能需要多种方法的结合和特定任务训练方法的设计。

3）分层强化学习：RL方法在各个领域都表现出了巨大的前景，然而，这些方法经常因训练困难而受到批评。特别是在自动驾驶领域，非平稳场景和高维输入数据导致无法忍受的训练时间和资源使用。分层强化学习（HRL）将整个问题分解为子任务的层次结构，每个子任务都有自己的目标和策略。子任务是以分层的方式组织的，高级子任务为低级子任务提供上下文和指导。这种分层组织允许代理专注于较小的子问题，降低了学习问题的复杂性，使其更易于处理。

4）多Agent强化学习：在真实场景中，通常存在不同的流量参与者，他们的互动会对彼此的策略产生重大影响。在单智能体系统中，其他参与者的行为通常基于预定义的规则进行控制，并且智能体的预测行为可能会过度拟合其他参与者，从而导致比多智能体更具确定性的策略。多智能体强化学习（MARL）旨在学习环境中多智能体的决策策略。分散的部分可观测马尔可夫决策过程（DEC-POMDP）是MARL的一种典型形式化，因为在许多现实世界领域，智能体不可能观察到环境状态的所有特征，并且所有智能体都以分散的方式与环境交互。此外，状态空间随着代理的数量呈指数级扩展，使得训练多代理系统（MAS）变得更具挑战性和更慢。

尽管RL是一种很有吸引力的方法，可以让智能体在没有专家指令的环境中通过试错进行学习，但大多数RL方法的样本效率都很低。随着神经网络在RL领域用于深度表示学习和函数逼近，可解释性仍然是一个挑战。

C. 并行学习

自动驾驶中的规划方法受到几个挑战的限制。管道规划方法结合了大量的人工定制启发式方法，导致计算效率低，泛化能力低。模仿学习（IL）方法需要大量的专家轨迹和多样化的分布，而强化学习（RL）方法则需要大量的计算资源。因此，这些限制的存在阻碍了自动驾驶的广泛实施。

为了应对规划方法中的各种问题，虚拟现实交互提供了一个行之有效的解决方案。基于网络物理系统（CPS）的智能控制可以促进物理空间和网络空间之间的交互和集成，但不考虑系统中的人类和社会因素。作为回应，许多研究人员将社会因素和人工信息添加到CPS中，形成了网络物理社会系统（CPSS）。在CPSS中，“C”代表两个维度：真实世界中的信息系统和由软件定义的虚拟人工系统。“P”指的是传统的实物系统。S不仅包括人类社会系统，还包括基于现实世界的人工系统。

CPSS使虚拟系统和真实系统能够相互作用、反馈和促进。真实系统为人工系统的构建和校准提供了有价值的数据集，而人工系统则指导和支持真实系统的运行，从而实现自进化。由于虚拟现实交互的优势，CPSS为端到端自动驾驶提供了一种新的验证方法。

基于CPSS，王飞跃于2004年提出了并行系统理论的概念，如图12所示，其核心概念是ACP方法，关于本节中提出的方法的调查如表III所示。

为了进一步扩展神经网络的学习能力，并应对IL和RL的挑战，Li等人提出了一个基于并行系统理论的并行学习基本框架，如图13所示。在行动阶段，并行学习[128]遵循RL范式，采用状态转移来表示模型的运动，从大数据中学习，并将学习到的策略存储在状态转移函数中。值得注意的是，并行学习利用计算实验来完善策略。通过特征提取方法，小知识可以应用于特定场景或任务，并用于并行控制。在这里，“小”指的是针对特定问题的具体而聪明的知识，而不是表示知识的大小。

并行系统理论为复杂系统的控制和管理提供了一种有效的工具，特别是在自主控制领域，并行驱动有效地缓解了端到端规划模型数据短缺、学习效率低下和鲁棒性差的问题。

实验平台

在真实系统中测试IVs通常会带来潜在的致命安全风险。因此，自动驾驶中的算法通常在利用开源数据集和模拟平台的人工系统中进行评估。

A. 数据集

B. 仿真平台

C. 物理平台

随着计算机计算能力的提高，模拟测试越来越能够满足各种场景的测试要求，并已被证明在解决与此类系统相关的长尾问题方面是有效的。然而，模拟器中使用的预训练模型通常需要在现实世界中实现之前进行微调。此外，虽然模拟测试可以覆盖广泛的场景，但它不能考虑所有的角落情况。因此，一个专业且安全的半开放式自动驾驶验证网站至关重要。

自动驾驶技术在过去几十年中取得了重大发展，一些国家采取了允许在公共道路上测试机器人出租车的政策。在美国，从2022年起，Waymo被允许在旧金山街头测试机器人驾驶技术。Nuro最近开始在亚利桑那州、加利福尼亚州和得克萨斯州部署自动驾驶送货车。在英国，Aurigo正在伯明翰机场进行自动穿梭机的试验。Wayve被授权在五个城市之间进行长距离自动驾驶汽车测试。在中国，无人驾驶的商业化正在迅速发展，Apollo、Pony和Momenta等公司已经在几个城市实施了IVs。此外，Waytous正在非结构化和封闭场景中进行无人驾驶运输，并已为多个露天矿提供无人驾驶解决方案。

挑战和未来方向

自动驾驶已经取得了相当大的里程碑，它在各个城市的半开放道路上的成功验证就是明证。然而，由于需要克服许多障碍和迫在眉睫的挑战，其完整的商业部署尚未实现。

A. 挑战

1）感知：自动驾驶框架在很大程度上依赖于感知数据，然而大多数传感器更容易受到环境影响，并存在部分感知问题。因此，潜在的危险可能会被忽视，这些缺点给自动驾驶带来了安全挑战。
2）规划：管道和端到端规划都有内在的局限性，确保在不确定和复杂的场景下产生高质量的产出是必不可少的研究目标。
3）安全：自动驾驶系统的黑客攻击正在增加，即使是轻微的干扰也可能引发重大偏差。因此，大规模部署匿名驾驶方法需要采取强有力的措施来对抗对抗性攻击。
4）数据集：模拟器对于训练和测试自动驾驶模型至关重要，然而，在虚拟环境中训练良好的模型往往无法在现实中直接实现。因此，弥合虚拟数据和真实数据之间的差距对于推进该领域的研究至关重要。

B. 未来方向

端到端规划器的机制是最接近人类驱动程序的，根据输入状态来计算输出空间。然而，由于数据、可解释性、通用性和策略方面的挑战，端到端规划者在现实世界中仍然很少实施。在此，我们提出了端到端规划领域的一些未来展望。

可解释性：机器学习因其黑匣子特性而受到批评。目前的中间特征表示不足以解释其推理过程的因果性。在IV的情况下，缺乏可解释性的后果可能是灾难性的。因此，为运动规划器提供清晰易懂的解释对于增强对智能车辆的信任至关重要。此外，这种方法可以帮助预测和纠正可能危及乘客安全的潜在问题。
Sim2Real：模拟和真实环境在场景多样性和环境复杂性方面存在明显差异，使模拟数据与真实数据保持一致具有挑战性。因此，模拟器中训练有素的模型可能无法在真实环境中最佳地执行。开发一个模型来弥合模拟环境和真实环境之间的差距，对于解决数据多样性和公平性的挑战至关重要，这也是端到端规划的一个重要研究方向。
可靠性：阻碍IVs开发和部署的一个关键瓶颈是验证其可靠性所需的高昂经济和时间成本。构建一种能够在短时间内识别角落案例的基于人工智能的算法是IVs验证的关键方向。
治理：四不仅是一个技术问题，健全的政策也至关重要。设计一个包括安全标准、数据隐私法规和道德准则的框架对于管理IVs的开发和部署是必要的。这一框架将促进问责制和透明度，降低风险，并确保捍卫公众利益。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码免费学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、Occupancy、多传感器融合、大模型、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）