End-to-end Autonomous Driving:Challenges and Frontiers——端到端自动驾驶：挑战与前沿

最新推荐文章于 2025-05-03 17:43:10 发布

Together_CZ

最新推荐文章于 2025-05-03 17:43:10 发布

阅读量1.4k

点赞数 26

文章标签：自动驾驶人工智能机器学习 End-to-end Autonomous Driving 端到端自动驾驶：挑战

本文链接：https://blog.csdn.net/Together_CZ/article/details/146420499

版权

这篇文章是一篇关于端到端自动驾驶（End-to-end Autonomous Driving）的综述，涵盖了该领域的动机、方法、挑战和未来趋势。以下是文章的主要研究内容的凝练总结：

研究背景与动机

传统自动驾驶系统：采用模块化设计，将感知、预测和规划等任务分开处理，但存在优化目标不一致、计算负担重、泛化能力有限等问题。
端到端自动驾驶系统：将原始传感器数据直接映射到车辆的运动规划或控制动作，通过联合优化感知和规划任务，提高系统整体性能和泛化能力。

研究方法

模仿学习（Imitation Learning, IL）：
- 行为克隆（Behavior Cloning, BC）：通过最小化专家行为与学习代理行为之间的差异来训练模型，但存在协变量偏移和因果混淆问题。
- 逆最优控制（Inverse Optimal Control, IOC）：从专家演示中学习奖励函数，通过优化成本函数来选择最优轨迹。
强化学习（Reinforcement Learning, RL）：通过试错学习，但需要大量数据和计算资源，且在实际驾驶中的应用有限。
多任务学习（Multi-Task Learning, MTL）：通过联合训练多个相关任务来提高模型的泛化能力，但任务组合和损失权重的优化是一个挑战。
世界模型（World Models）：通过建模环境的动态来提高样本效率，但建模复杂且动态的驾驶环境是一个挑战。

挑战

多模态感知：如何有效融合来自不同传感器（如相机、激光雷达、毫米波雷达等）的数据，以提高感知的准确性和鲁棒性。
可解释性：端到端模型通常被视为“黑盒子”，缺乏对决策过程的解释能力，这对于自动驾驶系统的安全性和社会接受度是一个重要问题。
因果混淆：模型可能过度依赖于输入数据中的虚假相关性，导致在实际应用中出现错误决策。
鲁棒性：模型在面对长尾分布、协变量偏移和领域适应等问题时的泛化能力不足。
安全保证：基于学习的端到端系统缺乏传统基于规则的方法所具有的精确数学安全保证。

未来趋势

零样本和少样本学习：开发能够在未见目标域中进行有效学习的模型，减少对大规模标注数据的依赖。
模块化端到端规划：结合模块化设计和端到端优化的优势，提高系统的可解释性和泛化能力。
数据引擎：建立高效的数据收集、标注和管理平台，以支持大规模模型训练和持续改进。
基础模型：利用大规模预训练模型（如语言模型和视觉模型）来提升端到端自动驾驶系统的性能和泛化能力。

端到端自动驾驶系统在提高自动驾驶性能和泛化能力方面具有巨大潜力，但同时也面临着多模态感知、可解释性、因果混淆、鲁棒性和安全保证等多方面的挑战。未来的研究需要在数据引擎、基础模型、零样本学习和模块化设计等方面取得突破，以推动端到端自动驾驶技术的发展和应用。

这篇文章为端到端自动驾驶领域的研究提供了一个全面的视角，不仅总结了当前的研究进展，还指出了未来的研究方向，对于该领域的研究人员和从业者具有重要的参考价值。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

摘要

自动驾驶领域见证了采用端到端算法框架的方法的快速增长，这些方法利用原始传感器输入生成车辆运动计划，而不是专注于单独的任务，如检测和运动预测。与模块化流程相比，端到端系统受益于感知和规划的联合特征优化。由于大规模数据集的可用性、闭环评估以及自动驾驶算法需要在具有挑战性的场景中有效运行的需求增加，这一领域蓬勃发展。在这篇综述中，我们提供了对 270 多篇论文的全面分析，涵盖了端到端自动驾驶的动机、路线图、方法论、挑战和未来趋势。我们深入探讨了多模态、可解释性、因果混淆、鲁棒性和世界模型等多个关键挑战。此外，我们还讨论了基础模型和视觉预训练的最新进展，以及如何将这些技术纳入端到端驾驶框架。

1 引言

传统的自动驾驶系统采用模块化设计策略，其中每个功能，如感知、预测和规划，分别开发并集成到车载车辆中。负责生成转向和加速度输出的规划或控制模块，在决定驾驶体验方面发挥着关键作用。模块化流程中最常见的规划方法是使用复杂基于规则的设计，这些设计通常在处理道路上发生的大数量情况时效果不佳。因此，越来越多的趋势是利用大规模数据并采用基于学习的规划作为可行的替代方案。我们将端到端自动驾驶系统定义为完全可微分的程序，它们以原始传感器数据作为输入，产生计划和/或低级控制动作作为输出。图 1(a) 和 (b) 描述了经典方法和端到端公式之间的区别。传统方法将每个组件的输出，例如边界框和车辆轨迹，直接输入到后续单元（虚线箭头）。相比之下，端到端范式在组件之间传播特征表示（灰色实线箭头）。优化函数被设置为例如规划性能，通过反向传播最小化损失（红色箭头）。在这个过程中，任务是联合且全局优化的。在这篇综述中，我们对这一新兴主题进行了广泛的回顾。图 1 提供了我们工作的概述。我们首先讨论了端到端自动驾驶系统的动机和路线图。端到端方法大致可以分为模仿学习和强化学习，我们对这些方法论进行了简要回顾。我们涵盖了用于闭环和开环评估的数据集和基准测试。我们总结了一系列关键挑战，包括可解释性、泛化能力、世界模型、因果混淆等。最后，我们讨论了社区应该接受的未来趋势，以纳入数据引擎和大型基础模型等最新发展。请注意，本综述主要从理论角度进行编排。工程工作，如版本控制、单元测试、数据服务器、数据清理、软硬件协同设计等，在部署端到端技术方面发挥着关键作用。关于这些主题的最新实践的公开信息有限。我们邀请社区在未来讨论中更加开放。

图 1：一目了然的综述。（a）流程与方法。我们将端到端自动驾驶定义为一种基于学习的算法框架，以原始传感器输入和规划 / 控制输出为特征。我们深入研究了 270 多篇论文，并将其分类为模仿学习（IL）和强化学习（RL）。（b）基准测试。我们将流行的基准测试分别归类为闭环和开环评估。我们涵盖了闭环仿真的各个方面以及开环评估在此问题上的局限性。（c）挑战。这是我们工作的主要部分。我们列出了一系列广泛主题的关键挑战，并广泛分析了为什么这些关注点至关重要。也涵盖了这些挑战的有希望的解决方案。（d）未来趋势。我们讨论了端到端范式如何通过借助基础模型的快速发展、视觉预训练等而受益。部分照片由在线资源提供。

1.1 端到端系统的动机

在经典流程中，每个模型对应一个独立的组件，并对应一个特定的任务（例如，交通灯检测）。这种设计在可解释性和易于调试方面是有益的。然而，由于跨模块的优化目标不同，检测追求平均精度均值（mAP），而规划旨在实现驾驶安全和舒适，整个系统可能无法与统一目标对齐，即最终的规划/控制任务。每个模块的错误，随着顺序过程的进行，可能会累积并导致信息丢失。此外，与单一端到端神经网络相比，涉及多个编码器和消息传输系统的多任务、多模型部署可能会增加计算负担，并可能导致计算资源的次优使用。与传统对应物相比，端到端自动驾驶系统提供了几个优势。(a) 最明显的优势是其简单性，将感知、预测和规划合并到一个可以联合训练的单一模型中。(b) 整个系统，包括其中间表示，被优化以实现最终任务。(c) 共享的骨干网络提高了计算效率。(d) 数据驱动的优化有可能通过简单地扩展训练资源来改进系统。需要注意的是，端到端范式并不一定表示一个只有规划/控制输出的黑盒子。它可以有中间表示和输出（图 1(b)），就像经典方法一样。事实上，一些最先进的系统 [1, 2] 提出了一种模块化设计，但优化所有组件以实现卓越性能。

1.2 路线图

图 2 描绘了端到端自动驾驶的关键成就的按时间顺序的路线图，其中每个部分表示一个重要的范式转变或性能提升。端到端自动驾驶的历史可以追溯到 1988 年的 ALVINN [3]，当时的输入是来自相机的两个“视网膜”和一个激光测距仪，一个简单的神经网络生成了转向输出。NVIDIA 设计了一个端到端 CNN 系统原型，这在 GPU 计算的新时代重新确立了这一想法 [8]。随着深度神经网络的发展，模仿学习 [15, 16] 和强化学习 [4, 17, 18, 19] 领域都取得了显著进展。在 LBC [5] 中提出的策略蒸馏范式以及相关方法 [20, 21, 22, 23] 通过模仿一个行为良好的专家显著提高了闭环性能。为了提高由于专家和学习策略之间的差异而导致的泛化能力，几篇论文 [10, 24, 25] 提出了在训练期间聚合在线策略数据 [26]。

图 2：端到端自动驾驶的路线图。我们按时间顺序列出了关键里程碑，并将类似的工作归类在同一主题下。每个主题下的代表作或开创性工作以加粗显示，并附有插图，而同一主题下其他文献的日期可能各不相同。我们还展示了每年在CARLA排行榜[13]上最高条目的得分（DS，范围为0到100）以及最近的nuPlan挑战赛[14]的得分（范围为0到1）。

2021 年左右出现了一个重要的转折点。随着在合理计算预算内可以使用多种传感器配置，注意力集中在结合更多模态和先进架构（例如，Transformer [27]）以捕获全局上下文和代表性特征，如 TransFuser [6, 28] 和许多变体 [29, 30, 31]。结合对仿真环境的更多见解，这些先进设计在 CARLA 基准测试 [13] 中取得了显著的性能提升。为了提高自动驾驶系统的可解释性和安全性，方法 [11, 32, 33] 明确涉及各种辅助模块，以更好地监督学习过程或利用注意力可视化。最近的工作优先生成安全关键数据 [7, 34, 35]，预训练一个针对策略学习的基础模型或骨干网络 [12, 36, 37]，并倡导模块化端到端规划理念 [1, 2, 38, 39]。与此同时，新的且具有挑战性的 CARLA v2 [13] 和 nuPlan [14] 基准测试被引入以促进这一领域的研究。

1.3 与相关综述的比较

我们希望澄清我们的综述与之前相关综述 [40, 41, 42, 43, 44, 45, 46, 47, 48] 的区别。一些先前的综述 [40, 41, 42, 43] 在端到端系统的内容方面与我们的相似，但它们没有涵盖随着该领域重大转变而出现的新的基准测试和方法，并且对前沿和挑战的强调较少。其他综述则专注于这一领域中的特定主题，例如模仿学习 [44, 45, 46] 或强化学习 [47, 48]。相比之下，我们的综述提供了该领域最新发展的最新信息，涵盖了广泛的主题，并对关键挑战进行了深入讨论。

1.4 贡献

总结来说，本综述的三个关键贡献如下：(a) 我们首次提供了对端到端自动驾驶的全面分析，包括高层次的动机、方法论、基准测试等。我们倡导将算法框架作为一个整体进行设计，以实现安全舒适的驾驶作为最终目标。（b）我们广泛调查了当前方法面临的挑战。在调查的 270 多篇论文中，我们总结了主要方面并进行了深入分析，包括泛化能力、语言引导学习、因果混淆等主题。（c）我们涵盖了如何拥抱大型基础模型和数据引擎的更广泛影响。我们相信这一研究方向以及它所提供的大规模高质量数据将显著推动这一领域的发展。为了促进未来的研究，我们维护一个活跃的代码库，其中包含最新的文献和开源项目。

2 方法

本节回顾了大多数现有端到端自动驾驶方法背后的基本原理。第 2.1 节讨论了使用模仿学习的方法，并详细介绍了两个最受欢迎的子类别，即行为克隆和逆最优控制。第 2.2 节总结了遵循强化学习范式的方法。

2.1 模仿学习

模仿学习（IL），也称为从演示中学习，通过模仿专家的行为来训练智能体学习策略。IL 需要一个数据集 D = {ξi}，其中包含在专家策略 πβ 下收集的轨迹，每个轨迹是一系列状态-动作对。IL 的目标是学习一个与 πβ 匹配的智能体策略 π。策略 π 可以输出规划轨迹或控制信号。早期工作通常采用控制输出，因为它们易于收集。然而，预测不同步骤的控制可能导致不连续的操作，并且网络本质上会专门针对车辆动力学，这阻碍了对其他车辆的泛化。另一种类型的工作预测航点。它考虑了一个相对较长的时间范围。同时，将轨迹转换为车辆跟踪的控制信号需要额外的控制器，这并非易事，涉及车辆模型和控制算法。由于在这两种范式之间没有观察到明显的性能差距，因此我们在本综述中不会明确区分它们。关于这一主题的有趣且更深入的讨论可以在 [22] 中找到。一种广泛使用的 IL 类别是行为克隆（BC）[49]，它将问题简化为监督学习。逆最优控制（IOC），也称为逆强化学习（IRL）[50] 是另一种 IL 方法，它利用专家演示来学习奖励函数。我们在下面详细阐述这两个类别。

图 3：端到端自动驾驶方法概述。我们展示了三种流行的范式，包括两种模仿学习框架（行为克隆和逆最优控制）以及在线强化学习。

2.1.1 行为克隆

在 BC 中，通过最小化规划损失作为监督学习来匹配智能体策略与专家策略：E(s,a) ℓ(πθ(s), a)。这里，ℓ(πθ(s), a) 表示一个损失函数，用于衡量智能体动作与专家动作之间的距离。早期的 BC 应用于驾驶 [3, 8, 51] 利用端到端神经网络从相机输入生成控制信号。进一步的改进包括多传感器输入 [6, 52]、辅助任务 [16, 28] 和改进的专家设计 [21]，以使基于 BC 的端到端驾驶模型能够处理具有挑战性的城市场景。BC 的优势在于其简单性和效率，因为它不需要手工设计奖励函数，这对于强化学习（RL）至关重要。然而，存在一些常见问题。在训练期间，它将每个状态视为独立同分布的，这导致了一个重要的问题，称为协变量偏移。对于一般 IL，已经提出了几种在线策略方法来解决这个问题 [26, 53, 54, 55]。在端到端自动驾驶的背景下，DAgger [26] 已被采用在 [5, 10, 25, 56] 中。BC 的另一个常见问题是因果混淆，模仿者利用并依赖于某些输入组件和输出信号之间的虚假相关性。这个问题在端到端自动驾驶的背景下已经在 [57, 58, 59, 60] 中进行了讨论。这两个具有挑战性的问题在第 4.9 节和第 4.8 节中进一步讨论。

2.1.2 逆最优控制

传统的 IOC 算法从专家演示中学习未知的奖励函数 R(s, a)，其中专家的奖励函数可以表示为特征的线性组合 [50, 61, 62, 63, 64]。然而，在连续的、高维的自动驾驶场景中，奖励的定义是隐式的且难以优化。生成对抗性模仿学习 [65, 66, 67] 是 IOC 中的一种专门方法，它将奖励函数设计为对抗性目标，以区分专家和学习策略，类似于生成对抗性网络 [68] 的概念。最近，一些工作提出优化一个成本体积或成本函数，并结合辅助感知任务。由于成本是奖励的另一种表示形式，我们将这些方法归类为 IOC 领域。我们定义成本学习框架如下：端到端方法学习一个合理的成本 c(·)，并使用算法轨迹采样器来选择具有最小成本的轨迹 τ∗，如图 3 所示。关于成本设计，它有包括在鸟瞰图（BEV）中学习的成本体积 [32]、从其他代理的未来运动中计算的联合能量 [69] 或一组概率语义占用或自由空间层 [39, 70, 71] 的表示。另一方面，轨迹通常从固定的专家轨迹集中采样 [1, 72] 或通过参数采样并使用运动学模型进行处理 [32, 38, 39, 70]。然后，采用最大间隔损失，如经典 IOC 方法中那样，以鼓励专家演示具有最小成本，而其他则具有高成本。成本学习方法存在一些挑战。特别是，为了生成更现实的成本，通常需要结合高精地图、辅助感知任务和多个传感器，这增加了多模态多任务框架中学习和构建数据集的难度。然而，上述成本学习方法显著提高了决策的安全性和可解释性（见第 4.6 节），我们相信行业启发的端到端系统设计是实际应用中的一个可行方法。

2.2 强化学习

强化学习（RL）[73, 74] 是一种通过试错进行学习的领域。深度 Q 网络（DQN）[75] 在 Atari 基准测试 [76] 上实现人类水平控制的成功，使深度 RL 流行起来。DQN 训练了一个称为评估者（或 Q 网络）的神经网络，它以当前状态和一个动作作为输入，并预测该动作的折扣回报。策略则是通过选择具有最高预测回报的动作来隐式定义的。RL 需要一个允许执行潜在危险动作的环境，以收集新数据（例如，通过随机动作）。此外，RL 需要的训练数据量比 IL 多得多。因此，现代 RL 方法通常在多个环境中并行化数据收集 [77]。在现实世界中满足这些要求存在巨大挑战。因此，几乎所有使用 RL 进行驾驶的论文都只在仿真中进行了研究。大多数使用的是 DQN 的不同扩展。社区尚未就特定的 RL 算法达成共识。RL 已成功地在真实车辆上学会了在空旷街道上进行车道跟踪 [4]。尽管这一令人鼓舞的结果，必须指出的是，类似的任务早在三十年前就已经通过 IL 实现 [3]。迄今为止，尚未有报告表明使用 RL 进行端到端训练的结果能够与 IL 竞争。RL 失败的原因可能是通过 RL 获得的梯度不足以训练驾驶所需的深度感知架构（即，ResNet）。在 RL 成功的基准测试（如 Atari）中使用的模型相对较浅，仅包含几层 [78]。RL 已成功应用于端到端驾驶，当它与监督学习（SL）结合时。隐式先验 [18, 19] 使用 SL 预训练 CNN 编码器，执行诸如语义分割等任务。在第二阶段，冻结这个编码器，并在来自冻结编码器的特征上使用现代版本的 Q 学习 [79] 来训练浅层策略头。RL 也可以用来微调使用 IL 预训练的完整网络 [17, 80]。如果网络能够访问特权模拟器信息，RL 也可以有效应用 [48, 81, 82]。特权 RL 代理可以用于数据集策划。Roach [21] 在特权 BEV 语义地图上训练一个 RL 代理，并使用该策略自动收集数据集，以便下游 IL 代理进行训练。WoR [20] 使用 Q 函数和表格动态规划为静态数据集生成额外的或改进的标签。该领域的挑战是将仿真中的发现转移到现实世界中。在 RL 中，目标以奖励函数的形式表达，许多算法要求它们是密集的，并在每个环境步骤中提供反馈。当前的工作通常使用简单的目标，如进展和碰撞避免。这些简单的设计可能会鼓励危险行为 [81]。设计或学习更好的奖励函数仍然是一个开放性问题。另一个方向是开发能够处理稀疏奖励的 RL 算法，从而可以直接优化相关指标。RL 也可以有效地与世界模型 [83, 84, 85] 结合，尽管这带来了特定的挑战（见第 4.3 节）。当前的 RL 解决方案依赖于场景的低维表示，这一问题在第 4.2.2 节中进一步讨论。

3 基准测试

自动驾驶系统需要进行全面评估以确保安全。研究人员必须使用适当的数据集、仿真器、指标和硬件来对这些系统进行基准测试，以实现这一目标。本节概述了三种用于基准测试端到端自动驾驶系统的方法：(1) 实际道路测试，(2) 在线或闭环仿真，以及 (3) 离线或开环评估驾驶数据集。我们重点关注可扩展且原则性强的在线仿真设置，并总结实际道路测试和离线评估以供完整性参考。

3.1 实际道路测试

早期对自动驾驶系统的基准测试工作涉及实际道路测试。值得注意的是，DARPA 发起了一系列比赛。首次赛事为获胜者提供 100 万美元奖金，用于自动驾驶穿越莫哈维沙漠的 240 公里路线，但没有任何团队成功完成 [86]。该系列的最终赛事，即 DARPA 城市挑战赛，要求车辆在模拟城市环境中导航 96 公里的路线，遵守交通规则并避开障碍物 [87]。这些比赛促进了自动驾驶领域的重要发展，例如激光雷达传感器。在此精神的推动下，密歇根大学建立了 MCity [88]，这是一个大型的受控实际环境，用于测试自动驾驶车辆。然而，由于缺乏数据和车辆，此类学术尝试尚未广泛用于端到端系统。相比之下，拥有资源部署无人驾驶车队的行业可以依靠实际道路测试来衡量其算法的改进。

3.2 在线/闭环仿真

在实际道路上测试自动驾驶系统既昂贵又危险。为应对这一挑战，仿真成为一种可行的替代方案 [14, 89, 90, 91, 92, 93]。仿真器便于快速原型设计和测试，能够快速迭代想法，并为单元测试提供低成本的多样化场景。此外，仿真器还提供了准确衡量性能的工具。然而，其主要缺点是，在仿真环境中获得的结果不一定能够推广到现实世界（见第 4.9.3 节）。闭环评估涉及构建一个尽可能接近真实驾驶环境的仿真环境。评估包括在仿真中部署驾驶系统并衡量其性能。该系统必须在交通中安全导航，同时朝着指定的目标位置前进。开发此类仿真器的四个主要子任务包括参数初始化、交通仿真、传感器仿真和车辆动力学仿真。我们先简要介绍这些子任务，然后总结目前可用的用于闭环基准测试的开源仿真器。

3.2.1 参数初始化

仿真的一大优势是能够高度控制环境，包括天气、地图、3D 资产以及交通场景中的低级属性。尽管功能强大，但这些参数的数量众多，导致设计问题复杂。当前的仿真器通过两种方式解决这一问题：程序化生成：传统上，初始参数由 3D 艺术家和工程师手动调整 [89, 90, 91, 92]。这限制了可扩展性。最近，一些仿真属性可以通过计算机算法从概率分布中采样，我们称之为程序化生成 [94]。程序化生成算法结合规则、启发式方法和随机化，创建多样化的道路网络、交通模式、光照条件和物体放置 [95, 96]。由于其效率高于完全手动设计，程序化生成已成为视频游戏和仿真中最常用的方法之一。然而，该过程仍需要预定义参数和算法来控制生成的可靠性，这既耗时又需要大量专业知识。数据驱动：数据驱动的仿真初始化方法旨在学习所需的参数。最简单的方法之一是从真实驾驶日志中采样 [14, 93]，其中道路地图或交通模式等参数直接从预先记录的数据集中提取。日志采样的优点是能够捕捉真实世界数据中的自然变异性，从而产生更真实的仿真场景。然而，它可能无法涵盖对测试自动驾驶系统鲁棒性至关重要的罕见情况。可以通过优化初始参数来增加这些场景的代表性 [7, 34, 35]。另一种先进的数据驱动初始化方法是生成建模，其中机器学习算法用于学习真实世界数据的底层结构和分布。然后，它们可以生成类似真实世界的新型场景，这些场景在原始数据中并不存在 [97, 98, 99, 100]。

3.2.2 交通仿真

交通仿真涉及在环境中生成和定位具有逼真运动的虚拟实体 [98, 101]。这些实体通常包括车辆（如汽车、摩托车、自行车等）和行人。交通仿真器必须考虑速度、加速度、制动、阻碍物以及与其他实体行为的影响。此外，交通灯状态必须定期更新，以模拟真实的城市驾驶。交通仿真的两种流行方法如下：

基于规则的方法：基于规则的交通仿真器使用预定义的规则来生成交通实体的运动。最突出的实现是智能驾驶模型（IDM）[102]。IDM 是一种跟车模型，根据当前速度、前车速度以及期望的安全距离来计算每辆车的加速度。尽管广泛使用且简单易懂，但这种方法可能不足以模拟城市环境中逼真的运动和复杂的交互。
数据驱动的方法：真实的人类交通行为高度复杂且具有交互性，包括变道、并线、突然停车等。为了模拟这种行为，数据驱动的交通仿真利用从真实驾驶中收集的数据。这些模型能够捕捉更微妙、更逼真的行为，但需要大量的标记数据用于训练。为了实现这一目标，已经提出了各种基于学习的技术 [98, 99, 101, 103, 104, 105]。

3.2.3 传感器仿真

传感器仿真对于评估端到端自动驾驶系统至关重要。这涉及生成仿真原始传感器数据，例如从不同视角在仿真器中接收的相机图像或激光雷达扫描 [106, 107, 108]。此过程需要考虑噪声和遮挡，以真实地评估自动驾驶系统。关于传感器仿真的两个主要思路如下：

基于图形的方法：最近的计算机图形仿真器使用环境的 3D 模型以及交通实体模型，通过近似传感器的物理渲染过程来生成传感器数据 [90, 91]。例如，这可以涉及真实世界环境中存在的遮挡、阴影和反射，同时仿真相机图像。然而，图形仿真方法的逼真度通常较差，或者以沉重的计算成本为代价，使得并行化非易事 [109]。它与 3D 模型的质量以及用于建模传感器的近似值密切相关。关于驾驶数据的图形渲染的全面综述，请参见 [110]。
数据驱动的方法：数据驱动的传感器仿真利用真实世界传感器数据来创建仿真，其中自车和背景交通的运动可能与记录时不同 [111, 112, 113]。流行的方法包括神经辐射场（NeRF）[114] 和 3D 高斯绘制 [115]，它们可以通过学习场景几何形状和外观的隐式表示来生成场景的新视角。与基于图形的方法相比，这些方法可以产生更逼真的视觉传感器数据，但它们存在渲染时间长或需要对每个场景独立训练的限制。数据驱动传感器仿真的另一种方法是领域适应，旨在最小化真实和图形仿真传感器数据之间的差距 [120]。可以使用深度学习技术，如生成对抗网络（GAN），来提高逼真度（见第 4.9.3 节）。

3.2.4 车辆动力学仿真

驾驶仿真的最后一个方面是确保仿真车辆遵循物理上合理的运动。大多数现有的公开仿真器使用高度简化的车辆模型，例如单轮模型 [121] 或双轮模型 [122]。然而，为了促进算法从仿真顺利转移到现实世界，将更准确的车辆动力学物理建模纳入其中至关重要。例如，CARLA 采用多体系统方法，将车辆表示为四个轮子上的多个弹簧质量。关于此的全面综述，请参见 [123]。

3.2.5 基准测试

我们在表 1 中简洁地概述了截至当前可用的端到端驾驶基准测试。2019 年，CARLA [91] 随附的原始基准测试已被近乎完美地解决 [5]。随后的 NoCrash 基准测试 [124] 涉及在特定天气条件下对一个 CARLA 城镇进行训练，并测试对另一个城镇和一组新天气条件的泛化能力。与仅使用一个城镇不同，Town05 基准测试 [6] 涉及在所有可用城镇进行训练，同时保留 Town05 用于测试。同样，LAV 基准测试在所有城镇中进行训练，除了 Town02 和 Town05，这两个城镇均保留用于测试。Roach [21] 使用的设置涉及三个测试城镇，尽管所有城镇在训练期间都已见过，且没有 Town05 和 LAV 中的安全关键场景。最后，Longest6 基准测试 [28] 使用六个测试城镇。两个在线服务器，排行榜（v1 和 v2）[13]，通过保密评估路线确保公平比较。由于路线长度较长（平均超过 8 公里，而 v1 为 1 - 2 公里）以及一系列新的交通场景，排行榜 v2 非常具有挑战性。nuPlan 模拟器目前可通过 NAVSIM 项目 [125] 用于评估端到端系统。此外，还有两个基准测试，代理在 nuPlan 中输入地图和对象属性，通过数据驱动的参数初始化（见第 3.2.1 节）进行评估。Val14 [126] 使用 nuPlan 的验证分割。排行榜是一个带有私有测试集的提交服务器，用于 2023 年 nuPlan 挑战赛，但目前已不再公开用于提交。

3.3 离线/开环评估

开环评估主要评估系统相对于预先记录的专家驾驶行为的性能。这种方法需要包含以下内容的评估数据集：(1) 传感器读数，(2) 目标位置，以及 (3) 对应的未来驾驶轨迹，通常从人类驾驶员那里获取。给定传感器输入和目标位置作为输入，通过将系统的预测未来轨迹与驾驶日志中的轨迹进行比较来衡量性能。根据系统预测轨迹与人类真实轨迹的接近程度，以及诸如与其他代理发生碰撞的概率等辅助指标来评估系统。开环评估的优点是易于使用真实交通和传感器数据实现，因为它不需要仿真器。然而，关键缺点是它无法衡量在实际部署中遇到的测试分布中的性能。在测试期间，驾驶系统可能会偏离专家驾驶走廊，验证系统从这种偏离中恢复的能力至关重要（见第 4.9.2 节）。此外，预测轨迹与记录轨迹之间的距离在多模态场景中并非理想指标。例如，在并入转弯车道时，立即并入或稍后并入都是有效的选项，但开环评估会惩罚数据中未观察到的选项。因此，除了衡量碰撞概率和预测误差外，还提出了一些指标，以涵盖更全面的方面，如交通违规、进展和驾驶舒适性 [126]。这种方法需要全面的轨迹数据集。最受欢迎的数据集包括 nuScenes [127]、Argoverse [128]、Waymo [129] 和 nuPlan [14]。所有这些数据集都包含大量真实世界的驾驶遍历，难度各异。然而，开环结果无法为闭环中的改进驾驶行为提供确凿证据，因为存在上述缺点 [124, 126, 130, 131]。总体而言，如果可用且适用，推荐在未来的研究中采用现实的闭环基准测试。

4 挑战

按照图 1 中的每个主题，我们现在依次介绍当前的挑战、相关工作或潜在解决方案、风险和机遇。我们先从第 4.1 节的多模态感知和输入模态的困境开始，接着在第 4.2 节讨论视觉抽象以实现高效的策略学习。进一步地，我们在第 4.3 节介绍基于世界模型的强化学习的复杂性、第 4.4 节的多任务框架以及第 4.5 节的策略蒸馏。最后，我们在第 4.6 节讨论阻碍安全可靠的端到端自动驾驶的通用问题，包括可解释性、安全保证、因果混淆和鲁棒性。

4.1 感知与输入模态的困境

图 4：输入模态和融合策略示例。不同的模态具有独特的特性，这导致了有效传感器融合的挑战。我们以点云和图像为例来描述各种融合策略。

4.1.1 感知与多传感器融合

感知：尽管早期工作 [8] 成功地仅使用单目相机实现了车道跟踪，但这种单一输入模态无法应对复杂场景。因此，最近的自动驾驶车辆引入了各种传感器（见图 4）。特别是，相机的 RGB 图像复制了人类感知世界的方式，包含丰富的语义细节；激光雷达或立体相机提供了准确的 3D 空间知识。新兴传感器，如毫米波雷达和事件相机，擅长捕捉物体的相对运动。此外，来自速度计和惯性测量单元（IMU）的车辆状态，以及导航命令，是其他指导驾驶系统的输入。然而，各种传感器具有不同的视角、数据分布和巨大的价格差异，这给有效设计传感器布局和融合它们以相互补充用于自动驾驶带来了挑战。多传感器融合主要在感知相关领域进行了讨论，例如目标检测 [132, 133] 和语义分割 [134, 135]，并且通常分为早期、中期和晚期融合。端到端自动驾驶算法也探索了类似的融合方案。早期融合在将感知输入馈入共享特征提取器之前将它们结合起来，其中连接是常见的融合方式 [32, 136, 137, 138, 139]。为了解决视角差异问题，一些工作将点云投影到图像上 [140] 或反之（为激光雷达点预测语义标签 [52, 141]）。另一方面，晚期融合结合来自多模态的多个结果。由于其性能较差，因此讨论较少 [6, 142]。与这些方法不同，中期融合通过分别对输入进行编码，然后在特征级别进行融合，从而在网络内实现多传感器融合。天真连接也经常被采用 [15, 22, 30, 143, 144, 145, 146, 147]。最近，一些工作利用 Transformer [27] 来建模特征之间的交互 [6, 28, 29, 148, 149]。Transformer 中的注意力机制在聚合不同传感器输入的上下文方面表现出色，能够实现更安全的端到端驾驶。受感知领域进展的启发，将模态建模在统一空间（例如，鸟瞰图）中是有益的 [132, 133]。端到端驾驶还需要识别与策略相关的上下文并丢弃不相关信息。我们在第 4.2.1 节讨论基于感知的表示。此外，Transformer 中的自注意力层可以自由地连接所有标记，这带来了显著的计算成本，并且不能保证提取有用信息。感知领域中先进的 Transformer 基础融合机制，如 [150, 151]，有望应用于端到端驾驶任务。

4.1.2 语言作为输入

人类驾驶利用视觉感知和内在知识，共同形成因果行为。在与自动驾驶相关的领域（如体现人工智能）中，将自然语言作为细粒度知识和指令纳入以控制视觉运动代理，取得了显著进展 [152, 153, 154, 155]。然而，与机器人应用相比，驾驶任务更为直接，无需任务分解，且户外环境更加复杂，具有高度动态的代理，但缺乏用于定位的明显锚点。为了将语言知识纳入驾驶，提出了几个数据集，用于基准测试户外定位和视觉语言导航任务 [156, 157, 158, 159]。HAD [160] 采用人 - 车建议，并添加了一个视觉定位任务。Sriram 等人 [161] 将自然语言指令翻译成高级行为，而 [162, 163] 则直接对文本进行定位。CLIP-MC [164] 和 LM-Nav [165] 利用 CLIP [166] 从指令中提取语言知识以及从图像中提取视觉特征。最近，观察到大型语言模型（LLM）[167, 168] 的快速发展，一些工作将感知场景编码为标记，并将它们提示给 LLM 以进行控制预测和基于文本的解释 [169, 170, 171]。研究人员还将驾驶任务表述为问答问题，并构建了相应的基准测试 [172, 173]。他们强调 LLM 在处理复杂指令和泛化到不同数据域方面提供了机会，这与机器人应用领域中的优势相似 [174]。然而，目前将 LLM 用于道路驾驶可能面临挑战，考虑到其较长的推理时间、较低的定量精度以及输出的不稳定性。潜在的解决方案可能是将 LLM 专门用于复杂场景的云端应用，并仅用于高级行为预测。

4.2 对视觉抽象的依赖

端到端自动驾驶系统大致分为两个阶段：将状态编码为潜在特征表示，然后使用中间特征解码驾驶策略。在城市驾驶中，输入状态（即周围环境和自身状态）比常见的策略学习基准（如视频游戏）[18, 175] 更多样化且高维，这可能导致表示与策略制定所需的注意力区域之间的错位。因此，设计“良好”的中间感知表示，或首先使用代理任务对视觉编码器进行预训练，使网络能够有效地提取对驾驶有用的信息，从而促进后续策略阶段。此外，这还可以提高强化学习方法的样本效率。

4.2.1 表示设计

使用各种骨干网络提取原始表示。经典的卷积神经网络（CNN）仍然占据主导地位，具有平移等变性和高效率 [176] 的优势。深度预训练的 CNN [177] 显著提升了感知和下游性能。相比之下，基于 Transformer 的特征提取器 [178, 179] 在感知任务中表现出良好的可扩展性，但尚未广泛应用于端到端驾驶。对于驾驶特定的表示，研究人员引入了鸟瞰图（BEV）的概念，在统一的 3D 空间中融合不同的传感器模态和时间信息 [133, 180, 181]。它也有助于轻松适应下游任务 [2, 30, 182, 183]。此外，基于网格的 3D 占用被开发用于捕捉不规则物体，并用于规划中的碰撞避免 [184]。然而，与 BEV 方法相比，密集表示带来了巨大的计算成本。另一个尚未解决的问题是地图的表示。传统自动驾驶依赖于高精地图。由于高精地图的可用性成本较高，因此开发了在线制图方法，具有不同的公式，如 BEV 分割 [185]、向量化的车道线 [186]、中心线及其拓扑结构 [187, 188] 以及车道段 [189]。然而，最适合端到端系统的表示形式尚未得到验证。尽管各种表示设计提供了如何设计后续决策过程的可能性，但它们也带来了挑战，因为需要共同设计这两部分。此外，鉴于在一些简单但有效的方法中通过扩大训练资源规模观察到的趋势 [22, 28]，明确表示（如地图）的最终必要性尚不确定。

4.2.2 表示学习

表示学习通常结合某些归纳偏差或先验信息。在学习的表示中不可避免地存在可能的信息瓶颈，与决策无关的多余上下文可能会被移除。一些早期方法直接使用现成网络的语义分割掩码作为后续策略训练的输入表示 [190, 191]。SESR [192] 进一步通过 VAE [193] 将分割掩码编码为类别解耦表示。在 [194, 195] 中，预测的便利性指标（如交通灯状态、到车道中心的偏移量以及与前车的距离）被用作策略学习的表示。观察到像分割这样的结果作为表示可能会创建由人类定义的信息瓶颈，并导致有用信息的丢失，一些人选择使用预训练任务的中间特征作为强化学习训练的有效表示 [18, 19, 196, 197]。在 [198] 中，VAE 中的潜在特征通过分割和深度图的扩散边界获得的注意力图进行增强，以突出重要区域。TARP [199] 利用一系列先前任务的数据执行不同任务相关的预测任务，以获取有用的表示。在 [200] 中，通过近似 π - 模拟度量（由奖励差异和动态模型的输出组成）来学习潜在表示。ACO [36] 通过将转向角分类添加到对比学习结构中来学习区分性特征。最近，PPGeo [12] 提出通过在未校准的驾驶视频上进行自监督运动预测和深度估计来学习有效表示。ViDAR [201] 利用原始图像 - 点云对，并通过点云预测预任务来预训练视觉编码器。这些工作表明，从大规模未标记数据中进行自监督表示学习以用于策略学习是充满希望且值得未来探索的。

4.3 基于世界模型的强化学习的复杂性

除了能够更好地抽象感知表示外，端到端模型对环境做出合理预测以采取安全操作也是至关重要的。在本节中，我们主要讨论当前基于模型的策略学习工作的挑战，其中世界模型为策略模型提供明确的未来预测。深度强化学习通常受到高样本复杂度的困扰，这在自动驾驶中尤为明显。基于模型的强化学习（MBRL）为提高样本效率提供了一个有希望的方向，它允许代理与学习到的世界模型而不是实际环境进行交互。MBRL 方法采用明确的世界（环境）模型，该模型由转移动态和奖励函数组成。这在驾驶中特别有帮助，因为像 CARLA 这样的仿真器相对较慢。然而，建模高度动态的环境是一项具有挑战性的任务。为了简化问题，Chen 等人 [20] 将转移动态分解为非反应式世界模型和简单的运动学自行车模型。在 [138] 中，使用概率序列潜在模型作为世界模型。为了解决学习到的世界模型可能存在的潜在不准确性问题，Henaff 等人 [202] 使用带有 dropout 正则化的策略网络来估计不确定性成本。另一种方法 [203] 使用多个世界模型的集成来提供不确定性估计，基于此，可以相应地截断和调整想象的 rollout。受 Dreamer [83] 的启发，ISO-Dream [204] 将视觉动态解耦为可控和不可控状态，并在解耦的状态上训练策略。值得注意的是，在原始图像空间中学习世界模型对于自动驾驶来说并非易事。重要的小细节，如交通灯，很容易在预测图像中被遗漏。为了解决这一问题，一些工作 [205, 206, 207] 采用了流行的扩散技术 [208]。MILE [209] 将 Dreamer 风格的世界模型学习纳入 BEV 分割空间，作为模仿学习的辅助任务。SEM2 [137] 也扩展了 Dreamer 结构，但使用 BEV 地图输入，并使用强化学习进行训练。除了直接使用学习到的世界模型进行 MBRL 外，DeRL [197] 将无模型的演员 - 批评家框架与世界模型结合起来，通过融合两个模型对动作或状态的自我评估。世界模型学习对于端到端自动驾驶是一个新兴且有希望的方向，因为它极大地减少了强化学习的样本复杂度，而且理解世界对于驾驶是有帮助的。然而，由于驾驶环境高度复杂且动态，仍需要进一步研究以确定需要建模什么以及如何有效地建模世界。

4.4 对多任务学习的依赖

多任务学习（MTL）涉及基于共享表示同时执行几个相关任务，通过单独的头部进行操作。MTL 具有减少计算成本、共享相关领域知识以及利用任务关系以提高模型泛化能力等优势 [210]。因此，MTL 非常适合端到端驾驶，因为最终的策略预测需要全面理解环境。然而，选择最佳的辅助任务组合以及为实现最佳性能适当分配损失权重是一个重大挑战。与常见的视觉任务（其中密集预测密切相关）相比，端到端驾驶预测的是稀疏信号。稀疏监督增加了从编码器中提取对决策有用的信息的难度。对于图像输入，辅助任务如语义分割 [28, 31, 140, 211, 212, 213] 和深度估计 [28, 31, 211, 212, 213] 是端到端自动驾驶模型中常用的。语义分割有助于模型获得场景的高级理解；深度估计使模型能够捕捉环境的 3D 几何形状，并更好地估计与关键物体的距离。除了对透视图像的辅助任务外，对于激光雷达编码器，3D 目标检测 [28, 31, 52] 也很有用。随着 BEV 成为自动驾驶中自然而流行的表示形式，像 BEV 分割这样的任务被纳入到模型中 [11, 23, 28, 29, 30, 31, 52, 149]，这些模型在 BEV 空间中聚合特征。此外，除了这些视觉任务外，[29, 211, 214] 还预测视觉便利性，包括交通灯状态、到对向车道的距离等。然而，构建具有多种类型对齐且高质量注释的大规模数据集并非易事，由于当前模型对 MTL 的依赖，这仍然是一个重大问题。

图 5：策略蒸馏。（a）特权代理通过访问特权的地面真实信息学习稳健的策略。专家用虚线标注，表示如果特权代理通过强化学习（RL）训练，则专家不是必需的。（b）传感器运动代理通过特征蒸馏和输出模仿来模仿特权代理。

4.5 低效的专家和策略蒸馏

由于模仿学习（或其主要子类别行为克隆）仅仅是监督学习，模仿专家的行为，相应的方法通常遵循“教师 - 学生”范式。存在两个主要挑战：(1) 教师，例如 CARLA 提供的带有环境状态的专家自动驾驶仪，并非完美的驾驶员。（2）学生仅通过传感器输入进行监督，需要他们同时提取感知特征并学习策略。一些研究提出将学习过程分为两个阶段，即首先训练一个更强的教师网络，然后将策略蒸馏到学生。具体来说，Chen 等人 [5, 52] 首先使用特权代理学习如何根据环境状态采取行动，然后让传感器运动代理（学生）通过在输出阶段进行蒸馏来紧密模仿特权代理。与原始专家相比，更紧凑的 BEV 表示作为输入为特权代理提供了更强的泛化能力和监督。该过程如图 5 所示。除了仅在规划结果上进行监督外，一些工作还在特征级别进行知识蒸馏。例如，FM - Net [215] 使用分割和光流模型作为辅助教师来指导特征训练。SAM [216] 在教师和学生网络之间添加了 L2 特征损失，而 CaT [23] 在 BEV 中对齐特征。WoR [20] 学习基于模型的动作值函数，然后用它来监督视觉运动策略。Roach [21] 使用强化学习训练更强的特权专家，消除了行为克隆的上限。它结合了多个蒸馏目标，即动作分布、值 / 奖励和潜在特征。通过利用强大的强化学习专家，TCP [22] 在 CARLA 排行榜上以单目相机作为视觉输入实现了新的最高水平。DriveAdpater [182] 学习仅感知的学生和适配器，其目标是特征对齐。尽管在设计稳健的专家和在各个层面上转移知识方面付出了巨大努力，但“教师 - 学生”范式仍然存在低效的蒸馏问题。例如，特权代理可以访问交通灯的地面真实状态，这些在图像中是小物体，因此很难蒸馏出相应的特征。因此，与特权代理相比，视觉运动代理在性能上存在较大差距。这也可能导致学生出现因果混淆（见第 4.8 节）。值得探索如何从机器学习中的一般蒸馏方法中汲取更多灵感，以最小化差距。

图 6：不同可解释性形式的总结。它们有助于人类理解端到端模型的决策过程以及输出的可靠性。

4.6 缺乏可解释性

可解释性在自动驾驶中发挥着关键作用 [217]。它使工程师能够更好地调试系统，从社会角度提供性能保证，并促进公众接受。实现端到端驾驶模型的可解释性更具挑战性，因为这些模型通常被称为“黑盒子”。鉴于训练有素的模型，一些事后 X - AI（可解释人工智能）技术可以应用于获得显著性图 [211, 218, 219, 220, 221]。显著性图突出了视觉输入中模型主要依赖于规划的特定区域。然而，这种方法提供的信息有限，其有效性和有效性难以评估。相反，我们关注直接在模型设计中增强可解释性的端到端框架。我们在图 6 中介绍了每种可解释性类别。

4.6.1 注意力可视化

注意力机制提供了一定程度的可解释性。在 [33, 211, 214, 221, 222] 中，应用学习到的注意力权重来聚合中间特征图中的重要特征。注意力权重也可以自适应地组合来自不同目标区域的感兴趣区域（ROI）池化特征 [223] 或固定网格 [224] 中的特征。NEAT [11] 迭代聚合特征以预测注意力权重并细化聚合特征。最近，Transformer 注意力块被用来更好地融合不同的传感器输入，注意力图显示了输入中对驾驶决策重要的区域 [28, 29, 31, 148, 225]。在 PlanT [226] 中，注意力层处理来自不同车辆的特征，为相应的动作提供可解释的见解。与事后显著性方法类似，尽管注意力图提供了关于模型关注点的直接线索，但其真实性和效用仍然有限。

4.6.2 可解释任务

许多基于 IL 的工作通过将潜在特征表示解码为其他有意义的信息（除了策略预测之外），例如语义分割 [2, 11, 15, 28, 29, 31, 52, 140, 164, 211, 212, 213, 227]、深度估计 [15, 28, 31, 211, 212]、目标检测 [2, 28, 31, 52]、便利性预测 [29, 52, 211, 214]、运动预测 [2, 52] 和注视图估计 [228]，从而引入可解释性。尽管这些方法提供了可解释的信息，但大多数将这些预测作为辅助任务 [11, 15, 28, 31, 140, 211, 212, 214]，对最终驾驶决策没有明确的影响。一些 [29, 52] 确实使用这些输出进行最终动作，但它们仅用于执行额外的安全检查。

4.6.3 规则集成与成本学习

如第 2.1.2 节所述，基于成本学习的方法与传统模块化系统具有相似性，因此表现出一定程度的可解释性。NMP [32] 和 DSDNet [229] 结合检测和运动预测结果构建成本体积。P3 [39] 将预测的语义占用图与舒适性和交通规则约束相结合，形成用于轨迹评分的成本函数。各种表示形式，如概率占用、时间运动场 [1]、突发占用 [71] 和自由空间 [70]，被用于对采样轨迹进行评分。在 [38, 126, 183, 230] 中，人类专业知识和基于感知与预测输出的预定义规则，包括安全性、舒适性、交通规则和路线，被明确纳入以形成轨迹评分的成本，显示出改进的鲁棒性和安全性。将人类专业知识和规则纳入端到端模型的设计中，有助于提高系统的可解释性，并使其更易于被社会接受。

4.6.4 语言可解释性

可解释性的一个方面是帮助人类理解系统，因此自然语言是一个合适的选择。Kim 等人 [33] 和 Xu 等人 [231] 开发了将驾驶视频或图像与描述和解释配对的数据集，并提出了具有控制和解释输出的端到端模型。BEEF [232] 将预测的轨迹和中间感知特征结合起来预测决策的理由。ADAPT [233] 提出了一个基于 Transformer 的网络，用于联合估计动作、叙述和推理。最近，[170, 172, 173] 利用多模态和基础模型的进展，使用 LLM/VLM 提供与决策相关的解释，如第 4.1.2 节所述。利用自然语言模型为自动驾驶系统提供解释，不仅可以提高系统的可解释性，还可以增强用户对系统的信任。

4.6.5 不确定性建模

不确定性是解释深度学习模型输出可靠性的定量方法 [234, 235]，这有助于设计者和用户识别不确定的情况以进行改进或必要的干预。对于深度学习，存在两种类型的不确定性：数据不确定性和模型不确定性。数据不确定性是任务固有的，而模型不确定性是由于数据有限或建模能力不足。在 [236] 中，作者利用模型中的某些随机正则化进行多次前向传播作为样本以测量不确定性。然而，多次前向传播的要求在实时场景中并不可行。Loquercio 等人 [235] 和 Filos 等人 [237] 提出通过聚合多个专家似然模型的结果来捕捉模型不确定性，以进行安全规划。关于建模数据不确定性的方法，在驾驶动作 / 规划和不确定性（通常用方差表示）被明确预测 [147, 238, 239]。这样的方法直接将不确定性作为网络需要预测的变量进行建模和量化。规划器将根据预测的不确定性生成最终动作，要么从多个动作中选择不确定性最低的动作 [238]，要么根据不确定性生成提议动作的加权组合 [147]。目前，预测的不确定性主要用于与硬编码规则结合使用。探索更好的方法来建模和利用自动驾驶中的不确定性是必要的。

图 7：因果混淆。汽车的当前动作与低维虚假特征（如速度或汽车过去的轨迹）高度相关。端到端模型可能会依赖这些特征，从而导致因果混淆。

4.7 缺乏安全保证

在现实世界场景中部署自动驾驶系统时，确保安全性是最重要的。然而，基于学习的端到端框架本质上缺乏传统基于规则的方法所具有的精确数学安全保证 [240]。尽管如此，值得注意的是，模块化驾驶堆栈已经在其运动规划或速度预测模块中纳入了特定的安全相关约束或优化，以强制执行安全性 [241, 242, 243]。这些机制可以潜在地被适应并整合到端到端模型中，作为后处理步骤或安全检查，从而提供额外的安全保证。此外，第 4.6 节中讨论的中间可解释性预测，如检测和运动预测结果，也可以用于后处理程序。

图 8：鲁棒性的挑战。与数据集分布差异相关的三个主要泛化问题，分别是长尾分布和正常分布情况、专家演示与测试场景，以及地理位置、天气等领域的偏移。

4.8 因果混淆

驾驶是一项表现出时间平滑性的任务，这使得过去的运动成为下一个动作的可靠预测器。然而，使用多个帧进行训练的方法可能会过度依赖于这种捷径 [244]，并在部署期间遭受灾难性失败。这个问题被称为“模仿者”问题 [57]，在某些工作中被称为因果混淆 [245]，即获得更多信息会导致性能下降。因果混淆在模仿学习中是一个持续了近二十年的挑战。LeCun 等人 [246] 最早报告了这种效应。他们使用单个输入帧进行转向预测，以避免这种外推。尽管简单，但这种方法仍然是当前最先进的 IL 方法 [22, 28] 的首选解决方案。不幸的是，使用单个帧使得提取周围演员的运动变得困难。因果混淆的另一个来源是速度测量 [16]。图 7 展示了一个在红灯处等待的汽车的例子。汽车的动作可能高度相关于其速度，因为它在许多帧中速度为零且动作是制动。只有当交通灯从红色变为绿色时，这种相关性才会被打破。有一些方法可以解决使用多个帧时的因果混淆问题。在 [57] 中，作者尝试通过训练一个对抗模型从瓶颈表示中预测自我代理的过去动作来消除虚假的时间相关性。直观上，这种 min - max 优化训练网络从中间层中消除其过去。它在 MuJoCo 中效果良好，但无法扩展到复杂的基于视觉的驾驶。OREO [59] 将图像映射到表示语义对象的离散代码，并对共享相同离散代码的单元应用随机 dropout 遮罩，这有助于在 Atari 中解决混淆问题。在端到端驾驶中，ChauffeurNet [247] 通过使用过去的自我运动作为中间 BEV 抽象，并在训练期间以 50% 的概率对其进行 dropout 来解决因果混淆问题。Wen 等人 [58] 提出在训练损失中对关键帧进行加权，关键帧是发生决策变化的帧（因此无法通过外推过去来预测）。PrimeNet [60] 通过使用集成来提高性能，与关键帧相比，它将单帧模型的预测作为多帧模型的额外输入。Chuang 等人 [248] 做了同样的事情，但用动作残差而不是动作来监督多帧网络。此外，因果混淆问题可以通过仅使用激光雷达历史（单帧图像）并重新对齐点云到一个坐标系中来避免。这移除了自我运动，同时保留了其他车辆过去状态的信息。这种技术已在多项工作 [1, 32, 52] 中使用，尽管并非出于此目的。然而，这些研究使用了修改过的环境来简化因果混淆问题的研究。在当前最先进的设置中（如第 3.2.5 节所述）展示性能提升仍然是一个开放性问题。

4.9 缺乏鲁棒性

4.9.1 长尾分布

长尾分布问题的一个重要方面是数据集不平衡，其中少数类别构成了大多数，如图 8（a）所示。这给模型在多样化环境中的泛化带来了巨大挑战。各种方法通过数据处理来缓解这一问题，包括过采样 [249, 250]、欠采样 [251, 252] 和数据增强 [253, 254]。此外，还常用基于权重的方法 [255, 256]。在端到端自动驾驶的背景下，长尾分布问题尤为严重。大多数驾驶是重复且无趣的，例如在许多帧中沿着车道行驶。相反，有趣的安全关键场景很少发生，但种类繁多，而且由于安全原因，很难在现实世界中复制这些场景。为了解决这一问题，一些工作依赖于手工制作的场景 [13, 101, 257, 258, 259]，以在仿真中生成更多多样化数据。LBC [5] 利用特权代理根据不同的导航命令创建想象的监督。LAV [52] 包括非自我代理的轨迹用于训练，以促进数据多样性。在 [260] 中，提出了一个仿真框架，应用重要性采样策略来加速罕见事件概率的评估。另一条研究路线 [7, 34, 35, 261, 262, 263] 通过对抗性攻击以数据驱动的方式生成安全关键场景。在 [261] 中，使用贝叶斯优化生成对抗性场景。学习碰撞 [35] 将驾驶场景表示为构建块的联合分布，并应用策略梯度强化学习方法来生成危险场景。AdvSim [34] 修改代理的轨迹以引起失败，同时仍然遵循物理合理性。KING [7] 提出一种优化算法，使用可微分运动学模型对安全关键扰动进行梯度优化。一般来说，高效地生成涵盖长尾分布的安全关键场景的现实场景仍然是一个重大挑战。虽然许多工作集中在模拟器中的对抗性场景上，但利用真实世界数据进行关键场景挖掘并将其适应到模拟中也同样重要。此外，一个系统性、严谨、全面且现实的测试框架对于评估端到端自动驾驶方法在这些长尾分布的安全关键场景下的表现至关重要。

4.9.2 协变量偏移

如第 2.1 节所述，行为克隆的一个重要挑战是协变量偏移。专家策略和训练有素的代理策略的状态分布不同，这导致当训练有素的代理在未见的测试环境中部署时，或者当其他代理的反应与训练时间不同时，会出现累积误差。这可能导致训练有素的代理处于专家训练分布之外的状态，从而导致严重故障。图 8（b）给出了一个示意图。DAgger（数据聚合）[26] 是解决此问题的常见方法。DAgger 是一个迭代训练过程。在每次迭代中，当前训练的策略被推出以收集新数据，专家用于标记访问过的状态。通过这种方式丰富数据集，添加了如何从不完美的策略可能访问的次优状态中恢复的示例。然后在扩充的数据集上训练策略，并重复该过程。然而，DAgger 的一个缺点是需要在线查询专家。对于端到端自动驾驶，DAgger 被采用于 [24]，其中使用基于模型预测控制（MPC）的专家。为了减少不断查询专家的成本，SafeDAgger [25] 扩展了原始的 DAgger 算法，通过学习安全策略来估计当前策略与专家策略之间的偏差。仅在偏差较大时才查询专家。MetaDAgger [56] 使用元学习与 DAgger 从多个环境中聚合数据。LBC [5] 采用 DAgger，并更频繁地重新采样具有更高损失的数据。在 DARB [10] 中，为了更好地利用失败或安全相关的样本，它提出了几种机制，包括基于任务的、基于策略的以及基于策略和专家的机制，以采样这些关键状态。

4.9.3 领域适应

领域适应（DA）是一种迁移学习，其中目标任务与源任务相同，但领域不同。这里我们讨论源域有标签而目标域没有标签或只有有限标签的情况。如图 8（c）所示，自动驾驶任务的领域适应包括几种情况 [264]：

仿真到现实：用于训练的仿真器与用于部署的现实世界之间存在巨大差距。
地理到地理：不同地理位置具有不同的环境外观。
天气到天气：由天气条件（如雨、雾和雪）引起的传感器输入的变化。
白天到夜晚：视觉输入中的光照变化。
传感器到传感器：传感器特性可能存在的差异，例如分辨率和相对位置。需要注意的是，上述情况通常会重叠。通常，通过图像翻译器和鉴别器实现领域不变特征学习，将来自两个领域的图像映射到一个共同的潜在空间或诸如分割图之类的表示 [265, 266]。LUSR [267] 和 UAIL [238] 分别采用循环一致的 VAE 和 GAN，将图像投影到由领域特定部分和领域通用部分组成的潜在表示中。在 SESR [192] 中，从语义分割掩码中提取类别解耦编码，以减少仿真到现实的差距。领域随机化 [268, 269, 270] 也是一种简单有效的仿真到现实技术，它通过随机化仿真器的渲染和物理设置来覆盖现实世界的变异性，从而在训练期间实现 RL 策略学习，这已被进一步适应于端到端自动驾驶 [190, 271]。目前，仿真到现实的适应主要通过源目标图像映射或领域不变特征学习来实现。其他 DA 情况则通过构建多样化且大规模的数据集来处理。鉴于当前方法主要集中在视觉图像中的视觉差异，且激光雷达已成为驾驶的流行输入模态，因此必须设计针对激光雷达的特定适应技术。此外，还应注意仿真器和现实世界之间交通代理行为的差异。通过诸如 NeRF [114] 等技术将现实世界数据纳入仿真器是另一个有希望的方向。

5 未来趋势

鉴于上述挑战和机遇，我们列出了一些未来研究的关键方向，这些方向可能会对该领域产生更广泛的影响。

5.1 零样本和少样本学习

自动驾驶模型不可避免地会遇到超出训练数据分布的真实世界场景。这提出了一个问题：我们是否能够成功地将模型适应到没有标记数据或只有有限标记数据的未见目标域。形式化端到端驾驶领域的这一任务，并纳入零样本 / 少样本学习文献中的技术，是实现这一目标的关键步骤 [272, 273]。

5.2 模块化端到端规划

模块化端到端规划框架在优化多个模块的同时，优先考虑最终规划任务，这在最近的文献 [2, 274] 中得到了提倡，并且某些行业解决方案（如特斯拉、Wayve 等）也涉及了类似的想法。在设计这些可微分的感知模块时，出现了关于损失函数选择的问题，例如在目标检测中是否需要 3D 边界框，是否选择 BEV 分割而不是静态场景感知中的车道拓扑，或者在有限模块数据的情况下采用何种训练策略。

5.3 数据引擎

自动驾驶对大规模和高质量数据的重要性怎么强调都不为过 [275]。建立一个带有自动标记流水线的数据引擎可以极大地促进数据和模型的迭代开发。自动驾驶的数据引擎，尤其是模块化端到端规划系统，需要简化标注高质量感知标签的过程，并借助大型感知模型以自动的方式进行。它还应支持挖掘硬案例、场景生成和编辑，以促进第 3.2 节讨论的数据驱动评估，并促进数据的多样性以及模型的泛化能力（见第 4.9 节）。数据引擎将使自动驾驶模型能够持续改进。

5.4 基础模型

最近在语言 [167, 168] 和视觉 [276, 277] 领域的基础模型的进展证明了大规模数据和模型容量可以释放 AI 在高级推理任务中的巨大潜力。微调 [278] 或提示学习 [279]、以自监督重建 [280] 或对比对 [166] 等形式的优化等范式都适用于端到端驾驶领域。然而，我们认为直接采用 LLM 用于驾驶可能比较棘手。自动驾驶代理的输出需要稳定且准确的测量，而语言模型的生成输出旨在像人类一样行事，而不是考虑其准确性。开发“基础”驾驶模型的一个可行解决方案是训练一个世界模型，该模型可以预测环境的合理未来，无论是 2D、3D 还是潜在空间。为了在下游任务（如规划）上表现良好，模型需要优化的目标足够复杂，超越了帧级感知。

6 结论与展望

在本综述中，我们提供了对基础方法论的概述，并总结了仿真和基准测试的各个方面。我们对迄今为止的广泛文献进行了深入分析，并强调了各种关键挑战和有希望的解决方案。展望未来：多年来，行业一直在努力开发先进的模块化系统，以实现高速公路的自动驾驶。然而，这些系统在面对复杂场景（例如城市街道和交叉路口）时面临重大挑战。因此，越来越多的公司开始探索专门针对这些环境的端到端自动驾驶技术。预计随着大规模高质量数据收集、大规模模型训练以及可靠基准测试的建立，端到端方法在性能和有效性方面将比模块化堆栈具有巨大潜力。总之，端到端自动驾驶面临着巨大的机遇和挑战，其最终目标是构建通用智能体。在这个新兴技术时代，我们希望本综述能够作为一个起点，为这一领域带来新的启示。