端到端自动驾驶：挑战与前沿

adas_l5

于 2024-09-05 11:34:50 发布

阅读量294

点赞数 2

文章标签：自动驾驶人工智能挑战与前沿端到端 E2E

本文链接：https://blog.csdn.net/adas_l5/article/details/141926596

版权

端到端自动驾驶：挑战与前沿

摘要：

自动驾驶社区见证了采用端到端算法框架的方法的快速增长，该方法利用原始传感器输入来生成车辆运动规划，而不是专注于检测和运动预测等单个任务。与模块化流程相比，端到端系统得益于感知和规划联合特征优化的优势。这一领域的蓬勃发展得益于大规模数据集的可用性、闭环评估以及自动驾驶算法在挑战性场景中有效运行的需求日益增长。在本综述中，我们对270多篇论文进行了全面分析，涵盖了端到端自动驾驶的动机、路线图、方法、挑战和未来趋势。我们深入探讨了包括多模态性、可解释性、因果混淆、鲁棒性和世界模型等在内的几个关键挑战。此外，我们还讨论了基础模型和视觉预训练的当前进展，以及如何在端到端驾驶框架中融入这些技术。引用：End-to-end Autonomous Driving: Challenges and Frontiers。

附赠自动驾驶最全的学习资料和量产经验：链接

引言

传统的自动驾驶系统采用模块化设计策略，其中每个功能（如感知、预测和规划）都是单独开发的，并集成到车载车辆中。负责生成转向和加速输出的规划或控制模块在决定驾驶体验方面起着至关重要的作用。在模块化流程中，规划的最常见方法涉及使用复杂的基于规则的设计，但这些设计在处理道路上出现的各种复杂情况时往往效果不佳。因此，利用大规模数据并采用基于学习的规划作为可行替代方案的趋势日益明显。

我们将端到端自动驾驶系统定义为完全可微的程序，它们以原始传感器数据为输入，并产生计划和/或低级控制动作为输出。图1（a）-（b）展示了经典方法和端到端方法之间的差异。传统方法将每个组件（如边界框和车辆轨迹）的输出直接送入后续单元（虚线箭头）。相比之下，端到端范式会在各个组件之间传播特征表示（灰色实线箭头）。优化函数被设定为例如规划性能，并通过反向传播（红色箭头）来最小化损失。在这个过程中，任务是联合和全局优化的。

图1：概览。（a）流程和方法。我们将端到端自动驾驶定义为一种基于学习的算法框架，包含原始传感器输入和规划/控制输出。我们深入研究了270多篇论文，并将它们分为模仿学习（IL）和强化学习（RL）两类。（b）基准测试。我们将流行的基准测试分别归入闭环评估和开环评估两类。我们涵盖了闭环模拟的各个

在本综述中，我们对这一新兴主题进行了广泛的研究。图1提供了我们工作的概述。我们首先讨论了端到端自动驾驶系统的动机和路线图。端到端方法大致可分为模仿学习和强化学习，我们简要回顾了这些方法。我们涵盖了用于闭环和开环评估的数据集和基准测试。我们总结了一系列关键挑战，包括可解释性、泛化能力、世界模型、因果混淆等。最后，我们讨论了我们认为社区应该采纳的未来趋势，以纳入来自数据引擎、大型基础模型等领域的最新发展。请注意，本综述主要从理论角度进行组织。在部署端到端技术时，版本控制、单元测试、数据服务器、数据清洗、软硬件协同设计等工程工作发挥着至关重要的作用。关于这些主题的最新实践，可公开获得的信息有限。我们邀请社区在未来的讨论中更加开放。

端到端系统的动机

在经典流程中，每个模型都作为一个独立的组件存在，并对应一个特定的任务（例如交通灯检测）。这种设计在可解释性和易于调试方面是有益的。然而，由于各模块的优化目标不同，检测追求平均精度均值（mAP），而规划则追求驾驶的安全性和舒适性，因此整个系统可能无法与统一的目标（即最终的规划/控制任务）保持一致。随着顺序过程的进行，每个模块的错误可能会累积并导致信息丢失。此外，与单个端到端神经网络相比，涉及多个编码器和消息传输系统的多任务、多模型部署可能会增加计算负担，并可能导致计算资源的次优利用。

与经典方法相比，端到端自动驾驶系统具有以下几个优势：（a）最明显的优点是它将感知、预测和规划结合到一个可以联合训练的单一模型中，从而简化了流程。（b）整个系统，包括其中间表示，都针对最终任务进行了优化。（c）共享的主干网络提高了计算效率。（d）数据驱动的优化有可能通过简单地扩展训练资源来改进系统。

需要注意的是，端到端范式并不一定意味着只有一个包含规划/控制输出的黑盒子。它也可以有中间表示和输出（如图1（b）所示），这与经典方法类似。事实上，一些最先进的系统[1, 2]提出了模块化设计，但会一起优化所有组件以实现卓越的性能。

路线图

图2展示了端到端自动驾驶领域关键成就的时间线路线图，每个部分都标志着一次重要的范式转变或性能提升。端到端自动驾驶的历史可以追溯到1988年的ALVINN项目，该项目使用来自摄像头和激光测距仪的两个“视网膜”作为输入，并通过一个简单的神经网络生成转向输出。NVIDIA设计了一个原型端到端卷积神经网络（CNN）系统，在GPU计算的新时代重新确立了这一理念。随着深度神经网络的发展，无论是模仿学习还是强化学习，都取得了显著的进展。LBC中提出的策略蒸馏范式以及相关的方法通过模仿表现良好的专家，显著提高了闭环性能。为了解决专家策略和学习策略之间的差异导致的泛化能力问题，一些论文提出了在训练过程中聚合在线策略数据的方法。这个路线图不仅展示了技术上的进步，还揭示了自动驾驶领域从简单模型到复杂深度学习系统的演变过程。每个阶段的突破都为后续的研究奠定了基础，推动了自动驾驶技术的不断发展和完善。随着技术的不断进步，我们可以期待端到端自动驾驶在未来实现更加广泛的应用和更高的安全性。

图2：端到端自动驾驶的路线图。我们按时间顺序列出了关键里程碑，并将同一主题下的类似工作进行了分组。具有代表性的或首篇工作以粗体和插图显示，而同一主题下其余文献的日期可能会有所不同。我们还展示了CARLA排行榜[13]（DS，范围从0到100）和最近的nuPlan挑战赛[14]（分数范围从0到1）每年最高分项

2021年左右，自动驾驶领域迎来了一个重要的转折点。在合理的计算预算内，各种传感器配置变得可用，人们的注意力开始集中在如何整合更多的模态和先进的架构（如Transformers）上，以捕捉全局上下文和代表性特征，如TransFuser及其众多变体。结合对模拟环境更深入的理解，这些先进的设计在CARLA基准测试上实现了显著的性能提升。为了提高自动驾驶系统的可解释性和安全性，一些方法明确引入了各种辅助模块，以更好地监督学习过程或利用注意力可视化。最近的研究工作优先考虑生成安全关键数据，为策略学习预训练一个基础模型或主干网络，并倡导模块化的端到端规划理念。与此同时，新的、具有挑战性的CARLA v2和nuPlan基准测试被引入，以促进该领域的研究。这些发展标志着自动驾驶技术正在向更加成熟、安全和高效的方向迈进。通过不断引入新技术、新方法和新基准测试，研究人员能够更深入地探索自动驾驶的潜力和局限性，推动技术的不断进步。

与近期综述的差异

我们想要澄清我们的综述调研与先前相关调研之间的区别。一些先前调研在端到端系统的意义上，其内容与我们相似。然而，它们并没有涵盖该领域近期重大转变中出现的新基准和方法，并且对前沿问题和挑战的关注较少。其他调查则侧重于该领域的特定主题，如模仿学习或强化学习。相比之下，我们的调查提供了该领域最新发展的最新信息，涵盖了广泛的主题，并对关键挑战进行了深入讨论。

本文贡献

总结而言，本调查具有三个主要贡献：

(a) 我们首次对端到端自动驾驶技术进行了全面分析，包括高级动机、方法论、基准测试等多个方面。我们不仅仅优化单一模块，而是倡导一种将算法框架作为整体设计的理念，最终目标是实现安全舒适的驾驶。

(b) 我们广泛研究了当前方法面临的关键挑战。在所调查的270多篇论文中，我们总结了主要方面并提供了深入分析，包括可泛化性、语言引导学习、因果混淆等主题。

2. 方法

本节回顾了大多数现有端到端自动驾驶方法背后的基本原理。第2.1节讨论了使用模仿学习的方法，并详细介绍了两个最流行的子类，即行为克隆和逆最优控制。第2.2节总结了遵循强化学习范式的方法。

2.1 模仿学习

模仿学习（IL），也被称为从演示中学习，通过模仿专家的行为来训练一个智能体以学习策略。IL需要一个数据集D = { ξ�}，该数据集包含了在专家策略πβ下收集的轨迹，其中每条轨迹都是一系列的状态-动作对。IL的目标是学习一个与 πβ 相匹配的智能体策略π。

策略π可以输出规划轨迹或控制信号。由于收集方便，早期工作通常采用控制输出。然而，预测不同步骤的控制可能会导致不连续的操作，并且网络本质上会专门处理车辆动力学，从而妨碍了向其他车辆的推广。另一类工作预测路径点。它考虑了相对较长的时间范围。同时，将车辆的跟踪轨迹转换为控制信号需要额外的控制器，这并非易事，并涉及到车辆模型和控制算法。由于在这两种范式之间尚未观察到明显的性能差距，因此我们在本次调查中并未明确区分它们。可以在[22]中找到有趣且更深入的讨论。

IL（模仿学习）中一个广泛使用的类别是行为克隆（BC），它将问题简化为监督学习。逆最优控制（IOC），也称为逆强化学习（IRL），是另一种利用专家演示来学习奖励函数的IL方法。我们将在下面详细阐述这两个类别。

2.1.1 行为克隆

在BC（行为克隆）中，通过最小化在收集的数据集上的监督学习规划损失来实现智能体策略与专家策略的匹配： �(�,�)ℓ(πθ(�),�) 。其中， ℓ(πθ(�),�) 表示一个损失函数，用于衡量智能体动作与专家动作之间的距离。

BC（行为克隆）在驾驶方面的早期应用利用端到端神经网络从摄像头输入生成控制信号。为了进一步改进，已经提出了多传感器输入、辅助任务和改进的专家设计等方案，以使基于BC的端到端驾驶模型能够处理复杂的城市场景。

BC（行为克隆）因其简单性和高效性而具有优势，因为它不需要手工设计的奖励，这在RL（强化学习）中至关重要。然而，也存在一些常见问题。在训练过程中，它将每个状态视为独立同分布的，这导致了一个被称为协变量偏移的重要问题。对于一般的IL（模仿学习），已经提出了几种在策略方法来解决这个问题。在端到端自动驾驶的背景下，DAgger已被应用于。BC的另一个常见问题是因果混淆，即模仿者会利用并依赖于某些输入组件和输出信号之间的虚假相关性。这个问题已在中端到端自动驾驶的背景下进行了讨论。这两个具有挑战性的问题将分别在第4.9节和第4.8节中进一步讨论。

2.1.2 逆最优控制

传统的逆最优控制（Inverse Optimal Control，IOC）算法通过专家演示来学习一个未知的奖励函数R(s, a)，其中专家的奖励函数可以表示为特征的线性组合。然而，在连续、高维的自动驾驶场景中，奖励的定义是隐式的且难以优化。

生成对抗模仿学习（Generative Adversarial Imitation Learning）是逆最优控制（IOC）中的一种专门方法，它将奖励函数设计为对抗性目标，以区分专家和学习的策略，类似于生成对抗网络（Generative Adversarial Networks）的概念。最近，一些工作提出通过辅助感知任务来优化成本体积或成本函数。由于成本是奖励的另一种表示方式，因此我们将这些方法归类为属于逆最优控制领域。我们定义成本学习框架如下：端到端方法学习一个合理的成本 �(·)，并使用算法轨迹采样器选择成本最小的轨迹 τ∗，如图3所示。

图3：端到端自动驾驶方法概述。我们介绍了三种流行范式，包括两种模仿学习框架（行为克隆和逆最优控制），以及在线强化学习。

关于成本设计，其表示方法包括鸟瞰图（BEV）中的学习成本体积、从其他代理的未来运动中计算得出的联合能量，或一系列概率语义占用或空闲空间层。另一方面，轨迹通常是从固定的专家轨迹集中采样得到的，或者通过带有运动学模型的参数采样来处理。然后，采用最大边距损失，如经典IOC方法一样，以鼓励专家演示具有最小成本，而其他演示则具有高昂成本。

成本学习方法存在几个挑战。特别是，为了生成更真实的成本，通常会结合使用高清地图、辅助感知任务和多个传感器，这增加了为多模态多任务框架学习和构建数据集的难度。然而，上述成本学习方法显著提高了决策的安全性和可解释性（见第4.6节），并且我们认为，受工业启发的端到端系统设计是一种适用于现实应用的可行方法。

2.2 强化学习

强化学习（Reinforcement Learning，RL）是一个通过试错进行学习的领域。深度Q网络（Deep Q Network，DQN）在Atari基准测试上实现人类水平控制的成功，使深度强化学习（Deep RL）得到了普及。DQN训练了一个称为评论家（或Q网络）的神经网络，该网络将当前状态和一个动作作为输入，并预测该动作的折扣回报。然后，通过选择预测回报最高的动作来隐式定义策略。

强化学习（RL）需要一个允许执行潜在不安全动作的环境，以收集新数据（例如，通过随机动作）。此外，与模仿学习（IL）相比，强化学习需要更多的数据来进行训练。因此，现代强化学习方法经常跨多个环境并行化数据收集。在现实世界中满足这些要求面临巨大挑战。因此，几乎所有在驾驶中使用强化学习的论文都仅在模拟中研究了该技术。大多数研究都使用了DQN的不同扩展。目前，该领域尚未就特定的强化学习算法达成共识。

强化学习（RL）已经在空无一人的街道上成功实现了真实汽车的车道跟随。尽管这一结果令人鼓舞，但必须指出，模仿学习（IL）在三十年前就已经完成了类似的任务。迄今为止，还没有报告表明通过强化学习实现的端到端训练结果能够与模仿学习相媲美。这一失败的原因可能是通过强化学习获得的梯度不足以训练驾驶所需的深度感知架构（即ResNet）。在强化学习取得成功的基准测试（如Atari）中使用的模型相对较浅，仅由几层组成。

当与监督学习（SL）结合时，强化学习（RL）已成功应用于端到端驾驶。隐式功能使用监督学习和诸如语义分割之类的任务对卷积神经网络（CNN）编码器进行预训练。在第二阶段，该编码器被冻结，并使用Q学习的现代版本在冻结编码器的特征上训练一个浅层的策略头。强化学习还可以用于微调使用模仿学习（IL）预训练的全网络。

如果网络能够访问特权模拟器信息，那么强化学习也可以被有效应用。特权强化学习代理可以用于数据集整理。Roach在特权鸟瞰图（BEV）语义地图上训练了一个强化学习代理，并使用该策略自动收集数据集，然后用该数据集训练下游的模仿学习代理。WoR采用Q函数和表格动态规划为静态数据集生成额外的或改进的标签。

该领域的一个挑战是将仿真中的发现转移到现实世界中。在强化学习中，目标是通过奖励函数来表示的，而许多算法都需要这些函数是密集的，并在每个环境步骤中提供反馈。目前的工作通常使用简单的目标，如进度和避免碰撞。这些简化的设计可能会鼓励危险行为。设计或学习更好的奖励函数仍然是一个悬而未决的问题。另一个方向是开发能够处理稀疏奖励的强化学习算法，从而直接优化相关指标。强化学习可以有效地与世界模型相结合，尽管这带来了特定的挑战（见第4.3节）。目前用于驾驶的强化学习解决方案严重依赖于场景的低维表示，该问题将在第4.2.2节中进一步讨论。

3. 基准测试

自动驾驶系统需要全面的评估以确保安全。研究人员必须使用适当的数据集、模拟器、指标和硬件对这些系统进行基准测试。本节介绍了三种对端到端自动驾驶系统进行基准测试的方法：（1）现实世界评估，（2）在模拟中进行在线或闭环评估，以及（3）在驾驶数据集上进行离线或开环评估。我们专注于可扩展且有原则的在线模拟设置，并总结了现实世界和离线评估，以确保完整性。

3.1 真实世界评估

自动驾驶基准测试的早期工作涉及现实世界评估。值得注意的是，美国国防部高级研究计划局（DARPA）发起了一系列比赛。首场比赛为自主导航穿越莫哈韦沙漠的240公里路线提供了100万美元的奖金，但没有团队成功实现这一目标。最后一场比赛，即DARPA城市挑战赛，要求车辆在模拟的96公里小镇赛道上行驶，同时遵守交通规则并避开障碍物。这些比赛推动了自动驾驶领域的重要发展，如激光雷达传感器的出现。秉承这一精神，密歇根大学建立了MCity，这是一个大型的受控现实环境，旨在促进自动驾驶汽车的测试。然而，由于缺乏数据和车辆，这些学术项目并未被广泛应用于端到端系统。相比之下，拥有部署无人驾驶汽车车队资源的行业可以依靠现实世界评估来评估其算法的改进。

3.2 在线/闭环仿真

在现实世界中测试自动驾驶系统是昂贵且存在风险的。为了应对这一挑战，模拟测试是一个可行的替代方案。模拟器便于快速原型设计和测试，能够快速迭代想法，并为单元测试提供低成本的各种场景。此外，模拟器还提供了准确测量性能的工具。然而，它们的主要缺点是，在模拟环境中获得的结果不一定适用于现实世界（第4.9.3节）。

闭环评估涉及构建一个紧密模拟现实世界驾驶环境的模拟环境。评估包括在模拟中部署驾驶系统并测量其性能。系统必须在向指定目标位置前进的同时，在交通中安全行驶。开发此类模拟器涉及四个主要子任务：参数初始化、交通模拟、传感器模拟和车辆动力学模拟。我们将在下面对这些子任务进行简要描述，并总结当前可用于闭环基准测试的开源模拟器。

3.2.1 参数初始化

模拟提供了对环境进行高度控制的优势，包括天气、地图、3D资产以及交通场景中物体排列等低级属性。虽然这些功能很强大，但这些参数的数量也相当多，从而带来了具有挑战性的设计问题。目前的模拟器通过以下两种方式来解决这个问题：

程序化生成：传统上，初始参数是由3D艺术家和工程师手动调整的。这限制了可扩展性。最近，一些模拟属性可以通过计算机算法从概率分布中进行采样，我们称之为程序化生成。程序化生成算法结合了规则、启发式方法和随机化来创建多样化的道路网络、交通模式、照明条件和物体放置。与完全手动设计相比，由于其效率较高，它已成为视频游戏和模拟中最常用的初始化方法之一。然而，该过程仍然需要预定义的参数和算法来控制生成的可靠性，这既耗时又需要大量的专业知识。

数据驱动：用于模拟初始化的数据驱动方法旨在学习所需的参数。可以说，最简单的方法是从现实世界的驾驶日志中采样，其中道路地图或交通模式等参数直接从预记录的数据集中提取。日志采样的优点在于能够捕捉现实世界中数据的自然变异性，从而生成更逼真的模拟场景。然而，它可能无法涵盖对于测试自动驾驶系统鲁棒性至关重要的罕见情况。可以对初始参数进行优化，以增加此类场景的表示。另一种先进的数据驱动初始化方法是生成建模，其中机器学习算法用于学习现实世界数据的潜在结构和分布。然后，它们可以生成与现实世界相似但原始数据中未包含的新场景。

3.2.2 交通模拟

交通模拟涉及在环境中生成并定位具有实际运动特性的虚拟实体。这些实体通常包括车辆（如汽车、摩托车、自行车等）和行人。交通模拟器必须考虑速度、加速度、制动、障碍物以及其他实体的行为所带来的影响。此外，还必须定期更新交通信号灯状态以模拟真实的城市驾驶情况。交通模拟主要有两种流行方法，我们将在下文进行描述。

规则驱动：基于规则的交通模拟器使用预定义的规则来生成交通实体的运动。这一概念最著名的实现是智能驾驶员模型（IDM）。IDM是一个跟车模型，它根据每辆车的当前速度、前车的速度以及所需的安全距离来计算加速度。尽管这种方法被广泛使用且简单直接，但它可能不足以模拟城市环境中真实的运动和复杂的交互。

数据驱动：真实的人类交通行为具有高度的交互性和复杂性，包括变道、并线、急停等。为了模拟这种行为，数据驱动的交通模拟利用从现实世界驾驶中收集的数据。这些模型能够捕捉更细微、更真实的行为，但需要大量的标注数据进行训练。已经为这项任务提出了多种基于学习的技术。

3.2.3 传感器模拟

传感器模拟对于评估端到端自动驾驶系统至关重要。这涉及到生成模拟的原始传感器数据，如摄像头图像或激光雷达扫描，这些是在模拟器中自动驾驶系统从不同视角接收到的数据。此过程需要考虑噪声和遮挡，以便对自动驾驶系统进行现实评估。关于传感器模拟，主要有两种思想流派，如下所述。

基于图形学：最近的计算机图形模拟器使用环境的三维模型以及交通实体的模型，通过模拟传感器中的物理渲染过程来生成传感器数据。例如，在模拟摄像头图像时，这可能涉及现实世界环境中存在的遮挡、阴影和反射。然而，基于图形的模拟的真实感往往较差，或者需要沉重的计算代价，使得并行化变得复杂。它与三维模型的质量和建模传感器时使用的近似值密切相关。文献中提供了关于驾驶数据图形渲染的综合调查。

数据驱动：数据驱动的传感器模拟利用真实世界的传感器数据来创建模拟，其中本车（ego vehicle）和背景交通的行驶方式可能与记录中的方式不同。流行的方法包括神经辐射场（Neural Radiance Fields，NeRF）和3D高斯溅射（3D Gaussian Splatting），它们通过学习场景的几何形状和外观的隐式表示来生成场景的新视图。这些方法在视觉上可以比基于图形的方法产生更真实的传感器数据，但它们也存在局限性，如渲染时间长或需要对每个要重建的场景进行独立训练。数据驱动的传感器模拟的另一种方法是域适应（domain adaptation），它旨在最小化真实传感器数据与基于图形的模拟传感器数据之间的差距。可以使用诸如生成对抗网络（GANs）等深度学习技术来提高真实性（第4.9.3节）。

3.2.4 车辆动力学仿真

驾驶模拟的最后一个方面涉及确保模拟车辆遵循物理上合理的运动。目前大多数公开发布的模拟器都使用高度简化的车辆模型，如独轮车模型或自行车模型。然而，为了促进算法从模拟到现实世界的无缝转换，有必要纳入更准确的车辆动力学物理建模。例如，CARLA采用多体系统方法，将车辆表示为四个车轮上的一系列弹簧质量体。

3.2.5 基准测试

我们在表1中简要概述了迄今为止可用的端到端驾驶基准测试。2019年，与CARLA一起发布的原始基准测试以接近完美的分数得到解决。随后的无碰撞（NoCrash）基准测试涉及在特定天气条件下的单个CARLA城镇进行训练，并测试其对另一个城镇和一系列天气的泛化能力。与单个城镇不同，Town05基准测试涉及在所有可用城镇上进行训练，同时保留Town05用于测试。类似地，LAV基准测试在所有城镇上进行训练，除了Town02和Town05，这两个城镇都保留用于测试。Roach使用了一个包含3个测试城镇的设置，尽管这些城镇在训练期间都见过，但没有Town05和LAV中的安全关键场景。最后，Longest6基准测试使用了6个测试城镇。两个在线服务器（排行榜v1和v2）通过保持评估路线的机密性来确保公平比较。排行榜v2极具挑战性，因为其路线长度较长（平均超过8公里，而v1上则为1-2公里），且包含各种新的交通场景。

表1：用于自动驾驶闭环评估的带有活跃基准的开源模拟器。

目前，可以通过NAVSIM项目访问nuPlan模拟器来评估端到端系统。此外，还有两个基准测试，其中代理通过数据驱动的参数初始化（Sec. 3.2.1）为nuPlan输入地图和对象属性。Val14使用nuPlan的验证拆分。nuPlan排行榜是一个带有私有测试集的提交服务器，在2023年nuPlan挑战赛中使用，但现已不再对提交公开。

3.3 离线/开环测试

开环评估主要评估系统性能与预先记录的专家驾驶行为之间的差异。该方法需要评估数据集，其中包括（1）传感器读数，（2）目标位置，以及（3）相应的未来驾驶轨迹，这些通常来自人类驾驶员。给定传感器输入和目标位置作为输入，通过将系统预测的未来轨迹与驾驶日志中的轨迹进行比较来衡量性能。系统的评估基于其轨迹预测与人类真实情况的接近程度，以及与其他代理碰撞概率等辅助指标。开环评估的优点在于，它使用真实的交通和传感器数据实现起来较为容易，因为它不需要模拟器。然而，主要缺点是它不衡量在实际部署过程中遇到的测试分布中的性能。在测试期间，驾驶系统可能会偏离专家驾驶走廊，因此验证系统从这种漂移中恢复的能力至关重要（第4.9.2节）。此外，在多模态场景中，预测轨迹与记录轨迹之间的距离并不是一个理想的度量标准。例如，在并入转弯车道的情况下，立即并入或稍后并入都可能是有效的选择，但开环评估会惩罚数据中未观察到的选项。因此，除了测量碰撞概率和预测误差外，还提出了一些指标来涵盖更全面的方面，如交通违规、进度和驾驶舒适性。

这种方法需要从全面的轨迹数据集中提取数据。为此目的最受欢迎的数据集包括nuScenes、Argoverse、Waymo和nuPlan。所有这些数据集都包含了大量具有不同程度难度的现实世界驾驶遍历。然而，由于上述缺点，开环结果并不能为闭环中驾驶行为的改进提供确凿的证据。总的来说，如果现实可行的闭环基准测试可用且适用，则建议在未来的研究中使用。

4. 挑战

接下来，我们将按照图1中所示的每个主题，探讨当前的挑战、相关工作或潜在解决方案、风险以及机遇。我们从第4.1节处理不同输入模态的挑战开始，然后讨论第4.2节高效策略学习中的视觉抽象。此外，我们介绍了学习范式，如世界模型学习（第4.3节）、多任务框架（第4.4节）和策略蒸馏（第4.5节）。最后，我们讨论了阻碍安全可靠的端到端自动驾驶的一般问题，包括第4.6节的可解释性、第4.7节的安全性保证、第4.8节的因果混淆以及第4.9节的鲁棒性。

4.1 感知和输入模式的困境

4.1.1 感知与多传感器融合

感知：尽管早期的研究工作[8]成功实现了使用单目相机跟随车道，但这种单一的输入模式无法处理复杂的场景。因此，图4中引入了各种传感器用于最近的自动驾驶汽车。特别是，来自相机的RGB图像复制了人类如何感知世界，具有丰富的语义细节；激光雷达或立体相机提供了准确的3D空间知识。新兴的传感器如毫米波雷达和事件相机擅长捕捉物体的相对运动。此外，来自速度计和惯性测量单元的车辆状态，以及导航指令，是引导驾驶系统的其他输入方式。然而，各种传感器具有不同的视角、数据分布和巨大的价格差异，从而给有效设计传感器布局并将其融合以相互补充以实现自动驾驶带来了挑战。

图4：输入模态和融合策略示例。不同的模态具有不同的特征，从而带来了有效传感器融合的挑战。我们以点云和图像为例，描述了各种融合策略。

多传感器融合主要在感知相关领域进行讨论，例如目标检测和语义分割，并且通常被分为三类：早期融合、中期融合和晚期融合。端到端自动驾驶算法也探索了类似的融合方案。早期融合在将感测输入送入共享特征提取器之前对它们进行组合，其中拼接是融合的一种常见方式。为了解决视角差异，一些工作将点云投影到图像上或反之（为激光雷达点预测语义标签）。另一方面，晚期融合结合了来自多模态的多个结果。由于其性能较差，因此讨论较少。与这些方法相反，中期融合通过分别编码输入并在特征级别融合它们来实现网络内的多传感器融合。也经常采用简单的拼接方法。最近，一些工作采用了Transformer来建模特征之间的交互。Transformer中的注意力机制在聚合不同传感器输入的上下文并实现更安全的端到端驾驶方面表现出了巨大的有效性。

受感知领域进展的启发，在统一的空间（如BEV）中建模模态是有益的。端到端驾驶还需要识别与策略相关的上下文并丢弃不相关的细节。我们在第4.2.1节中讨论了基于感知的表示。此外，自注意力层自由地互连所有标记，会产生巨大的计算成本，并且无法保证有用的信息提取。感知领域中的高级基于Transformer的融合机制，如，有望应用于端到端驾驶任务。

4.1.2 语言作为输入

人类驾驶时既使用视觉感知也使用内在知识，它们共同形成了因果行为。在与自动驾驶相关的领域，如具身AI中，将自然语言作为精细知识和指令来控制视动代理已经取得了显著进展。然而，与机器人应用相比，驾驶任务更为直接，无需进行任务分解，而且室外环境更为复杂，具有高度动态的代理，但用于定位的显著锚点却很少。

为了将语言知识融入驾驶中，提出了一些数据集，以作为室外定位任务和视觉语言导航任务的基准。HAD采用了人车交互建议，并增加了一个视觉定位任务。Sriram等人将自然语言指令翻译成高级行为，而则直接对文本进行定位。CLIP-MC和LM-Nav利用CLIP从指令中提取语言知识，并从图像中提取视觉特征。

最近，观察到大型语言模型（LLMs）的快速发展，一些工作将感知到的场景编码为标记，并将其提示给LLMs进行控制预测和基于文本的解释。研究人员还将驾驶任务表述为一个问答问题，并构建了相应的基准测试。他们强调，LLMs提供了处理复杂指令并推广到不同数据域的机会，这与机器人领域的应用具有相似的优势。然而，目前将LLMs应用于道路驾驶可能具有挑战性，考虑到其较长的推理时间、较低的定量精度以及输出的不稳定性。潜在的解决方案可能是将LLMs部署在云端，专门用于复杂场景，并仅用于高级行为预测。

4.2 依赖于视觉抽象

端到端自动驾驶系统大致分为两个阶段：将状态编码为潜在特征表示，然后用中间特征解码驾驶策略。在城市驾驶中，输入状态（即周围环境和自身状态）与常见的策略学习基准（如视频游戏）相比，更加多样化和高维，这可能导致表示与制定策略所需的关注区域之间的不一致。因此，设计“良好”的中间感知表示，或使用代理任务预先训练视觉编码器是有帮助的。这可以使网络有效地提取驾驶所需的有用信息，从而促进后续的策略阶段。此外，这还可以提高强化学习方法的样本效率。

4.2.1 表征设计

朴素表征是通过各种主干网络提取的。经典的卷积神经网络（CNNs）仍然占据主导地位，具有平移等变性和高效率的优势。深度预训练的CNN显著提升了感知能力和下游性能。相比之下，基于Transformer的特征提取器在感知任务中表现出了很好的可扩展性，但尚未被广泛应用于端到端驾驶。对于特定于驾驶的表示法，研究人员引入了鸟瞰图（BEV）的概念，在统一的3D空间中融合不同的传感器模态和时间信息。这也有助于轻松适应下游任务。此外，还开发了基于网格的3D占用率来表示不规则物体，并用于规划中的碰撞避免。然而，与BEV方法相比，这种密集表示法带来了巨大的计算成本。

另一个未解决的问题是地图的表示。传统的自动驾驶依赖于高清地图。由于高清地图的可用性成本高，已经设计了不同的在线制图方法，如鸟瞰图（BEV）分割、矢量化的车道线、中心线及其拓扑结构和车道段。然而，对于端到端系统来说，最合适的表示方法尚未得到验证。

虽然各种表征设计提供了如何设计后续决策过程的可能性，但同时也为整个框架的两部分协同设计带来了挑战。此外，鉴于在几个简单但有效的方法中观察到的趋势即扩大训练资源，地图等显式表征的最终必要性尚不确定。

4.2.2 表征学习

表示学习通常包含某些归纳偏差或先验信息。在所学习的表示中不可避免地存在可能的信息瓶颈，并且可能与决策无关的多余上下文可能会被移除。

一些早期方法直接利用现成的网络中的语义分割掩码作为后续策略训练的输入表示。SESR进一步通过变分自编码器（VAE）将分割掩码编码为类别分离的表示。预测的承受能力指标（如交通灯状态、到车道中心的偏移量和到前车的距离）被用作策略学习的表示。

观察到像分割这样的表示结果可能会创建由人类定义的信息瓶颈，并导致有用信息的丢失，一些人选择将预训练任务中的中间特征作为RL训练的有效表示。VAE中的潜在特征通过从分割和深度图的扩散边界获得的注意力图进行增强，以突出重要区域。TARP利用一系列先前任务的数据来执行与任务相关的不同预测任务，以获取有用的表示。通过近似π-双模拟度量来学习潜在表示，该度量由动力学模型中奖励和输出的差异组成。ACO通过将方向盘角度分类添加到对比学习结构中，来学习判别性特征。最近，PPGeo提出通过在未校准的驾驶视频上进行自监督的运动预测和深度估计来学习有效表示。ViDAR利用原始图像-点云对，并使用点云预测预任务对视觉编码器进行预训练。这些工作表明，利用大规模未标记数据进行自监督表示学习以进行策略学习是有前景的，值得未来探索。

4.3 基于模型的强化学习中的世界建模复杂性

除了更好地抽象感知表示的能力外，端到端模型还需要对未来进行合理的预测，以便采取安全的操作。在本节中，我们主要讨论当前基于模型的策略学习工作的挑战，其中世界模型为策略模型提供明确的未来预测。

深度强化学习通常存在样本复杂度高的问题，这在自动驾驶中尤为突出。基于模型的强化学习（MBRL）通过允许智能体与学习到的世界模型而不是实际环境进行交互，为提高样本效率提供了一个有前景的方向。MBRL方法采用了一个明确的世界（环境）模型，该模型由转移动态和奖励函数组成。这在驾驶中特别有用，因为像CARLA这样的模拟器相对较慢。

然而，对高度动态的环境进行建模是一项具有挑战性的任务。为了简化问题，Chen等人将转移动态分解为非反应式世界模型和简单的运动自行车模型。为了解决学习到的世界模型可能存在的不准确问题，Henaff等人使用dropout正则化训练策略网络来估计不确定性成本。另一种方法使用多个世界模型的集合来提供不确定性估计，基于该估计，可以截断并相应地调整想象中的模拟结果。受Dreamer的启发，ISO-Dream将视觉动态分解为可控和不可控状态，并在解耦的状态上训练策略。

值得注意的是，在原始图像空间中学习世界模型对于自动驾驶来说并非易事。预测图像中很容易忽略重要的微小细节，如交通信号灯。为了解决这个问题，一些工作采用了流行的扩散技术。MILE将Dreamer风格的世界模型学习纳入鸟瞰图（BEV）分割空间，作为模仿学习之外的辅助任务。SEM2也扩展了Dreamer结构，但使用BEV地图作为输入，并使用强化学习进行训练。除了直接将学习到的世界模型用于基于模型的强化学习（MBRL）外，DeRL还将无模型actor-critic框架与世界模型相结合，通过融合两个模型对动作或状态的自我评估。

端到端自动驾驶中的世界模型学习是一个新兴且有前景的方向，因为它大大降低了强化学习的样本复杂性，并且理解世界对驾驶很有帮助。然而，由于驾驶环境高度复杂且动态，仍需要进一步研究来确定需要建模什么以及如何有效地建模世界。

4.4 依赖多任务学习

多任务学习（MTL）涉及通过不同的头部在共享表示的基础上联合执行几个相关任务。MTL具有减少计算成本、共享相关领域知识以及利用任务关系提高模型泛化能力的优势。因此，MTL非常适合端到端驾驶，因为最终的策略预测需要对环境有全面的了解。然而，为了实现最佳性能，辅助任务的最佳组合和损失的适当加权是一个重大挑战。

与常见的视觉任务中密集预测密切相关不同，端到端驾驶预测的是一个稀疏信号。稀疏监督增加了编码器从中提取用于决策的有用信息的难度。对于图像输入，端到端自动驾驶模型通常采用诸如语义分割和深度估计等辅助任务。语义分割有助于模型获得对场景的高级理解；深度估计使模型能够捕捉环境的3D几何形状并更好地估计与关键对象的距离。除了透视图像上的辅助任务外，3D目标检测对激光雷达编码器也有用。随着鸟瞰图（BEV）成为自动驾驶的一种自然且流行的表示方式，在BEV空间中聚合特征的模型中也包含了诸如BEV分割等任务。此外，除了这些视觉任务外，还预测了视觉负担能力，包括交通灯状态、到对面车道的距离等。然而，为现实世界应用构建具有多种类型对齐且高质量注释的大规模数据集并非易事，由于当前模型依赖于多任务学习，这仍然是一个值得关注的问题。

4.5 低效专家与策略提炼

由于模仿学习或其主要的子类别–行为克隆只是模仿专家行为的监督学习，因此相应的方法通常遵循“教师-学生”范式。这里存在两个主要挑战：（1）教师，如CARLA提供的手工专家自动驾驶仪，虽然可以访问周围代理和地图的真实状态，但并不是完美的驾驶员。（2）学生仅通过传感器输入监督记录的输出，需要他们同时提取感知特征并从头开始学习策略。

一些研究提出将学习过程分为两个阶段，即训练一个更强的教师网络，然后将策略提炼给学生。特别是，Chen等人首先使用一个特权代理来学习如何在访问环境状态的情况下行动，然后让感觉运动代理（学生）在输出阶段通过提炼紧密模仿特权代理。作为特权代理输入的更紧凑的BEV表示比原始专家提供了更强的泛化能力和监督。该过程如图5所示。

图5：策略提炼。（a）特权代理通过访问特权真实信息来学习一个鲁棒的策略。专家用虚线标记，表明如果特权代理是通过强化学习训练的，则它不是强制性的。（b）感觉运动代理通过特征提炼和输出模仿来模仿特权代理。

除了仅监督规划结果外，还有一些工作也在特征层面提炼知识。例如，FM-Net采用分割和光流模型作为辅助教师来指导特征训练。SAM在教师网络和学生网络之间添加了L2特征损失，而CaT则在BEV中对齐特征。WoR学习了一个基于模型的动作值函数，然后用它来监督视觉运动策略。Roach使用强化学习训练了一个更强的特权专家，消除了BC的上限。它结合了多个提炼目标，即动作分布、值/奖励和潜在特征。通过利用强大的RL专家，TCP在CARLA排行榜上实现了新的最先进水平，仅使用单个摄像头作为视觉输入。DriveAdapter学习了一个仅感知的学生和带有特征对齐目标的适配器。这种解耦范式充分利用了教师的知识和学生的训练效率。

尽管人们已经投入了大量精力来设计一个鲁棒的专家并在各个层面传输知识，但“教师-学生”范式仍然受到低效提炼的困扰。例如，特权代理可以访问交通灯的真实状态，但这些状态在图像中是小物体，因此很难提炼出相应的特征。因此，与特权代理相比，视觉运动代理表现出较大的性能差距。这也可能导致学生出现因果混淆（见第4.8节）。值得探索如何从机器学习中的一般提炼方法中汲取更多灵感，以缩小这一差距。

4.6 缺乏可解释性

可解释性在自动驾驶中起着至关重要的作用。它使工程师能够更好地调试系统，从社会角度提供性能保证，并促进公众接受。对于经常被称为“黑箱”的端到端驾驶模型来说，实现可解释性更为重要且更具挑战性。

在给定训练模型的情况下，可以应用一些事后X-AI（可解释性AI）技术来获得显著性图。显著性图突出显示视觉输入中的特定区域，这些区域是模型进行规划时主要依赖的。然而，这种方法提供的信息有限，且其有效性和正确性难以评估。相反，我们关注于直接在模型设计中增强可解释性的端到端框架。我们将在下面的图6中介绍每一类可解释性。

图6：不同形式可解释性的总结。它们有助于人类理解端到端模型的决策过程以及输出的可靠性。

注意力可视化：注意力机制提供了一定程度的可解释性。注意力权重还可以自适应地组合来自不同对象区域或固定网格的ROI池化特征。NEAT迭代地聚合特征以预测注意力权重并细化聚合特征。最近，Transformer注意力块被用于更好地融合不同的传感器输入，注意力图显示了输入中对于驾驶决策重要的区域。在PlanT中，注意力层处理来自不同车辆的特征，为相应的动作提供可解释性的见解。与事后显著性方法类似，尽管注意力图提供了关于模型焦点的直接线索，但其忠实度和实用性仍然有限。

可解释性任务：许多基于IL的工作通过将潜在特征表示解码为除了策略预测之外的其他有意义的信息来引入可解释性，例如语义分割、深度估计、对象检测、可承受性预测、运动预测和注视图估计。虽然这些方法提供了可解释的信息，但其中大多数仅将这些预测作为辅助任务，对最终的驾驶决策没有明确的影响。一些工作确实使用这些输出来进行最终动作，但它们仅用于执行额外的安全检查。

规则集成和成本学习：如第2.1.2节所述，基于成本学习的方法与传统模块化系统具有相似性，因此表现出一定程度的可解释性。NMP和DSDNet结合检测和运动预测结果构建成本量。P3将预测的语义占用图与舒适度和交通规则约束相结合，以构建成本函数。采用各种表示形式（如概率占用和时间运动场、突发占用和空闲空间）对采样轨迹进行评分。明确包含人类专业知识和预定义规则（包括基于感知和预测输出的安全性、舒适性、交通规则和路线），以形成轨迹评分的成本，从而提高了鲁棒性和安全性。

语言可解释性：可解释性的一个方面是帮助人类理解系统，因此自然语言是实现这一目的的合适选择。Kim等人和Xu等人开发了将驾驶视频或图像与描述和解释相匹配的数据集，并提出了具有控制和解释输出的端到端模型。BEEF将预测的轨迹和中间感知特征相融合，以预测决策的理由。ADAPT提出了一个基于Transformer的网络，用于联合估计动作、叙述和推理。最近，借助于多模态和基础模型的进展，如第4.1.2节所述，使用大型语言模型（LLMs）/视觉语言模型（VLMs）来提供与决策相关的解释。

不确定性建模：不确定性是解释深度学习模型输出可靠性的定量方法，有助于设计者和用户识别出需要改进或必要干预的不确定情况。对于深度学习而言，存在两种不确定性：偶然不确定性和认知不确定性。偶然不确定性是任务本身固有的，而认知不确定性则是由于数据有限或建模能力有限而产生的。作者利用模型中的某些随机正则化进行多次前向传递作为样本来测量不确定性。然而，在实时场景中，多次前向传递的要求并不可行。Loquercio等人和Filos等人提出通过一组专家似然模型来捕获认知不确定性，并聚合结果以执行安全规划。关于建模偶然不确定性的方法，这些方法直接在动作层面上建模和量化不确定性，作为网络要预测的一个变量。规划器会根据预测的不确定性生成最终动作，要么从多个动作中选择不确定性最低的动作，要么根据不确定性生成所提出动作的加权组合。目前，预测的不确定性主要与硬编码规则结合使用。探索更好地对不确定性进行建模和利用以实现自动驾驶的方法是非常必要的。

4.7 缺乏安全保障

在现实世界场景中部署自动驾驶系统时，确保安全至关重要。然而，与基于传统规则的方法不同，端到端框架的基于学习的特性在安全性方面天生缺乏精确的数学保证。

然而，应该注意的是，模块化驾驶堆栈已经在其运动规划或速度预测模块中融入了与安全相关的特定约束或优化，以强制执行安全性。这些机制可以潜在地适应于作为后处理步骤或安全检查集成到端到端模型中，从而提供额外的安全保证。此外，如第4.6节所述的中间可解释性预测（如检测和运动预测结果）可用于后处理过程。

4.8 因果混乱

驾驶是一项表现出时间平滑性的任务，这使得过去的运动成为预测下一个动作的可靠依据。然而，使用多帧进行训练的方法可能会过于依赖这种捷径，并在部署过程中遭遇灾难性失败。这个问题在一些工作中被称为“模仿问题”，是因果混淆的一种表现，即获取更多信息反而导致性能下降。

模仿学习中的因果混淆问题近二十年来一直是一个持续存在的挑战。最早报告这一效应的是LeCun等人。他们使用单个输入帧进行转向预测，以避免这种外推。尽管这种方法很简单，但它仍然是当前最先进的IL方法中的首选解决方案。不幸的是，使用单帧很难提取周围行为者的运动。另一个因果混淆的来源是速度测量。图7展示了一辆在红灯前等待的汽车示例。汽车的动作可能与其速度高度相关，因为它已经等待了许多帧，在这些帧中速度为零，动作为刹车。只有当交通灯从红色变为绿色时，这种相关性才会消失。

图7：因果混淆。汽车的当前行为与低维虚假特征（如速度或汽车的过去轨迹）高度相关。端到端模型可能会抓住这些特征，从而导致因果混淆。

在使用多帧时，有几种方法可以解决因果混淆问题。有人尝试通过训练一个对抗性模型来预测自我代理的过去动作，从而从瓶颈表示中去除虚假的时间相关性。直观地看，由此产生的最小-最大优化训练网络从中间层中消除其过去。它在MuJoCo中效果很好，但不适用于复杂的基于视觉的驾驶。OREO将图像映射到表示语义对象的离散代码，并对共享相同离散代码的单元应用随机丢弃掩码，这有助于解决Atari中的混淆问题。在端到端驾驶中，ChauffeurNet通过使用过去的自我运动作为中间BEV抽象，并在训练过程中以50%的概率丢弃它，来解决因果混淆问题。Wen等人提出在训练损失中加重关键帧的权重，其中发生决策变化（因此无法通过外推过去来预测）。与关键帧相比，PrimeNet通过使用集成来提高性能，其中单帧模型的预测被作为附加输入提供给多帧模型。Chuang等人做了同样的事情，但用动作残差而不是动作来监督多帧网络。此外，仅使用激光雷达历史记录（带有一个帧图像）并将点云重新对齐到一个坐标系中，可以绕过因果混淆问题。这消除了自我运动，同时保留了其他车辆过去状态的信息。这项技术已在多项工作中使用，尽管它并不是以这种方式提出的。

然而，这些研究使用了经过修改的环境来简化对因果混淆问题的研究。在3.2.5节中提到的最先进设置中展示性能改进仍然是一个悬而未决的问题。

4.9 缺乏鲁棒性

4.9.1 长尾分布

长尾分布问题的一个重要方面是数据集不平衡，如图8（a）所示，少数类别占据了大多数。这给模型在多样化环境中的泛化带来了巨大挑战。各种方法通过数据处理来缓解这一问题，包括过采样、欠采样和数据增强。此外，基于权重的方法也经常被使用。

图8：鲁棒性方面的挑战。与数据集分布差异相关的三大泛化问题分别是长尾和正常情况、专家演示和测试场景，以及位置、天气等方面的领域迁移。

在端到端自动驾驶的背景下，长尾分布问题尤为严重。大多数驾驶都是重复且无趣的，例如，在多个帧中沿着车道行驶。相反，有趣且至关重要的安全场景很少发生，但性质多样，并且由于安全原因，很难在现实世界中进行复制。为了解决这个问题，一些工作依赖于手工制作的场景来在模拟中生成更多样化的数据。LBC利用特权代理来创建基于不同导航命令的假设监督。LAV包括非自我代理的轨迹，用于训练以促进数据的多样性。

另一项研究通过对抗性攻击以数据驱动的方式生成关键安全场景，采用贝叶斯优化来生成对抗性场景。Learning to collide将驾驶场景表示为构建块的联合分布，并应用策略梯度强化学习方法来生成危险场景。AdvSim修改代理的轨迹以造成故障，同时仍遵守物理上的合理性。KING提出了一种使用可微运动学模型梯度的关键安全扰动优化算法。

总的来说，高效地生成覆盖长尾分布的真实关键安全场景仍然是一个重大挑战。虽然许多工作侧重于模拟器中的对抗性场景，但更好地利用真实世界数据进行关键场景挖掘和潜在的模拟适应也同样重要。此外，一个系统、严格、全面且现实的测试框架对于在这些长尾分布的关键安全场景下评估端到端自动驾驶方法至关重要。

4.9.2 协方差偏移

如第2.1节所述，行为克隆的一个重要挑战是协变量偏移。专家策略的状态分布与训练代理策略的状态分布不同，这会导致在将训练代理部署在未见过的测试环境中时，或者当其他代理的反应与训练时间不同时，出现累积误差。这可能导致训练代理处于专家训练分布之外的状态，从而导致严重失败。图8（b）对此进行了说明。

DAgger（数据集聚合）是解决这一问题的常用方法。DAgger是一个迭代训练过程。在每个迭代中，都会部署当前训练好的策略来收集新数据，并使用专家来标记访问过的状态。这通过添加如何从不完美的策略可能访问的次优状态中恢复的示例来丰富数据集。然后，在增强后的数据集上训练策略，并重复该过程。然而，DAgger的一个缺点是需要一个可用的专家来进行在线查询。

对于端到端自动驾驶，DAgger在中与基于MPC的专家一起被采用。为了降低不断查询专家的成本，SafeDAgger通过学习一个安全策略来扩展原始DAgger算法，该策略估计当前策略与专家策略之间的偏差。只有当偏差较大时，才会查询专家。MetaDAgger使用DAgger的元学习来聚合来自多个环境的数据。LBC采用DAgger，并更频繁地对损失较高的数据进行重采样。在DARB中，为了更好地利用失败或与安全相关的样本，它提出了几种机制，包括基于任务的机制、基于策略的机制以及基于策略和专家的机制，来对这些关键状态进行采样。

4.9.3 领域适配

域适应（DA）是一种迁移学习，其中的目标任务与源任务相同，但领域不同。在这里，我们讨论的是源域有标签，而目标域没有标签或只有有限数量的标签的场景。如图8（c）所示，自动驾驶任务的域适应包括以下几种情况：

• 模拟到现实：用于训练的模拟器与用于部署的现实世界之间存在巨大差距。

• 地理位置到地理位置：具有不同环境外观的不同地理位置。

• 天气到天气：由雨天、雾天和雪天等天气条件引起的传感器输入变化。

• 白天到夜晚：视觉输入的照明变化。

• 传感器到传感器：传感器特性可能存在的差异，例如分辨率和相对位置。

请注意，上述情况通常会有重叠。通常，通过图像翻译器和判别器实现域不变特征学习，以将两个域中的图像映射到共同的潜在空间或表示（如分割图）中。LUSR和UAIL分别采用循环一致性变分自编码器（VAE）和生成对抗网络（GAN），将图像投影到由域特定部分和域通用部分组成的潜在表示中。在SESR中，从语义分割掩码中提取出类别分离编码，以减少模拟到现实的差距。域随机化也是一种简单有效的模拟到现实的强化学习（RL）策略学习技术，该技术进一步适用于端到端自动驾驶。它通过随机化模拟器的渲染和物理设置来实现，以覆盖训练过程中现实世界的可变性。

目前，通过源目标图像映射或域不变特征学习来实现模拟到现实的适应是研究的重点。其他域适应情况则通过构建多样化和大规模的数据集来处理。鉴于当前的方法主要集中在图像中的视觉差距上，而激光雷达已成为驾驶的流行输入方式，因此还必须设计针对激光雷达的特定适应技术。此外，还应注意到模拟器和现实世界之间交通代理行为的差距。通过神经辐射场（NeRF）等技术将现实世界数据融入模拟中是另一个有前景的方向。

5. 未来趋势

考虑到所讨论的挑战和机遇，我们列出了一些未来研究的关键方向，这些方向可能会对该领域产生更广泛的影响。

5.1 零样本及少样本学习

自动驾驶模型最终不可避免地会遇到超出训练数据分布的现实世界场景。这引发了一个问题，即我们是否能够将模型成功地适应到一个未见过的目标域，其中只有有限或没有标记的数据可用。为端到端驾驶领域正式化这项任务，并从零样本/少样本学习文献中融入技术，是实现这一目标的关键步骤。

5.2 模块化的端到端规划

模块化端到端规划框架在优先考虑最终规划任务的同时优化多个模块，具有第4.6节所述的可解释性优势。这在最近的文献中得到了提倡，而某些行业解决方案（如特斯拉、Wayve等）也涉及了类似的想法。在设计这些可微感知模块时，关于损失函数的选择出现了几个问题，例如物体检测中3D边界框的必要性、在静态场景感知中选择鸟瞰图（BEV）分割而非车道拓扑结构，以及使用有限模块数据的训练策略。

5.3 数据引擎

大规模高质量数据对自动驾驶的重要性再怎么强调也不为过。建立一个具有自动标注流程的数据引擎[276]可以极大地促进数据和模型的迭代开发。自动驾驶的数据引擎，特别是模块化端到端规划系统，需要借助大型感知模型以自动方式简化高质量感知标签的标注过程。它还应支持挖掘困难/极端案例、场景生成和编辑，以便进行第3.2节中讨论的数据驱动评估，并促进数据的多样性和模型的泛化能力（第4.9节）。数据引擎将使自动驾驶模型能够持续改进。

5.4 基础模型

语言和视觉领域基础模型的最新进展已经证明，大规模数据和模型容量可以释放AI在高级推理任务中的巨大潜力。微调或提示学习范式、自监督重建或对比对等形式的优化均适用于端到端驾驶领域。然而，我们认为直接将大型语言模型用于驾驶可能具有挑战性。自主代理的输出需要稳定和准确的测量，而语言模型中的生成输出则旨在模仿人类行为，而不考虑其准确性。开发“基础”驾驶模型的一个可行解决方案是训练一个能够预测环境合理未来的世界模型，无论是在二维、三维还是潜在空间中。为了在规划等下游任务中表现良好，需要对模型进行优化的目标需要足够复杂，而不仅仅是帧级感知。

6. 总结及展望

在本次综述中，我们概述了基本方法，并总结了仿真和基准测试的各个方面。我们全面分析了迄今为止的广泛文献，并强调了各种关键挑战和有前景的解决方案。

展望：多年来，该行业一直致力于开发先进的基于模块的系统，以实现高速公路上的自动驾驶。然而，当面对复杂场景（如城市街道和十字路口）时，这些系统面临重大挑战。因此，越来越多的公司开始探索专为这些环境量身定制的端到端自动驾驶技术。预计，随着高质量数据的广泛收集、大规模模型训练以及可靠基准的建立，端到端方法在性能和效率方面将比模块化堆栈具有巨大潜力。总之，端到端自动驾驶同时面临着巨大的机遇和挑战，其最终目标是构建通用型智能体。在这个新兴技术时代，我们希望本次综述能够作为该领域的新起点，为该领域带来新的启示。

adas_l5

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
端到端自动驾驶：挑战与前沿

在本次综述中，我们概述了基本方法，并总结了仿真和基准测试的各个方面。我们全面分析了迄今为止的广泛文献，并强调了各种关键挑战和有前景的解决方案。展望：多年来，该行业一直致力于开发先进的基于模块的系统，以实现高速公路上的自动驾驶。然而，当面对复杂场景（如城市街道和十字路口）时，这些系统面临重大挑战。因此，越来越多的公司开始探索专为这些环境量身定制的端到端自动驾驶技术。预计，随着高质量数据的广泛收集、大规模模型训练以及可靠基准的建立，端到端方法在性能和效率方面将比模块化堆栈具有巨大潜力。
复制链接

扫一扫