论文阅读：GenAD: Generative End-to-End Autonomous Driving

布朗瓶

已于 2024-02-28 13:50:24 修改

阅读量2.5k

点赞数 43

分类专栏：深度学习自动驾驶文章标签：论文阅读深度学习自动驾驶

于 2024-02-23 15:19:50 首次发布

本文链接：https://blog.csdn.net/m0_48100146/article/details/136256373

版权

自动驾驶同时被 2 个专栏收录

11 篇文章

订阅专栏

深度学习

10 篇文章

订阅专栏

文章链接：https://arxiv.org/abs/2402.11502

💡摘要

直接从原始传感器生成规划结果一直是自动驾驶长期渴望的解决方案，并且最近引起了越来越多的关注。大多数现有的端到端自动驾驶方法都将这个问题分解为感知、运动预测和规划。然而，我们认为传统的渐进式管道仍然无法全面地模拟整个交通演化过程，例如，自我汽车与其他交通参与者之间的未来交互以及先验的结构轨迹。在本文中，我们探索了一种端到端自动驾驶的新范式，其中关键是根据过去的场景预测自我汽车和周围环境如何演变。我们提出了 GenAD，一个将自动驾驶转化为生成建模问题的生成框架。我们提出了一个以实例为中心的场景标记器，它首先将周围的场景转换为地图感知的实例标记。然后，我们采用变分自动编码器来学习结构潜在空间中的未来轨迹分布，以进行轨迹先验建模。我们进一步采用时间模型来捕获潜在空间中的主体和自我运动，以生成更有效的未来轨迹。 GenAD 最终通过在以实例标记为条件的学习的结构潜在空间中采样分布并使用学习的时间模型生成未来来同时执行运动预测和规划。对广泛使用的 nuScenes 基准进行的大量实验表明，所提出的 GenAD 在以视觉为中心的端到端自动驾驶方面实现了最先进的性能，并且效率很高。代码：https://github.com/wzzheng/GenAD。

📉Introduction

以视觉为中心的自动驾驶由于其经济便利性近年来得到了广泛的探索[16,24,25,39,42]。研究人员在各种任务中突破了以视觉为中心的自动驾驶的极限，包括 3D 对象检测 [16,24,25]、地图分割 [23,28,32,52] 和 3D 语义占用预测 [17,44,45] ，48,49,55]，以视觉为中心的端到端自动驾驶的最新进展[14,15,19]揭示了直接从原始传感器产生规划结果的潜在而优雅的路径。

大多数现有的端到端自动驾驶模型由多个模块组成，并遵循感知、运动预测和规划的流程[14,15,19]。例如，UniAD[15]进一步逐步执行地图感知、检测、跟踪、运动预测、占用预测和规划模块，以提高系统的鲁棒性。还观察到，使用规划目标可以提高中间任务的性能[15]。然而，现有管道的预测和规划的串行设计忽略了自我汽车与其他交通参与者之间未来可能的交互。我们认为这种类型的交互对于准确的规划很重要。例如，本车的车道移动会影响后面车辆的动作，进而影响本车的规划。这种高阶交互无法通过规划前的运动预测的当前设计有效地建模。此外，未来的轨迹是高度结构化的，并且具有共同的先验（例如，大多数轨迹以及连续直线）。尽管如此，大多数现有方法未能考虑这种结构先验，导致预测和规划不准确。

在本文中，我们提出了一种生成式端到端自动驾驶（GenAD）框架（如图 1 所示），它将自动驾驶建模为轨迹生成问题，以释放端到端方法的全部潜力。我们提出了一个场景标记器来获取以实例为中心的场景表示，它专注于实例，但也集成了地图信息。为了实现这一目标，我们使用主干网络提取周围每个摄像机的图像特征，然后将它们转换到 3D 鸟瞰 (BEV) 空间 [16,24,25]。我们进一步使用交叉注意力从 BEV 特征中细化高级地图和代理令牌。然后，我们添加一个自我令牌并使用自我代理自我关注来捕获他们的高阶交互。我们进一步通过交叉注意力注入地图信息以获得地图感知实例令牌。为了对未来轨迹的结构先验进行建模，考虑到运动预测和驾驶规划的不确定性，我们学习了一种变分自动编码器，将真实轨迹映射到高斯分布。然后，我们使用一个简单而有效的门控循环单元（GRU）[6] 来执行自动回归，以对潜在结构空间中的实例运动进行建模。在推理过程中，我们从以实例为中心的场景表示为条件的学习分布中进行采样，从而可以预测不同的可能的未来。我们的 GenAD 可以使用统一的未来轨迹生成模型同时执行运动预测和规划。我们对广泛使用的 nuScenes 基准进行了广泛的实验，以评估所提出的 GenAD 框架的性能。基于生成建模，我们的 GenAD 能够高效地实现最先进的基于视觉的规划性能。
在这里插入图片描述

图 1. 所提出的生成式端到端自动驾驶框架与传统流程的比较。大多数现有方法遵循感知、预测和规划的系列设计。他们通常忽略自我汽车和其他智能体之间的高级交互以及现实轨迹的结构先验。我们将自动驾驶建模为未来一代的问题，并在结构潜在轨迹空间中同时进行运动预测和自我规划。

📚Related Work

感知。感知是自动驾驶的基本步骤，旨在从原始传感器输入中提取有意义的信息。尽管基于 LiDAR 的方法具有强大的性能 [4,8,36,53]，但由于 RGB 相机的低成本，以视觉为中心的方法 [17,24,25,49,51] 已成为一种有竞争力的替代方案。配备大型 2D 图像主干，以视觉为中心的方法在主要感知任务中表现出了巨大的潜力，包括 3D 物体检测 [16,24,25,39,42,51]，高清地图重建 [23,28,32,52]，和 3D 语义占用预测 [44,45,48,49,55]。为了准确地完成这些3D任务，关键的过程是将图像特征转换到3D空间。一系列工作预测图像特征的显式深度，然后使用相机参数将它们投影到 3D 空间中 [16,24,27,33,39,42,51]。其他方法在 3D 空间中初始化查询并利用可变形交叉注意力来自适应聚合来自 2D 图像的信息 [17,20,25]。一些作品进一步设计了更好的位置嵌入策略[31]、3D表示[17]或任务头[51]以进一步提高感知性能或效率。在本文中，我们采用传统的简单设计进行 3D 感知，并重点关注运动预测和规划。

预测。交通参与者的准确运动预测是自我车辆后续运动规划的关键。传统方法利用真实代理历史和高清地图信息作为输入，并侧重于预测未来代理轨迹[3,38,47]。一种直接的方法是在 BEV 图像上绘制代理路径和高清地图，并使用卷积神经网络对其进行处理并输出运动预测结果 [3, 38]。其他方法采用向量或标记来表示单独的代理或地图元素[26,30,37,47]。然后，他们利用图神经网络 [26] 和变压器的推理能力，考虑代理和地图元素之间的交互来推断未来的运动。硬件容量的增加促进了端到端运动预测方法的出现[9,12,18,52]，它们联合执行感知和预测以摆脱离线高清地图的束缚。尽管非常具有挑战性，但最近的端到端方法在这种更实际的环境中表现出了有希望的性能[9,12,18,52]。他们通常采用注意力机制来合并代理和地图信息，并利用时间网络（例如门控循环单元[12]）来预测未来状态。然而，大多数现有方法直接从潜在特征解码轨迹，并忽略了现实轨迹的结构性质（例如，大多数轨迹是直线）。不同的是，我们从真实轨迹中学习变分自动编码器，以在潜在结构空间中对轨迹进行先验建模，并在该空间中采样实例以进行推理。

规划。规划是自动驾驶第一阶段的最终目标。尽管基于规则的规划器[1,7,46]已经发展成熟，但基于学习的规划器[5,40,43]由于其从大规模驾驶数据中受益的巨大潜力以及与终端的兼容性而受到越来越多的关注。端到端的自动驾驶方法。大多数现有的端到端规划方法都遵循感知、预测和规划的流程[14,15,19]。例如，ST-P3 [14] 逐步采用地图感知、BEV 占用预测和轨迹规划模块来从周围摄像机获取未来的自我运动。 UniAD [15]通过额外的检测、跟踪和运动预测模块进一步扩展了 ST-P3，以提高系统的鲁棒性。 VAD [19] 使用矢量化场景 CrossAttention BEV 编码器可变形 CrossAttention 地图头部检测头 SelfAttention CrossAttention CrossAttention 未来轨迹编码器实例编码器未来轨迹生成器图像主干 BEV 令牌自我令牌代理令牌映射令牌以实例为中心的场景表示简化了 UniAD。重建轨迹真实轨迹潜在轨迹空间运动预测和规划场景表示未来 G 表示以及用于端到端驾驶的唯一地图、运动和规划模块，以更高的效率实现最先进的规划性能。然而，预测和规划的串行设计忽略了未来自我运动对智能体运动预测的影响。它还缺乏对运动预测和规划的不确定性的建模。为了解决这个问题，GenAD 在生成框架中对自动驾驶进行建模，并同时在学习的概率潜在空间中生成自我车辆和其他代理的未来轨迹。

📚Method

本节介绍我们基于视觉的端到端自动驾驶的生成框架，如图 2 所示。我们首先引入以实例为中心的场景表示，它结合了高阶地图-自我-代理交互，以实现全面而紧凑的场景描述（第 3.1 节）。然后，我们详细阐述了潜在嵌入空间的学习，以将现实轨迹建模为先验（第 3.2 节）以及在该学习的潜在空间中生成未来运动（第 3.3 节）。最后，我们详细介绍了生成式端到端自动驾驶（GenAD）框架的训练和推理（第 3.4 节）。
在这里插入图片描述

图 2.我们的生成式端到端自动驾驶框架。将周围图像作为输入，我们使用图像主干来提取多尺度特征，然后使用 BEV 编码器来获取 BEV 令牌。然后，我们使用交叉注意力和可变形交叉注意力将 BEV 令牌分别转换为地图和代理令牌。通过额外的自我标记，我们使用自我注意力来实现自我代理交互和交叉注意力，以进一步合并地图信息以获得以实例为中心的场景表示。我们将这种表示映射到一个结构潜在轨迹空间，该空间是使用真实的未来轨迹共同学习的。最后，我们采用未来轨迹生成器来生成未来轨迹，以同时完成运动预测和规划。

3.1 以实例为中心的场景表示

端到端自动驾驶的目标可以表述为获得自我车辆规划的 f 帧未来轨迹 T(T, f ) = {wT +1, wT +2, · · · , wT +f }给定当前和过去的 p 帧传感器输入 S = {sT , sT −1, · · · , sT −p} 和轨迹 T(T − p, p + 1) = {wT , wT −1, · · · ，wT−p}。
在这里插入图片描述

其中 T(T, f ) 表示从第 T 帧开始的 f 帧轨迹，wt 表示第 t 帧处的路点，st 表示第 t 帧处的传感器输入。

端到端自动驾驶的第一步是感知传感器输入以获得周围场景的高级描述。这些描述通常包括语义图 [28, 32] 和实例边界框 [24, 25]。为了实现这一目标，我们遵循传统的以视觉为中心的感知管道，首先提取鸟瞰图 (BEV) B ∈ RH×W ×C 特征，然后在此基础上细化地图和边界框特征。

图像至 BEV。我们基本上遵循 BEVFormer [25] 来获得 BEV 特征。具体来说，我们使用卷积神经网络[10]和特征金字塔网络[29]从相机输入s中获取多尺度图像特征F。然后，我们将 H × W BEV 标记 B0 初始化为查询，并使用可变形交叉注意力 [54] 来传输来自多尺度图像特征 F 的信息：
在这里插入图片描述

其中 DA(Q, K, V) 表示可变形注意力块，由交错的自注意力层和可变形交叉注意力层组成，分别使用 Q、K 和 V 作为查询、键和值。然后，我们将过去 p 帧的 BEV 特征对齐到当前坐标系中，并将它们连接起来作为最终的 BEV 特征 B。

BEV 到地图。由于语义映射元素在 BEV 空间中通常是稀疏的，因此我们遵循类似的概念 [18, 19] 并使用映射标记 M ∈ RNm*C 来表示语义映射。每个地图标记 m ∈ M 可以通过地图解码器 dm 解码为 BEV 空间中的一组点，表示地图元素的类别及其相应位置。遵循 VAD [19]，我们考虑三类地图元素（即车道分隔线、道路边界和行人过路处）。我们使用全局交叉注意力机制从 BEV 代币 B 更新可学习的初始化查询 M0：
在这里插入图片描述

其中 CA(Q, K, V) 表示交叉注意块，由交错的自注意层和交叉注意层组成，分别使用 Q、K 和 V 作为查询、键和值。

BEV 给代理。与语义图的表示类似，我们采用一组代理标记 A 来表示每个实例在周围环境中的 3D 位置。我们使用可变形交叉注意力从 BEV 代币 B 获取更新的代理代币 A：
在这里插入图片描述

其中 A0 是作为初始化的可学习标记。

获得代理令牌 A 后，我们使用 3D 对象检测头 da 解码每个代理令牌 a 的位置、方向和类别信息。

以实例为中心的场景表示。由于预测和规划分别主要关注代理和自我车辆的实例，因此我们提出了一种以实例为中心的场景表示来全面有效地表示自动驾驶场景。我们首先将自我标记 e 添加到学习到的代理标记 A 中，以构造一组实例标记 I = concat(e, A)。

现有的方法[14,15,19]通常以串行方式执行运动预测和规划，忽略了未来自我运动对智能体的影响。例如，本车的车道移动可能会影响后面车辆的动作，导致运动预测结果不准确。不同的是，我们通过对实例令牌执行自我关注来实现自我车辆和其他代理之间的高阶交互：
在这里插入图片描述

其中 SA(Q, K, V) 表示由分别使用 Q、K 和 V 作为查询、键和值的自注意力层组成的自注意力块。

此外，为了执行准确的预测和规划，智能体和自我车辆都需要了解语义地图信息。因此，我们在更新的实例标记和学习的地图标记之间采用交叉注意力来获得地图感知的以实例为中心的场景表示：
在这里插入图片描述

学习到的实例标记包含高阶代理-自我交互，并了解学习到的语义图，这些语义图很紧凑，但包含执行运动预测和轨迹规划所需的所有地图和实例信息。

3.2 轨迹先验模型

我们发现其他智能体的运动预测和自我车辆的规划的目标共享相同的输出空间并且本质上是相同的。他们的目标都是在给定语义图和与其他代理的交互的情况下，生成相关实例的高质量真实轨迹。然后，所提出的 GenAD 的目标可以表述为在给定以 Mapaware 实例为中心的场景表示 I 的情况下推断未来轨迹 T。

与使用简单解码器直接输出轨迹的现有方法不同，考虑到其不确定性，我们将其建模为轨迹生成问题 T ∼ p(T|I)。

自我载体和其他智能体的轨迹都是高度结构化的（例如，连续的）并遵循某些模式。例如，当车辆匀速行驶时，大部分轨迹是直线，而当车辆右转或左转时，其中一些轨迹是曲率接近恒定的曲线。只有在极少数情况下，轨迹才会呈之字形。考虑到这一点，我们采用变分自动编码器（VAE）[22]架构来学习潜在空间 Z 来先验建模该轨迹。具体来说，我们采用地面真实轨迹编码器 ef 来建模 p(z|T(T, f ))，它将未来轨迹 T(T, f ) 映射到潜在空间 Z 上的对角高斯分布。编码器 ef输出两个向量 μf 和 σf 表示高斯分布的均值和方差：
在这里插入图片描述

其中 N (μ, σ2) 表示平均值为 μ、标准差为 σ 的高斯分布。

学习到的分布 p(z|T(T, f )) 包含地面实况轨迹的先验，可用于提高交通代理和自我车辆运动预测和规划的真实性。

3.3 潜在未来轨迹生成

在获得了之前的未来轨迹的潜在分布后，我们需要从潜在轨迹空间 Z 中显式地解码它们。

虽然一种直接的方法是直接使用基于 MLP 的解码器输出 BEV 空间中的轨迹点来建模 p(T(T, f )|z)，但它无法对交通代理和自我车辆的时间演化进行建模。为了考虑不同时间戳处实例的时间关系，我们将联合分布 p(T(T, f )|z) 分解如下：
在这里插入图片描述

我们从分布 N (μf , σf ) 中采样一个向量作为当前时间戳 zT 的潜在状态。我们没有立即解码整个轨迹，而是采用一个简单的基于 MLP 的解码器 dw 从潜在空间 Z 解码航路点 w = dw(z)，即，我们用 w = dw 实例化 p(wT +1|z) (z)。

然后，我们采用门控循环单元（GRU）[6]作为未来轨迹生成器来对实例的时间演化进行建模。具体来说，GRU 模型 g 将当前潜在表示 zt 作为输入，并将其转换为下一个状态 g(zt) = zt+1。然后，我们可以使用航路点解码器 wt+1 = dw(zt+1) 在第 (t + 1) 个时间戳处解码航路点 wt+1，即，我们建模 p(wt+1|wT +1, · · · , wt, z) 与 dw(g(zt))。

与直接输出整个轨迹的单个解码器相比，路点解码器执行仅解码 BEV 空间中的位置的更简单的任务，并且 GRU 模块对潜在空间 Z 中代理的运动进行建模。因此产生的轨迹更加真实考虑到这个学习到的结构化潜在空间中的先验知识，并且是真实的。我们在图 3 中说明了所提出的轨迹先验建模和潜在的未来轨迹生成。
在这里插入图片描述

图 3. 所提出的轨迹先前建模和未来生成的图示。我们使用未来的轨迹编码器将地面实况轨迹映射到潜在轨迹空间，其中我们使用高斯分布来建模轨迹不确定性。然后，我们使用门循环单元（GRU）来逐步预测潜在空间中的下一个未来，并使用解码器来获得显式轨迹。

3.4 生成式端到端自动驾驶

在本小节中，我们将介绍所提议的 GenAD 框架的整体架构，该框架用于以视觉为中心的端到端自动驾驶。给定周围相机信号 s 作为输入，我们首先使用图像主干来提取多尺度图像特征 F，然后使用可变形注意力将它们转换到 BEV 空间。我们将过去 p 帧的 BEV 特征与当前自我坐标对齐，以获得最终的 BEV 特征 B。我们执行全局交叉注意力和可变形注意力，分别细化一组地图标记 M 和代理标记 A。为了模拟交通代理和自我车辆之间的高阶交互，我们将代理令牌与自我令牌结合起来，并在它们之间执行自注意力以构造一组实例令牌 I。我们还使用交叉注意力来注入语义地图信息到实例标记 I 中以促进进一步的预测和规划。

由于现实轨迹是高度结构化的，我们学习 VAE 模块来对轨迹进行先验建模，并采用生成框架进行运动预测和规划。我们学习一个编码器 et 将真实轨迹映射到结构空间 Z 作为高斯分布。然后，我们使用基于 GRU 的未来轨迹生成器 g 对潜在空间 Z 中实例的时间演化进行建模，并使用简单的基于 MLP 的解码器 dw 从潜在表示中解码路径点。我们最终可以通过整合每个时间戳的解码航路点来重建交通代理和自我车辆的轨迹 ˆ Ta 和 ˆ Te 。对于训练，我们另外使用类解码器 dc 来预测每个代理 ˆ ca 的类别。为了学习未来轨迹编码器 ef 、未来轨迹生成器 g 、路点解码器 dw 和类解码器 dc ，我们遵循 VAD [19] 对交通代理和自我的重建轨迹和地面实况轨迹施加轨迹损失车辆：
在这里插入图片描述

|| · ||1 表示 L1 范数，Na 是智能体数量，Lfocal 表示约束预测智能体类别的焦点损失。 Ltra 表示轨迹损失[19]，包括 L1 差异、自我代理碰撞约束、自我边界超越约束和自我车道方向约束。 Ca 和 Ca 分别代表所有代理的预测类别和真实类别。

为了从实例标记 I 推断交通代理和自我车辆的未来轨迹，我们使用实例编码器 ei 将每个实例标记映射到潜在空间 Z。编码器 ei 类似地输出均值向量 μi 和方差向量 σi 来参数化对角高斯分布：
在这里插入图片描述

利用学习到的潜在轨迹空间对实际轨迹进行先验建模，可以将运动预测和规划统一并表示为实例分布 p(z|I) 和真实分布 p(z|T(T, f) 之间的分布匹配问题））。我们施加 KullbackLeibler 散度损失来强制分布匹配：
在这里插入图片描述

其中 DKL 表示 Kullback-Leibler 散度

此外，我们使用两个辅助任务来训练所提出的 GenAD 模型：地图分割和 3D 对象检测。我们在地图标记 M 上使用地图解码器 dm ，在代理标记 A 上使用对象解码器 do 来获得预测地图和 3D 对象检测结果。我们遵循 VAD [19] 的任务解码器设计，并采用二分匹配进行地面实况匹配。然后，我们对它们施加语义图损失 [51] Jmap 和 3D 对象检测损失 [25] Jdet 来训练网络。

我们 GenAD 框架的总体培训目标可以表述为：
在这里插入图片描述

其中 λplan、λmap 和 λdet 是平衡因子。所提出的 GenAD 可以以端到端的方式进行有效的训练。为了进行推理，我们丢弃未来的轨迹编码器 ef 并采样遵循实例分布 p(z|I) 的潜在状态作为轨迹生成器 g 和航路点解码器 dw 的输入。我们的 GenAD 将端到端自动驾驶建模为生成问题，并在结构化潜在空间中执行未来预测和规划，该空间考虑现实轨迹的先验，以产生高质量的轨迹预测和规划。

❗Experiments

4.1 数据集

我们对广泛采用的 nuScenes [2] 数据集进行了广泛的实验，以评估所提出的自动驾驶 GenAD 框架。 nuScenes数据集由1000个驾驶场景组成，每个场景提供20秒的RGB和LiDAR视频。 ego 车辆配备了 6 个具有 360° 水平 FOV 的环绕摄像头和 32 束 LiDAR 传感器。 nuScenes 为 2Hz 的关键帧提供语义图和 3D 对象检测注释。它包括来自 23 个类别的 140 万个对象的 3D 边界框。我们按照官方说明将数据集分为 700、150 和 150 个场景，分别用于训练、验证和测试 [2]。

4.2 评估指标

遵循现有的端到端自动驾驶方法[14, 15]，我们使用L2位移误差和碰撞率来衡量规划结果的质量。 L2 位移误差测量规划轨迹与地面真实轨迹之间的 L2 距离。碰撞率衡量的是自动驾驶车辆按照计划轨迹与其他交通参与者发生碰撞的频率。默认情况下，我们将 2 秒历史（即 5 帧）作为输入，并评估未来 1 秒、2 秒和 3 秒的规划性能。

4.3 实施细节

我们采用ResNet50[11]作为主干网络来提取图像特征。我们以分辨率为 640 × 360 的输入图像作为输入图像，并使用 200 × 200 BEV 表示来感知周围场景。为了公平比较，我们基本上使用与 VAD-tiny[19] 相同的超参数。我们将 BEV 代币、地图代币和代理代币的数量分别固定为 100 × 100、100 和 300。每个地图标记包含 20 个点标记，表示 BEV 空间中的一个地图点。我们将每个 BEV、点、代理、自我和实例标记的隐藏维度设置为 256。我们使用维度为 512 的潜在空间来对轨迹先验进行建模，并将 GRU 的隐藏维度设置为 512。我们使用了 3每个注意力块的层。

对于训练，我们将损失平衡因子设置为 1，并使用 AdamW [35] 优化器和余弦学习率调度器 [34]。我们将初始学习率设置为 2 × 10−4，权重衰减为 0.01。默认情况下，我们使用 8 个 NVIDIA RTX 3090 GPU 对 GenAD 进行 60 个周期的训练，并采用总批量大小为 8。

4.4 结果与分析

**主要结果。**我们将 GenAD 与表 1 中最先进的端到端自动驾驶方法进行了比较。我们使用粗体和下划线数字分别表示最好和第二好的结果。我们看到我们的 GenAD 以高效的推理速度实现了所有方法中最好的 L2 错误。尽管 UniAD [15] 在碰撞率方面优于我们的方法，但它在训练期间采用了额外的监督信号，例如跟踪和占用信息，这已被证实对于避免碰撞至关重要 [15]。然而，3D 空间中的这些标签很难注释，因此使用较少的标签来获得有竞争力的性能并非易事。我们的 GenAD 也比 UniAD 更高效，展示了强大的性能/速度权衡。
在这里插入图片描述

表 1. nuScenes [2] val 数据集上运动规划性能与最先进方法的比较。 † 表示度量是用所有预测帧的平均值计算的。 † 表示在我们的机器上使用单个 RTX 3090 GPU 的相同环境下测量的 FPS。

**感知和预测性能。**我们进一步评估了所提出的 GenAD 模型的感知和预测性能，并将其与具有相似模型大小的 VADtiny [19] 进行比较，如表 2 所示。我们使用平均精度（mAP）来衡量 3D 对象检测性能，并且mAP@0.5、mAP@1.0 和 mAP@1.5 用于评估预测地图的质量。对于运动预测，我们报告了汽车和行人的端到端预测精度（EPA），这是端到端方法的更公平的指标，可以避免错误检测到的代理的影响。对于运动规划，我们报告 1 秒、2 秒和 3 秒内的平均 L2 误差和碰撞率 (CR)。
在这里插入图片描述

表 2. 感知、预测和规划绩效的比较。 † 表示在我们的机器上使用单个 RTX 3090 GPU 卡的相同环境下测量的 FPS。

我们观察到，在推理速度相似的情况下，GenAD 在所有任务上都优于 VAD。具体来说，GenAD 通过考虑自我车辆对其他智能体的影响来实现更好的运动预测性能。 GenAD 还在 3D 检测和地图分割方面展示了卓越的性能，显示了感知、预测和规划之间更好的一致性。

以实例为中心的场景表示的效果。我们进行了消融研究来分析以实例为中心的场景表示的有效性，如表 3 所示。我们首先将所提出的方法的自我与代理交互添加到 VAD-tiny [19]，并观察到很大的改进L2 误差和碰撞率。我们还通过屏蔽自注意力矩阵来剖析其效果，从而消除了 GenAD 模型中自我与智能体的相互作用。我们看到碰撞率性能大幅下降。我们认为这是因为如果不考虑自我汽车和其他智能体之间的高阶交互，学习轨迹的真实潜在分布就变得非常困难。
在这里插入图片描述

表 3. 以实例为中心的场景表示的效果。 E → A 表示所提出的自我与代理交互以获得以实例为中心的场景表示。

自动驾驶生成框架的效果。我们还分析了所提出的未来轨迹生成模型的设计，该模型由两个模块组成：轨迹先验建模（TPM）和潜在未来轨迹生成（LFTG）。当单独使用 TPM 时，我们直接从潜在空间解码整个轨迹。仅使用 LFTG 模块，我们使用门控循环单元在给定以实例为中心的场景表示的情况下逐渐生成路点。我们看到这两个模块都很有效并且提高了规划性能。两个模块的结合进一步大幅提高了性能。这验证了如（8）中分解联合分布以释放潜在轨迹先验建模的全部潜力的重要性
在这里插入图片描述

可视化。我们提供了 GenAD 模型的可视化，并与具有相似模型大小的 VAD-tiny [19] 进行比较，如图 4 所示。我们在单个图像上可视化地图分割、检测、运动预测和规划结果，并提供周围摄像机输入作为参考。我们看到，在直行、超车和转弯等各种场景下，GenAD 都能比 VAD 产生更好、更安全的轨迹。对于复杂交通场景中涉及多个智能体的挑战性场景，我们的 GenAD 仍然表现出良好的效果，而 VAD 无法安全通过。
在这里插入图片描述

⛏️Conclusion

在本文中，我们提出了一个生成式端到端自动驾驶（GenAD）框架，用于根据视觉输入更好地进行规划。我们研究了自动驾驶感知、预测和规划的传统串行设计，并提出了一个生成框架，以实现高阶自我代理交互，并通过学习的结构先验产生更准确的未来轨迹。我们对广泛采用的 nuScenes 数据集进行了广泛的实验，并展示了所提出的 GenAD 的最先进的规划性能。未来，探索其他生成建模方法是很有趣的，例如用于端到端自动驾驶的生成对抗网络或扩散模型。