告别激光雷达？纯视觉GPVL：188ms 生成安全轨迹！

自动驾驶之心

于 2025-02-13 07:30:28 发布

阅读量306

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247653696&idx=3&sn=ce9700c29674f61424ce7c7406700127&chksm=cf39d2c34cbf8d3bdd3bd95c27ecfcf8ee06156303e0b6f41b27324c3730a0ced4985739dee5&scene=126&sessionid=0

版权

作者 | Tengpeng Li 编辑 | 深蓝AI

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

本文只做学术分享，如有侵权，联系删文

摘要

自动驾驶是一项具有挑战性的任务，它要求感知和理解周围环境以规划安全的行驶轨迹。尽管现有的基于视觉的端到端模型已经取得了有希望的结果，但这些方法仍然面临视觉理解、决策推理和场景泛化的挑战。为了解决这些问题，提出了一种名为GPVL（Generative Planning with 3D-Vision Language Pre-training）的生成性规划模型，用于端到端的自动驾驶。该提出的范式有两个显著方面。

一方面，设计了一个3D视觉语言预训练模块，旨在弥合鸟瞰图中视觉感知与语言理解之间的差距。另一方面，引入了一个跨模态语言模型，以自回归的方式根据感知和导航信息生成全面的驾驶决策和精细的轨迹。

©️【深蓝AI】编译

论文标题：Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

论文作者：Tengpeng Li, Hanli Wang, Xianfei Li, Wenlong Liao, Tao He, Pai Peng

论文地址：https://arxiv.org/pdf/2501.08861
官方网站：https://github.com/ltp1995/GPVL

在具有挑战性的nuScenes数据集上的实验表明，与最先进方法相比，所提出的方案实现了优异的性能。此外，当处理各种场景中的高级指令时，GPVL表现出强大的泛化能力和实时潜力。GPVL的有效、稳健和高效的性能对未来自动驾驶系统的实际应用至关重要。

自动驾驶要求系统能深刻理解周围环境以确保安全和高效的部署。优秀的自动驾驶系统需要全面感知驾驶环境，并基于道路信息精确规划行驶路径。

近年来，端到端的自动驾驶框架通过传感器数据理解和输出规划决策，取得了显著进展。然而，早期方法因缺乏对驾驶场景的深入理解，导致解释性有限且难以收敛。为改善性能，一些方案利用传感器信息集成多个视觉任务，如3D目标检测和运动预测，但这些方法在结合上下文线索进行决策方面仍存在挑战。随着大型语言模型的发展，其推理能力被应用于自动驾驶，尽管如此，这些模型在处理复杂的3D空间关系时表现不佳。

为了克服这些问题，提出了一种新的基于3D视觉语言预训练的生成性规划（GPVL）范式，如图1所示。GPVL首先提取多视角图像的鸟瞰图特征，涵盖基本语义元素；然后引入矢量化变换器学习关键感知信息。接着，开发了一个3D视觉语言预训练模块，对齐视觉特征与语言表示，促进共享特征空间内的3D场景理解和文本推理。此外，基于预训练模型设计了2D场景字幕模型，用于生成描述。最后，将视觉字幕、对齐的3D特征和导航指令输入语言模型，自回归地生成驾驶决策和轨迹。本文的主要贡献在于以下几个方面：

提出了一种3D视觉语言预训练模块，建立了视觉和语言特征之间的组内相关性，有助于对驾驶环境的深入理解。
开发了一种跨模态语言模型，以自回归方式利用字幕、感知和导航信息生成决策和轨迹，赋予模型推理和生成能力。
我们提出了一个基于3D视觉语言预训练的生成性规划框架，该框架学习语言引导的感知特征并生成情境化轨迹，从而提高系统的安全性。

▲图1｜（a）现有的端到端自动驾驶框架仅利用视觉信息来完成感知、预测和规划任务。(b)新兴的注入大型语言模型的自动驾驶模型仅仅引入了2D视觉特征，并使用耗时的大型语言模型进行规划决策。(c)设计的方案专注于3D视觉语言预训练，并通过语言生成风格进行规划。

■ 端到端自动驾驶

端到端自动驾驶旨在创建一个完全可微的系统，直接将传感器数据转化为车辆控制指令，整合感知、预测、规划和控制模块以减少累积误差并提高安全性。现有模型可分为开环和闭环方法：前者如Hu等人（2023）和Jiang等人（2023）在真实数据集上进行训练评估；后者使用模拟器如CARLA获取反馈，优化未来位置和动作特征。

■ 大型语言模型在自动驾驶中的应用

大型语言模型（LLM）的应用增强了自动驾驶系统的决策能力。研究如Dilu（Wen等人，2023）和GPT-driver（Mao等人，2023）利用LLM生成合理轨迹，并通过多模态语言模型建立视觉与语言间的语义关联。然而，这些方案在三维空间感知和语言表示对齐方面存在不足。本工作引入BEV视觉变换器和3D视觉语言预训练模块，以解决上述挑战并实现鲁棒轨迹生成。

▲图2｜ GPVL用于自动驾驶的pipeline©️【深蓝AI】编译

所提出的GPVL的整体框架如图2所示，包含三个关键组件：(1) 主干网络基于提取的鸟瞰图（BEV）特征生成监督下的检测、地图和运动特征；(2) 3D视觉语言预训练模块旨在将视觉和语言特征对齐到一个共同的语义空间中；(3) 跨模态语言模型以生成式的方式产生可靠的决策和轨迹。

■ 方法概述

假设表示采样的多视角图像，所提出方案的目标是生成自车的安全驾驶轨迹。为了获得令人满意的规划结果，提出了 GPVL 以建立 3D 视觉特征与语言表示之间的语义关联，并以自回归方式生成高质量路线。图 2 展示了所提出模型的详细结构。具体来说，对于输入的多视角图像，我们首先使用预训练的 BEVformer中的 BEV 编码器提取 BEV 特征。随后，被输入到检测、运动和地图变换器中，以同时学习 3D 物体框、代理运动和地图元素，生成受限的检测特征、运动特征和地图特征。然后，将它们三个送入由多个变换器层组成的视觉注意力块，生成注意力视觉特征、，及其连接。同时，环境的真实描述被整合到基于BERT结构的文本注意力块中，以获得文本表示、、及其连接。进一步设计了一个组对齐模块，以将这些视觉和语言特征投影到共享的语义空间中。最后，连同自车的导航提示被送入语言模型，以自然语言格式生成可靠的轨迹。

■ 3D视觉语言预训练

3D视觉语言预训练模块是通过对比学习开发的，旨在建立视觉和语言模态之间的多层次对齐。一些先前的方法引入了预训练的大规模语言模型以增强对驾驶场景的感知和理解。然而，这些方法要么缺乏3D空间信息，要么在不同表示之间存在语义差距，这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下，所提出的模型利用监督检测、运动和地图特征来感知目标的3D空间分布，并通过3D视觉语言预训练模块最小化不同特征之间的语义差距。3D视觉语言预训练模块是通过对比学习开发的，旨在建立视觉和语言模态之间的多层次对齐。一些先前的方法引入了预训练的大规模语言模型以增强对驾驶场景的感知和理解。然而，这些方法要么缺乏3D空间信息，要么在不同表示之间存在语义差距，这阻碍了基于提取特征的准确目标定位和轨迹推断。相比之下，所提出的模型利用监督检测、运动和地图特征来感知目标的3D空间分布，并通过3D视觉语言预训练模块最小化不同特征之间的语义差距。

BEV注入的视觉特征。在所提出的 GPVL 中，引入了驾驶场景中的三种目标，包括前景物体、代理运动和地图元素。我们首先利用视觉嵌入层将、和编码到相同的通道维，然后，引入变换器结构通过长距离注意力建立紧凑的交互以增强视觉特征。整个函数可以表示为：

其中表示特征嵌入层，表示视觉注意力块。因此，，和。随后，注意力检测、运动和地图特征沿空间维度集成以获得全局视觉特征，表示为：

其中表示连接操作。

环境语言特征。为了赋予模型语言意识，通过利用 BERT 结构提出了一个文本注意力模块。该模块处理感知和规划标签，例如边界框、未来轨迹和地图元素，这些标签使用预定义模板转换为特定于驾驶的语言提示。与检测、运动和地图特征相关的描述随后被输入到文本注意力块中，以生成相应的语言表示。现在，整个过程可以表述为：

其中，和分别代表前景物体、未来运动和地图元素的真实标签。表示基于 BERT 的文本注意力块。、和。随后，这些描述性特征被连接起来形成全局文本表示，表示为：

组内对齐。为了充分利用不同特征之间的多层次关联，通过使用对比学习设计了一种组内对齐策略。考虑了四种类型的 3D 视觉语言对齐组，包括与检测相关的 VL 组、与运动相关的 VL 组、与地图相关的 VL 组和全局 VL 组。例如，在一批个训练样本中，对齐函数旨在将匹配的 VL 样本视为正样本，将不匹配的 VL 样本视为负样本。给定视觉特征和文本特征作为输入，对比损失定义为：

其中，是一个可学习的温控系数，是一个相似性函数。函数通过计算视觉和文本特征之间的相似性得分获得，这些特征通过全局平均池化处理。在此模块中，引入了一个可学习的权重来探索不同表示之间的细粒度关系。例如，与检测相关的 VL 组的相似性函数可以表述为：

因此，总的组内对齐损失定义为：

■ 通过跨模态语言模型进行规划

自我代理动态交互是自动驾驶系统中的一个关键问题。先前的研究尝试引入可学习查询来建模自我代理关系，以获取自我车辆的查询特征，并将其输入多层感知器（MLP）以获得预期的未来轨迹。尽管这种策略在特定的基准数据集上可以表现出良好的性能，但直接使用MLP生成轨迹可能导致过拟合，并且在生成的路点之间难以进行上下文关系推理。

面对这些挑战，开发了一种用于生成性规划的跨模态语言模型，以赋予GPVL理性且稳健地做出安全决策的能力。

自我代理跨模态解码器。所提出的模型为自动驾驶汽车的当前状态制定语言提示，其中包括其高级驾驶命令和位置。信息丰富的提示被发送到文本嵌入层，以产生自动驾驶汽车的初始语言表示。同时，如图 2 所示，设计的场景字幕模型生成视觉描述（例如，交通灯、标志、关键对象和天气）。随后，环境视觉特征和提示特征被输入到语言模型中，以学习具有丰富驾驶场景和导航信息的规划特征。该过程可以表述为：

其中表示预训练的语言模型，Cap 是 2D 场景字幕，Nav 表示高级导航。最终，被发送到线性层（LeCun, Bengio, 和 Hinton 2015）和 Softmax（Bishop 和 Nasrabadi 2006）层，以产生词向量为：

生成式规划。类似于大多数视觉字幕任务，引入了交叉熵损失以语言建模的方式输出轨迹。在训练过程中，每个样本都配备了一个提示字幕作为参考，其中包括自我车辆的高级命令和未来轨迹，损失函数表示为：

其中表示训练期间所有可训练的参数，表示第t个预测词。训练损失。所提出的 GPVL 的总体损失包括三个训练组件，包括视觉感知损失、3D 视觉语言对齐损失和轨迹字幕损失，可以定义为：

其中表示与视觉下游任务相关的损失，包括 3D 目标检测、地图构建和运动预测。

■ 数据集和自动评估指标

实验在nuScenes数据集上进行，该数据集包含1,000个交通场景，每个视频约20秒，提供超过140万个3D边界框。评估指标包括位移误差（L2）和碰撞率（Collision），以及延迟（Latency）和帧每秒（FPS）来衡量实时性能。

■ 实现细节

模型预测未来3秒的轨迹，输入图像大小为1280 × 720，使用ResNet50提取特征，BEV查询、边界框和地图点数量分别为200 × 200、200和100 × 20。训练使用AdamW优化器，学习率分三个阶段调整，最终模型在PyTorch框架下用8张NVIDIA RTX A6000显卡训练。

■ 与最先进方法的比较

将所提出的方案与13种自动驾驶方法进行了比较，包括8种传统的非自回归方法和5种注入LLM的自回归方法。

▲表1｜开环规划性能

定量结果。表1展示了所提出的GPVL与其他最先进方法的统计对比。总体而言，GPVL的统计性能明显优于其他方法。具体来说，在L2距离指标上GPVL获得了最低的分数，相比VAD它分别在1秒、2秒、3秒时减少了0.18米、0.28米、0.34米的规划位移误差，平均减少了0.27米，这表明其轨迹预测的准确性更高。此外，GPVL在大多数碰撞率指标上的表现最佳，突出了其在避免碰撞方面的卓越安全性和稳健性。与引入辅助任务或利用LLM的方法相比，所提出的方法保持了相当的规划性能，并实现了188.7毫秒的延迟和5.3 fps的推理速度，显示了其实用应用的潜力。根据BEV-Planner的报告，所提出的方案排除了自我状态信息以防止快捷学习。

表2显示了左转、右转和直行命令下的L2和Collision评分。显然，GPVL在所有指标上都显著优于UniAD和VAD。在nuScenes数据集中，87.7%的训练样本和88.2%的验证样本是简单的直行场景。因此，UniAD和VAD更容易在这些样本上过拟合并学习捷径，导致在更复杂的转弯场景中的表现不佳。相比之下，所提出的方法在各种场景中都获得了有利的结果，展示了在不同驾驶情况下的强大泛化能力。

▲图3｜在nuScenes数据集上，所提出的GPVL、VAD和真实情况的可视化对比

定性结果。图3展示了GPVL生成的规划结果与VAD及真实情况的对比。为了提供对驾驶场景的全面理解，包含了多视角相机图像，并在前视图中可视化了规划轨迹。总的来说，得益于所提出的3D视觉语言预训练模块和跨模态语言模型，设计的模型生成了准确且合理的轨迹。例如，在第一个场景中，当自我车辆被指示直行时，GPVL生成的轨迹引导车辆安全通过城市道路。相反，VAD的轨迹存在与路边发生碰撞的风险。在第三个场景中，GPVL的结果紧密匹配真实情况，使车辆能够在交叉路口安全左转。然而，VAD的规划决策更为激进，可能会导致与迎面而来的车辆发生碰撞。

■ 消融研究

▲表3｜在nuScenes上的GPVL消融研究，其中Perc、Cap、VLP、GA和CLM分别代表感知模块、字幕生成模型、3D视觉语言预训练、组内对齐和跨模态语言模型

表3中的消融研究系统地探讨了GPVL的关键组件在nuScenes数据集上的贡献。没有感知模块时，GPVL在检测前景物体、预测运动和构建地图方面遇到困难，导致L2和碰撞（Collision）分数升高。禁用视觉语言预训练（VLP）和组对齐（GA）组件显著降低了性能，突显了模型在连接视觉和语言理解方面的强大能力。缺少GA会导致明显的性能下降，表明其在细粒度特征关联中的重要性。排除跨模态语言模型（CLM）会增加L2和碰撞分数，强调了其在生成合理规划决策方面的作用。最后，如表3第六行所示，所有模块的集成产生了最佳性能，展示了各组件协同作用的效果。

■ 零样本泛化

▲表4｜为了评估在新城市的零样本性能，模型在 Group1 中在波士顿训练并在新加坡测试，在 Group2 中在新加坡训练并在波士顿测试

▲表5｜为了验证模型在未见过的场景中的鲁棒性，测试图像中引入了四种类型的噪声，包括雨、雾、雪和黑暗

为了验证模型的泛化能力，我们在来自两个不同城市环境（即波士顿和新加坡）构建的数据集上训练并测试模型。具体来说，引入了两组实验：(1) 在波士顿数据集上训练并在新加坡数据集上测试；(2) 在新加坡数据集上训练并在波士顿数据集上测试。如表4所示，GPVL在这两组中的评估得分明显优于UniAD和VAD。

此外，为了验证GPVL的鲁棒性，我们在测试图像中引入了四种类型的噪声（即雨、雾、雪和黑暗）。如表5所示，在这些噪声条件下，UniAD和VAD受到了显著的负面影响，而对GPVL的影响较小。因此，GPVL在各种实际场景中的出色表现展示了其提高自动驾驶系统鲁棒性和安全性的能力。

本研究提出了一种新颖的3D视觉语言模型的生成式规划方法，用于端到端自动驾驶。该方法设计了3D视觉语言预训练模块，整合文本信息，建立3D视觉语言关系，并通过组内对齐利用不同表示间的关联，以更好地理解驾驶场景。跨模态语言模型作为生成引擎，基于对齐的特征和导航信息，自回归地生成未来轨迹。GPVL框架不仅提供可靠规划，还展现出良好的泛化能力。在nuScenes数据集上的实验显示，GPVL性能优于现有技术，未来有望推动更安全、可靠的自动驾驶技术发展。

Ref：

Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）