端到端自动驾驶VLM模型：LMDrive: Closed-Loop End-to-End Driving with Large Language Models

最新推荐文章于 2025-05-23 20:30:52 发布

机械心

最新推荐文章于 2025-05-23 20:30:52 发布

阅读量1.1k

点赞数 24

分类专栏：端到端自动驾驶文章标签：自动驾驶语言模型人工智能 VLM 端到端

本文链接：https://blog.csdn.net/a8598671/article/details/146585225

版权

端到端自动驾驶专栏收录该内容

8 篇文章

订阅专栏

论文地址：https://arxiv.org/pdf/2312.07488

代码地址：https://github.com/opendilab/LMDrive

1. 摘要

一方面，目前自动驾驶领域取得了显著进展，但在遇到长尾场景或复杂城市路况时，当前的自动驾驶方法仍容易失效甚至导致严重事故。另一方面，大语言模型（LLMs）展现出了接近“通用人工智能”的推理能力。因此，利用大语言模型所具备的“人类知识”帮助自动驾驶应对长尾问题，提升端到端模型的可解释性，并与导航和驾驶员进行互动成为端到端自动驾驶研究的热点。论文提出 LMDrive —— 一个新颖的、语言引导的、端到端、闭环自动驾驶框架。LMDrive 能够融合处理多模态传感器数据和自然语言指令，从而实现与人类乘客或导航系统的交互，在真实指令场景下进行驾驶。主要创新点：

使用冻结的预训练 LLM 保持强推理能力；
为其引入多视角的相机和 LiDAR 编码器，以及可学习的输入/输出适配器；
在 CARLA 模拟器上构建支持语言指导的数据集，涵盖动态场景与复杂指令；
构造挑战性评估集（LangAuto Benchmark）。

2. 方法

LMDrive 框架由两个部分组成：视觉编码器（Vision Encoder），用于处理多视角、多模态的传感器数据（相机 + LiDAR），并生成视觉 token；大语言模型（LLM）及其辅助模块，包括 tokenizer、Q-Former、Adapters，用于处理视觉 token 和语言指令，进而预测控制信号与任务完成状态。

2.1 视觉编码器

没有使用预训练的 CLIP 模型，设计了一个多视角多模态视觉编码器来处理 RGB 图像和 LiDAR 数据，并融合成 Bird's Eye View（BEV）视图，以生成视觉 token 输入给 LLM。为了提高视觉编码器的理解力，增加了感知和预测任务项，这些预测头只用于视觉预训练阶段，在指令微调和推理时将被移除。

图像编码（2D）：对每张图像使用 ResNet提取 2D 特征图，将特征图展平成 token 序列，来自不同视角的 token 使用一个 Transformer 编码器进行融合。

点云编码（3D）：LiDAR 输入使用 PointPillars处理点云数据，形成以自车为中心的 LiDAR 特征图，每个“pillar”覆盖 0.25m × 0.25m 区域，使用 PointNet进一步聚合特征，输出维度为C×H×W，作为 BEV 查询向量。

解码器：生成traffic light和waypoint的query，结合激光点云的query，以视觉特征作为KV，使用标准 Transformer 解码器，生成BEV token、traffic light token和waypoint token。

预训练：BEV token 接入 CenterPoint，预测目标边界框与速度；Waypoint token + 导航点输入 GRU，预测 N 个未来轨迹点；Traffic light token 输入两层 MLP，预测红灯/绿灯状态。