点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享密歇根大学最新的工作—LightEMMA!其、提供了一个统一的、基于VLM的自动驾驶框架,使用各种VLM构建若干自动驾驶智能体,并在nuScenes上展开分析。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『多模态大模型』技术交流群
论文作者 | Zhijie Qiao等
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
视觉-语言模型(Vision-Language Models, VLMs)在端到端自动驾驶方面展现了显著的潜力。然而,如何充分利用它们的能力以实现安全可靠的车辆控制仍然是一个开放的研究挑战。为了系统地研究VLMs在驾驶任务中的进展和局限性,我们介绍了LightEMMA——一种轻量级端到端多模态自动驾驶模型。LightEMMA提供了一个统一的、基于VLM的自动驾驶框架,无需特别定制,便于集成和评估最新的商业和开源模型。我们使用各种VLM构建了十二个自动驾驶智能体,并在nuScenes预测任务上评估了它们的性能,全面考察了推理时间、计算成本和预测准确性等指标。示例说明尽管VLM具有强大的场景解读能力,但其在自动驾驶任务中的实际表现仍令人担忧,强调了进一步改进的必要性。
论文链接:https://arxiv.org/abs/2505.00284
开源代码:https://github.com/michigan-traffic-lab/LightEMMA
本文简介
多年来,自动驾驶汽车(Autonomous Vehicles, AVs)取得了巨大进步,提高了安全性、舒适性和可靠性。传统方法依赖于模块化设计、基于规则的系统和预定义的启发式方法。虽然这种结构化的方法确保了可解释和可预测的行为,但它限制了解释复杂场景和做出灵活、类人决策的能力。
一种较新的方法是基于学习的端到端驾驶,它将原始传感器输入——以及高清地图和环境上下文——直接映射到驾驶轨迹。与模块化管道不同,端到端模型旨在从数据中学习统一表示,从而实现更整体和潜在高效的驾驶决策。然而,它们通常是黑箱模型,具有有限的可解释性,在关键场景中引发了安全问题,并且需要大量且多样的数据,使其容易受到数据不平衡和稀有性诅咒的影响。
一种有望解决这些挑战的新方法是视觉-语言模型(Vision-Language Models, VLMs)的发展。在包含文本、图像和视频的广泛数据集上训练的VLMs表现出强大的推理能力,类似于人类认知。最近的研究已经调查了基于VLMs的端到端自动驾驶系统,并提供了全面的综述。
然而,现有的研究主要强调VLMs在驾驶情境中的场景理解能力,而没有充分评估其优势和局限性。此外,许多应用涉及商业车辆部署,但没有可访问的源代码或详细的实现,限制了它们在更广泛研究和协作中的可用性。
受EMMA和开源OpenEMMA的最新进展的启发,我们介绍了LightEMMA——一个轻量级的端到端多模态自动驾驶框架。LightEMMA采用零样本方法,充分利用现有VLMs的能力。我们的主要贡献如下:
我们提供了一个用于端到端自动驾驶规划任务的开源基线工作流程,该工作流程设计为能够无缝集成最新的VLMs,实现快速原型开发,同时最小化计算和传输开销。
我们使用来自nuScenes预测任务的150个测试场景,对十二种最先进的商用和开源VLMs进行了全面评估。我们的分析突出了当前基于VLM的驾驶策略的实际优势和局限性,并详细讨论了它们的能力和未来改进的潜在领域。
相关工作回顾
EMMA基于Gemini,通过在自然语言中统一表示输入和输出,直接将相机数据映射到驾驶输出,实现了最先进的运动规划。OpenEMMA 通过引入一个开源框架扩展了这一方法,该框架使用通过思维链(Chain-of-Thought, CoT)推理增强的 VLMs,提高了性能和通用性。DriveGPT4是基于 LLaMA2 的 VLM,它在 BDD-X 数据集上进行训练,并使用 Chat-GPT 数据进行了微调,支持多帧视频理解、文本查询和车辆控制预测。DOLPHINS使用指令微调来进行上下文学习、适应和错误恢复。DriveMLM通过整合驾驶规则、用户输入和传感器数据将 VLM 引入行为规划,在 CARLA 的 Town05 中进行了评估。
有几个开源数据集可用于训练和评估自动驾驶系统,特别是 Waymo 开源数据集和 nuScenes。扩展基准如 nuScenes-QA、nuPrompt、LingoQA和 Reason2Drive进一步支持对语言和推理能力的评估。
LightEMMA方法详解

LightEMMA 架构的概述如图 1 所示。下面简要描述了工作流程。
在每个推理周期中,当前前视相机图像和历史车辆驾驶数据被输入到 VLM 中。为了增强可解释性并促进结构化推理,我们采用了一种链式思考(Chain-of-Thought, CoT)提示策略,其最后阶段明确输出一系列预测的控制动作序列。这些动作通过数值积分生成预测轨迹,然后与真实轨迹进行比较。所有 VLM 都使用一致的提示和评估程序进行评估,而无需模型特定的适应。
A. VLM 选择
我们从开源和商业产品中选择了最先进的 VLM,涵盖了 6 种模型类型,共 12 个模型。对于每种模型类型,我们评估了两种变体:基础版本和高级版本。所有使用的模型都是截至本项目结束时最新公开的版本,支持文本和图像输入。
这种设置使得可以在不同模型之间以及同一模型家族内的变体之间进行全面的性能比较。所选模型包括:GPT-4o、GPT-4.1、Gemini-2.0-Flash、Gemini-2.5-Pro、Claude-3.5-Sonnet、Claude-3.7-Sonnet、DeepSeek-VL2-16B、DeepSeek-VL2-28B、LLaMA-3.2-11B-Vision-Instruct、LLaMA-3.2-90B-Vision-Instruct、Qwen2.5-VL-7B-Instruct 和 Qwen2.5-VL-72B-Instruct。
对于商业模型,我们通过付费 API 访问它们。这种方法简化了部署,因为提供商直接处理本地硬件管理、软件更新和可扩展性等任务,消除了我们的负担。
对于开源模型,我们从 HuggingFace 下载并在本地使用 H100 GPU 进行部署。大多数模型只需要一个 H100 GPU,尽管较大的模型可能需要更多;我们在表 I 中报告了所需的最小 GPU 数量。为了便于多 GPU 部署,我们利用 PyTorch 的自动设备映射来实现高效的 GPU 利用。
B. 相机输入
当将前视相机图像输入 VLM 时,我们不使用任何视觉编码器(如 CLIP),也不在将图像输入模型之前应用预处理技术来修改图像。我们的研究结果表明,VLM 能够有效地描述场景,并直接从原始视觉输入中准确识别对象,表现出对未处理视觉数据的强大鲁棒性。
按照这种设计理念,我们也选择仅使用当前驾驶场景图像作为输入,而不是像先前研究[13],[15]那样串联多个过去帧。我们的初步实验表明,增加额外帧并不会带来明显的性能提升。相反,模型倾向于在多个帧中冗余地提取相同的特征,而不是捕捉有意义的时空动态。此外,增加更多的帧会导致处理时间和计算成本大致线性增长,而没有明显的性能优势。
另一种方法是,诸如 VideoBERT和VideoMAE等模型通过专门的时间编码支持视频输入,而不是简单地将视频视为帧序列。这类模型本质上采用了不同的架构,可能能够捕捉更丰富的时序信息。然而,探索这些专门的视频导向模型超出了我们当前研究的范围。
C. 驾驶历史输入
我们的工作以速度和曲率表示车辆动作,这是一种可解释的格式,其中速度捕获纵向运动,曲率描述横向运动。
我们采用这种表示方式而不是显式的轨迹点,因为 VLMs 经常难以有效推理涉及隐含物理约束的坐标。
D. VLM 提示
我们采用一种简单的 CoT 方法来引导 VLM 进行场景理解和动作生成,其中每个阶段的输出连同附加提示集成到后续阶段中:

场景描述:VLM 接收一张图像作为输入,并被提示解释整个场景,包括车道标记、交通灯、车辆、行人活动和其他相关对象。
高级驾驶意图:生成的场景描述与自车的历史驾驶动作相结合,使 VLM 能够在当前场景上下文中解释过去的动作并预测下一个高级驾驶动作。
低级驾驶命令:使用场景描述和生成的高级命令提示 VLM 输出结构化的低级驾驶动作列表,格式为 ,不添加其他文本或解释。
E. 示例工作流程
在本节中,我们演示了一个使用图 1 所示图像的 CoT 过程的工作流程和结果。响应和轨迹由 Claude-3.7-Sonnet 生成。由于篇幅限制,我们保留了原始措辞但省略了一些不太关键的细节。
场景描述:图像显示了一个有活跃道路施工或维护工作的城市街道场景...一名警察站在路中间指挥交通...可以看到几辆施工车辆,包括一辆停在道路左侧的黑色垃圾车和其他工作车辆...交通似乎在这个施工区域受到控制,有警察和可能的车道限制。
高级意图:鉴于当前场景中有活跃的施工和警察在路中间指挥交通,自车应显著减速约 ,以准备可能停车,在接下来的 3 秒内将速度降低到约 。车辆应在准备根据警察指示完全停车的同时继续跟随车道。
低级命令: 。
实验结果分析
使用提出的方法和模型,我们在 nuScenes 预测任务上对性能进行了评估,共使用了 150 个测试场景中的 3,908 帧。评估集中在两个方面:模型的计算效率和轨迹预测的准确性。
A. 推理时间
推理时间的总结见表 I,显示了每帧图像的平均处理时间。Gemini-2.0-Flash 的推理速度最快,仅为每帧 4.5 秒,而 LLaMA-3.2-90B 最慢,为每帧 40.8 秒。Qwen-2.5-72B 和 Gemini-2.5-Pro 也表现出相对较慢的性能,每帧都需要超过 30 秒。其余模型通常在每帧约 10 秒左右运行,基础版本通常比高级版本运行得更快。
请注意,即使是最快的模型 Gemini-2.0-Flash,其处理时间也显著慢于实时更新频率。为了在实际部署中真正有效,这些模型需要以快一到两个数量级的速度运行。此外,基于 API 的商业模型依赖于稳定的互联网连接,这在移动车辆中可能不可靠。相反,本地部署受到有限计算能力和能耗的限制,进一步限制了其实用性。
B. 输入和输出令牌数
我们使用每个模型提供的官方说明来计算每帧的输入和输出令牌的平均数量。如表 I 所示,输入令牌的数量明显高于输出令牌,通常约为 6000 个输入令牌,而输出令牌大约为 300 个。这与预期一致,因为输入包括图像数据,而输出仅是文本。
然而,也有一些例外情况。LLaMA 模型报告的每帧输入令牌只有约 1000 个。经过进一步调查,我们发现官方的 LLaMA 令牌计数方法排除了图像令牌,只计算了文本。

尽管进行了大量努力,我们仍无法找到一种可靠的方法来准确估计与图像相关的令牌;因此,我们展示了官方方法提供的结果。
此外,Gemini-2.5-Pro 的令牌计数在输入和输出令牌的计算中显然存在错误,因为它们的结果与同类模型显著偏离。值得注意的是,使用相同的令牌计数设置计算的 Gemini-2.0-Flash 产生了合理且一致的结果,表明这是 Gemini-2.5-Pro 特有的问题,需要纠正。
C. 成本
成本部分仅适用于商业 API。为了确保准确测量和报告,账单历史记录与官方定价表交叉核对,基于输入和输出令牌的使用量。为清晰起见,表 I 中显示的所有结果均以每帧美分表示。
Gemini-2.0-Flash 是最便宜的,仅为 0.07 美分,使其成本可以忽略不计。GPT-4o 和 GPT-4.1 的成本相似,约为 1.3 美分。Claude-3.7-Sonnet 明显比 Claude-3.5-Sonnet 更昂贵,并且比 GPT 模型更贵。由于 Gemini-2.5-Pro 的令牌计算不准确,精确估算很困难。因此,此处报告的值仅基于运行模型后的账单历史记录。
D. 响应错误
在最终模型输出阶段,我们观察到了多种响应格式错误。虽然我们提示 VLM 严格返回格式为 的输出而不添加其他文本,但我们偶尔会遇到括号或逗号缺失、额外解释或标点符号以及列表长度不正确等偏差。具体的示例在此处省略,但可在我们的 GitHub 存储库中找到。
如表 II 所示,Qwen-2.5-72B 的错误率最高,达到 62.9%,而其基本版本 Qwen-2.5-7B 则没有错误。GPT-4.1 的错误率也较高,为 28.9%,而 GPT-4o 的错误率为 7.8%。其余模型表现可靠,错误率要么为零,要么低于 1%。
我们认为,在所有模型都使用相同提示和工作流程的情况下,这些随机故障反映了固有的模型限制,而不是我们框架中的系统性缺陷。虽然许多格式错误可以通过后处理、附加提示或其他增强技术缓解,但我们的目标是评估而非优化单个模型性能。因此,我们保持一致的实验设计,并报告观察到的错误率而不进行修改。
E. 预测准确性
预测准确性遵循 nuScenes 预测任务中采用的标准评估方法,报告 1 秒、2 秒和 3 秒间隔的 L2 损失及其平均值。由于响应错误,每个模型对原始帧的不同子集生成预测。为了确保公平比较,如果任何模型未能为某帧生成有效预测,则所有模型都将该帧从评估中排除。由于 Qwen-2.5-72B 和 GPT-4.1 的失败率特别高,我们完全排除这两个模型,以便保留足够大的帧集。最终,这种过滤导致原始 3908 帧中有 3506 帧被保留,占 90%。
L2 损失结果汇总见表 II。为了简化分析并便于比较,我们的分析主要关注平均 L2 损失(单位:米);总体而言,GPT-4o 表现最佳,平均 L2 损失为 1.07 米,紧随其后的是 Claude-3.5-Sonnet 和 Claude-3.7-Sonnet,其结果仅稍差。Gemini 模型的表现相对较差;特别是 Gemini-2.5-Pro 的表现明显逊色于 Gemini-2.0-Flash。总体而言,开源模型的表现不如商业模型,其中两个 DeepSeek 模型表现最差。
F. L2 损失基线
虽然 L2 损失提供了一种直接的方法来评估模型预测性能,但它可能无法完全捕捉驾驶场景的复杂性。为缓解这个问题,我们引入了一个简单但有效的基线:将最新的 AV 动作不变地扩展三秒。然后通过计算这些恒定动作生成的轨迹与真实轨迹之间的 L2 损失来评估它们。
我们的结果显示,这个简单的基线实现了 1.10 米的平均 L2 损失,接近 GPT-4o(1.07 米)和 Claude 3.7-Sonnet(1.09 米)的最佳 VLM 结果,并显著优于许多其他模型。这一比较突出了当前零样本 VLM 方法在轨迹规划任务中的局限性,表明现有模型可能难以充分处理驾驶特定的复杂性。因此,它强调了需要有针对性的改进,例如设计专门针对驾驶环境的 VLM 架构,或使用特定领域的驾驶数据集对模型进行微调。
尽管在轨迹预测任务中 L2 损失结果次优,重要的是要承认 VLMs 经常表现出有意义的驾驶智能,并且经常以不同于简单基线的方式行为——尽管不一定更好。我们将在下一节进一步探讨这一点。
案例分析

本节讨论了六个代表性场景,如图 2 所示。由于可用帧数众多,这些示例经过精心挑选以突出典型行为,而非提供详尽分析。每张图比较了 VLM 预测的轨迹与真实轨迹,作为说明性示例而非精确模型输出。详细的推理过程、轨迹生成逻辑和识别出的失败模式如下所述。
案例 1:历史动作导致的轨迹偏差
图 2.1 展示了一个真实轨迹为直行的场景,但预测轨迹错误地显示了一个强烈的右转,未能识别右侧的障碍物。尽管最初看起来反直觉,这种行为在所有模型中都一致观察到。发生这种情况是因为 AV 刚刚在此帧之前的交叉口完成了右转。因此,历史动作反映了明显的右转曲率。然而,VLM 仅基于当前前视图像难以识别更新的道路状况,错误地将先前的转向行为投射到未来。值得注意的是,在车辆重新开始直行后不久,模型正确调整并开始预测直线轨迹。这类错误在模型中普遍存在且频繁发生,不仅出现在右转时,左转时也类似。
案例 2:视觉提示提供的上下文不足
图 2.2 展示了另一个所有模型均失败的场景。在这种情况下,真实轨迹涉及左转,但所有模型错误预测继续直行。尽管该场景本质上具有挑战性——给定路面没有明确的左转标记或专用交通灯——但仍存在隐含指示。例如,AV 占据最左侧车道,而相邻右侧车道的车辆位置表明将继续直行。要可靠地克服此问题,模型可以结合额外的上下文信息,例如明确的导航指令清楚表明在交叉口左转。
案例 3 和 4:对停止信号的不同响应
图 2.3 展示了一个突出 VLM 响应差异的场景。在这种情况下,AV 缓慢接近由红灯控制的交叉口中的静止车辆。真实轨迹展示了 AV 平稳渐进减速直至完全停在前方车辆后的过程。然而,VLM 的预测分为两个不同类别,均未准确复制真实行为。
第一类通常包括 L2 损失相对较低的模型。这些模型能够正确识别红灯和前方静止车辆的存在,这反映在其场景描述中。然而,它们预测立即且突然的制动操作,而不是现实中观察到的受控渐进减速。这一行为表明,虽然这些模型能有效识别关键视觉提示并将它们与适当的驾驶行为关联,但缺乏仅基于视觉输入的细微空间推理能力。因此,它们的响应看起来是事件触发的——瞬间对红灯等视觉信号作出反应——而不是展示对发展场景的全面理解。
第二类包括通常具有较高 L2 损失的模型。这些模型错误预测 AV 将无视静止车辆和红灯继续通过交叉口而不减速或停车。此类预测揭示了模型在解释关键视觉提示并将其适当链接到驾驶行为方面的能力根本性不足,突显了进一步改进的重大机会。
图 2.4 中观察到了类似的模式。这里的真实行为再次涉及 AV 接近红灯控制的交叉口,此时行人正在过马路。VLM 的预测要么预期一个紧急急停,即使前方有足够的距离,要么完全忽略行人和红灯,预测 AV 将保持速度通过而不减速。
案例 5:对通行信号的不同响应
图 2.5 描绘了一个 AV 初始处于静止状态,在交通灯控制的交叉口等待的场景。当交通信号从红变绿时,真实行为涉及 AV 迅速启动加速并平稳通过交叉口。L2 损失较低的模型密切复制了这一行为,准确识别绿灯作为前进的明确指示,并相应预测适当的加速轨迹。相反,L2 损失较高的模型保持静止,未能建立绿灯与加速动作之间的关键联系。它们的响应与我们简单的恒定动作基线无法区分,突显其无法有效解释动态视觉提示以启动适当的车辆移动。
案例 6:冲突视觉提示和模型响应
最后一个示例,如图 2.6 所示,呈现了一个有趣的场景,即使表现出低 L2 损失的模型也表现出不同的行为。类似于图 2.5 中的情况,交通信号刚刚从红变绿。一组模型注意到绿灯并预测立即加速,忽视前方车辆。相反,另一组模型准确识别冲突提示——承认尽管有绿灯,但由于阻碍车辆的存在,AV 必须保持静止。此场景进一步扩展了图 2.5 的观察结果,突显不同 VLM 在面对冲突视觉信息时的响应方式。
此外,VLM 的此类不同响应突出了应用于自动驾驶任务时其决策过程的固有不稳定性。这些不一致性可能直接导致危险情况,如意外加速或碰撞风险,强调需要强大的安全机制或防护措施。
结论
在本研究中,我们介绍了 LightEMMA,这是一个轻量级的端到端自动驾驶框架,专门设计用于集成最新的视觉-语言模型(VLM)。通过采用链式思考(Chain-of-Thought)提示策略,我们展示了 VLM 有时能够准确解释复杂的驾驶场景并生成智能响应。值得注意的是,LightEMMA 主要作为一个易于访问的基准,而不是针对特定 VLM 的性能优化。
通过 nuScenes 预测任务进行的系统评估涵盖了多个维度,包括计算效率、硬件需求和 API 成本。使用 L2 损失的定量分析突显了当前 VLM 预测的局限性,并强调了仅依赖这一指标的不足。定性分析进一步识别了一些常见缺陷,包括对历史轨迹数据的过度依赖、有限的空间感知能力和反应性的决策行为。
因此,未来的研究应重点关注开发特定于驾驶场景的模型,或使用特定领域的数据集对现有 VLM 进行微调,因为目前商业 VLM 相较于开源替代方案具有明显优势。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com