它开源了！端到端自动驾驶多模态模型OpenEMMA

最新推荐文章于 2025-04-04 09:44:27 发布

大靠山

最新推荐文章于 2025-04-04 09:44:27 发布

阅读量1.6k

点赞数 31

文章标签：自动驾驶人工智能机器学习 embedding 深度学习 prompt

本文链接：https://blog.csdn.net/m0_59235245/article/details/145041612

版权

随着多模态大语言模型（MLLMs）的出现，它们在许多现实应用中都带来了巨大影响，特别是在自动驾驶领域。因为它们能够处理复杂的视觉数据并对驾驶场景进行深入的推理，这为端到端自动驾驶系统开创了新局面。不过，目前开发端到端自动驾驶模型的进展较为缓慢，原因是现有的微调方法需要大量资源，包括强大的计算能力、大规模数据集以及可观的资金投入。

受近期推理计算技术进步的启发，德克萨斯农工大学提出了OpenEMMA，一个基于 MLLMs 的开源端到端框架。通过引入“思维链”（Chain-of-Thought）推理过程，OpenEMMA 相较于基线模型表现出显著提升。**OpenEMMA是《**Waymo 的端到端自动驾驶多模态模型 (EMMA)》的开源实现，为自动驾驶汽车的运动规划提供了端到端框架。同时，它在各种复杂的驾驶场景中表现出了高效性、适应性和稳定性，为自动驾驶提供了一种更高效、更可靠的解决方案。（链接在文章底部）

01 技术原理

EMMA 由 Google 开发的多模态大语言模型 Gemini 提供支持，它采用统一的端到端训练模型，直接从传感器数据生成自动驾驶车辆的未来轨迹。为了适应自动驾驶的需求，EMMA 专门进行了训练和微调，并充分利用 Gemini 广博的世界知识，更好地理解道路上的复杂场景。

为了解决像 EMMA 这样的闭源模型的局限性，旨在使用公开可用的工具和模型复制 EMMA 的核心功能。OpenEMMA 的目标是将这些技术进步民主化，为更广泛的研究和开发提供平台。与 EMMA 类似，OpenEMMA 以前置摄像头图像和车辆历史状态的文本输入为基础，将驾驶任务设计为视觉问答（Visual Question Answering, VQA）问题，同时采用思维链推理指导模型生成关于关键目标、行为洞察和驾驶决策的详细描述。这些决策由模型直接推断，为路径点生成提供必要的上下文信息。

为应对多模态大模型（MLLMs）在目标检测任务中的已知局限性，OpenEMMA 集成了一版专为自动驾驶场景优化的 YOLO 模型，用于 3D 边界框预测，从而显著提高检测精度。此外，借助多模态大模型的现有世界知识，OpenEMMA 能够为场景理解等感知任务生成可解释的、易于人类阅读的输出，进一步提升透明度和可用性。

02 演示效果

OpenEMMA在低光夜间条件下的性能。虽然OpenEMMA在这种具有挑战性的环境中偶尔可能会错过某些物体的检测，但它成功识别并检测到了对安全导航至关重要的关键物体。此外，它准确理解自车正在向左车道转换，并生成了精准的轨迹规划以有效适应这一操作。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述