论文精读系列2：EMMA: End-to-End Multimodal Model for Autonomous Driving

匆匆那年改了名字

已于 2024-11-25 23:42:25 修改

阅读量1.7k

点赞数 16

分类专栏：论文精读大模型论文精读文章标签：人工智能自动驾驶

于 2024-11-25 23:40:42 首次发布

本文链接：https://blog.csdn.net/congcongnanian97/article/details/144043650

版权

论文：https://arxiv.org/pdf/2410.23262（waymo，自认为该开启了通过大模型输出自动驾驶轨迹和各种任务的“大模型范式”）

参考资料：https://zhuanlan.zhihu.com/p/4667962901（该文章很深入，在梳理论文时有许多参考该文章思考的地方）

尽量让模型寻找隐空间里不易被人类捕捉到的规则

局限：

（1）不能将相机与LIDAR或radar融合，3D空间推理有限；（2）sensor simulation来促进其闭环评估；（3）相较于传统model要更大的计算能力

1.整体框架：

输入：（1）视觉（环视图像）；（2）高维指令，如google地图的导航指令，"前方请在第二个匝道右转出匝道这种指令"；（3）自车的历史轨迹等状态

输出：模型在预测轨迹之前解释其基本原理，通过思维链COT推理增强了模型的性能和可解释性。模型还预测关键对象的准确 3D/BEV 位置，如图中下面模型的三个附加功能

2.Method

O是T和V输入给G后的自然语言输出，接下里详细看下论文中这三个都表示什么：

（1）V：Surround-view camera videos提供复杂的环境信息

（2）T：分成Tintent和Tego

Tintent：高维的意图指令，如直行、左转、右转等

Tego：自车的历史轨迹，BEV下一系列的坐标点，坐标为纯文本形式。也可以扩展更高阶的速度和加速度

（3）O：用一系列在BEV空间下的轨迹点表示

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

匆匆那年改了名字

关注关注

16
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

论文中文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别

mengmeng19870109的博客

01-14

1725

论文解读 End-to-End Multimodal Emotion Recognition using Deep Neural Networks 基于深度神经网络的端到端多模态情感识别摘要：我们提出了一种使用听觉和视觉方式的情绪识别系统。我们利用卷积神经网络（CNN）从语音中提取特征，而对于视觉模态，则使用50层的深度残差网络（ResNet）。其中特征提取要鲁棒，机器学习算法要对异常值不敏感，同时能够对上下文进行建模。利用了长期短期记忆（LSTM）网络。通过利用每个流的相关性，以端到端的方式对系统进行训

大模型GUI系列论文阅读 DAY3续2：《WebVoyager : Building an End-to-End Web Agent with Large Multimodal Models》

feifeikon的博客

01-21

1300

近年来，大型语言模型（LLMs）的快速发展，如 ChatGPT 和 GPT-4（OpenAI，2023），激发了人们对基于 LLM 的自主代理（AutoGPT，2022）在复杂任务执行方面的极大兴趣（Qin 等, 2023；目前，大型多模态模型（LMMs），尤其是 GPT-4V(ision)（OpenAI，2023）和 Gemini（Team 等, 2023），表现出卓越的能力，能够整合复杂的视觉线索与文本信息。类似于人类浏览网页的方式，我们的代理将网页的视觉信息（截图）作为主要输入来源。

参与评论您还未登录，请先登录后发表或查看评论

【Waymo最新端到端】EMMA:多模态端到端网络

自动驾驶小白说

11-08

1758

EMMA，是一种创新的自动驾驶模型，旨在通过端到端的方法直接从原始摄像头传感器数据映射到驾驶特定的输出。EMMA的核心目标是实现一个统一的模型框架，能够处理多种驾驶任务，包括规划轨迹、感知目标和道路图元素等。这种方法最大化了预训练大型语言模型的世界知识效用，通过将所有非传感器输入和输出表示为自然语言文本，允许EMMA在统一的语言空间中联合处理各种驾驶任务，并使用任务特定的提示为每个任务生成输出。

EMMA：自动驾驶的端到端多模态模型

yorkhunter的博客

12-29

1448

2024年11月来自waymo的论文“EMMA: End-to-End Multimodal Model for Autonomous Driving”。 EMMA，一种用于自动驾驶的端到端多模态模型。EMMA 建立在多模态大语言模型基础上，将原始摄像头传感器数据直接映射到各种驾驶特定输出，包括规划器轨迹、感知目标和道路图元素。EMMA 通过将所有非传感器输入（例如导航指令和自车状态）和输出（例如轨迹和 3D 位置）表示为自然语言文本，最大限度地利用来自预训练大语言模型的世界知识。

Waymo的EMMA给多模态端到端自驾指引了方向

周博洋的博客

11-02

1052

最近Waymo发的论请问你EMMA端到端确实在自动驾驶届引发了很大的关注，核心的原因是它采用的端到端模型是基于Gemini Nano的语言模型，目前看现在做端到端方案的，就它和特斯拉是语言模型为底座来实现多模态视觉输入的。端到端多模态自动驾驶的意思，不是艾玛电动车论文地址：2410.23262先看看他是怎么做的第一：感知层面，它纯视觉，没有雷达之类的输入。

2024自动驾驶(多模态)大模型综述：从DriveGPT4、DriveMLM到DriveVLM、DriveMM

热门推荐

结构之法算法之道

08-12

1万+

本文主要涉及以下4篇paper的解读(按发表的时间顺序排列) DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving DriveLM: Driving with Graph Visual

Waymo玩明白了！全新多模态端到端算法EMMA：规划、感知、静态元素一网打尽~

CV_Autobot的博客

11-01

1722

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线今天自动驾驶之心为大家分享Waymo最新的多模态端到端自动驾驶工作EMMA！如果您有相关工作需要分享，请在文末联系我们！自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询>>点击进入→自动驾驶之心『多模态大模型』技术交流群论文作者| Jyh-Jing Hwan...

【论文速看】DL最新进展20241102-自动驾驶、语义补全、医学图像

qq_40734883的博客

11-02

1344

【论文速看】DL最新进展20241102-自动驾驶、语义补全、医学图像

Waymo玩明白了！全新多模态端到端算法EMMA：感知规划一网打尽~

CV_Autobot的博客

11-14

574

DriveMM： All-in-One Large Multimodal Model for Autonomous Driving

Miracle8070

01-19

1989

多模态模型(LMM)结合大语言模型(LMM)，在自动驾驶(AutonomousDriving,AD)领域展现出色的理解和解释能力。但是当前数据驱动的AD方法往往集中在单个数据集和特定任务上，忽视整体和泛化能力。为了弥补这些差距，本文提出了提出了一体化LMM，DriveMM，一个通用的大型多模态模型，该模型接收多样化的数据输入，例如图像和多视角视频，旨在有效处理AD中的各种驾驶场景和任务，比如感知、预测和规划等。

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

01-31

DeepSeek-VL2是一种先进的混合专家视觉语言模型系列，旨在实现高级多模态理解。这些模型通过两个主要的升级，大幅度改进了其前身DeepSeek-VL。在视觉组件方面，DeepSeek-VL2采用了一种动态拼贴视觉编码策略，该策略...

【论文笔记】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

weixin_45657478的博客

05-11

795

【论文笔记】HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras

OpenEMMA：用于端到端自动驾驶的开源多模态模型

yorkhunter的博客

12-29

1291

24年12月来自Texas A&M、密歇根大学和多伦多大学的论文“OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving”。

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving （TransFuser）论文笔记

weixin_45657478的博客

08-14

1704

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving （端到端自动驾驶的多模态融合transformer）论文笔记

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving

baidu_41890159的博客

09-29

931

自动驾驶中应该如何整合来自补充传感器的表示？基于几何的传感器融合在感知任务，如目标检测和运动预测方面显示出巨大前景。然而，对于实际驾驶任务来说，3D场景的全局上下文是关键的，例如，交通灯状态的变化可能会影响几何上远离该交通灯的车辆的行为。因此，几何本身可能不足以在端到端驾驶模型中有效地融合表示。在这项工作中，我们展示了基于现有传感器融合方法的模仿学习策略在面对高密度动态代理和复杂场景时表现不佳，这些场景需要全局上下文推理，例如处理来自多个方向的未受控交叉路口的交通。

一文了解 CVPR 2023 的Workshop 都要做什么

我爱计算机视觉

03-16

2168

关注公众号，发现CV技术之美Vancouver Canada（CVPR 2023 举办地）01Face&gestures5th Workshop and Competition on Affective Behavior Analysis in-the-wild网址：https://ibug.doc.ic.ac.uk/resources/cvpr-2023-5th-abaw/主旨：探讨情感...

【深度】最新万字综述自动驾驶，深度解构核心技术！

九三智能控

05-03

3040

关注：决策智能与机器学习，深耕AI脱水干货作者|于凡来源 |知乎专栏-无人驾驶编辑 | 九三山人编者按：本文主要讨论ADS（Autonomous Driving System）的...

最新！CVPR 2021 视觉Transformer论文大盘点（43篇）

阿木寺的博客

05-31

7918

点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达作者：Amusi | 来源：CVer前言从2020下半年开始，特别是2021上半年，Visual Transform...

STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification