作者 | 假熊猫 编辑 | 自动驾驶之心
原文链接:https://zhuanlan.zhihu.com/p/14415706721
点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
本文只做学术分享,如有侵权,联系删文
大家好!今天为大家带来一个自动驾驶领域的重磅消息:OpenEMMA,一个完全开源、端到端的多模态框架,正式发布啦!
这是我们团队在推动自动驾驶技术透明化和普惠化道路上的重要一步,希望通过开源化,赋能更多科研人员和开发者,共同推进这一领域的快速发展。在2024年十月底,谷歌的自动驾驶子公司Waymo发布了第一个基于纯视觉的自动驾驶端到端多模态大模型解决方案EMMA,其Blog如下图所示

我们团队于11月份正式开始计划来进行开源版本的复现,旨在让自动驾驶和交通社区都能用上开源的替代解决方案,推动自动驾驶开源化、透明化。于是呼,OpenEMMA正式诞生了!
什么是 OpenEMMA?OpenEMMA 是一个基于多模态大语言模型(MLLMs)的开源自动驾驶框架,灵感来自 Waymo 的 EMMA 系统。它支持从感知到规划的完整自动驾驶任务链,专为推动行业透明化和技术共享而打造。OpenEMMA 的亮点功能

链式推理(Chain-of-Thought Reasoning)
通过引入链式推理技术,OpenEMMA 让轨迹规划和决策过程更可解释,贴近人类逻辑思维。
增强的 3D 目标检测
集成微调后的 YOLO3D 模型,大幅提升目标检测精度,无论在城市街道还是复杂环境中表现出色。
强大的适应性和鲁棒性
从急转弯到低光环境,OpenEMMA 能轻松应对各种驾驶场景,确保稳定性与安全性。
结果和性能



视频例子
我们测试了OpenEMMA在真实数据集上视频序列上的效果,具体如下图所示
完全开源
框架、数据集、模型权重全都开源,致力于推动学术研究和产业开发的共同进步。为什么 OpenEMMA 很重要?在自动驾驶领域,技术的透明化和普惠化是加速行业发展的关键。OpenEMMA 不仅为开发者提供了一个高性能工具,还让更多人有机会参与其中,推动技术的落地应用。这是我们迈向更安全、更智能交通体系的重要一步!参与我们 | 一起让自动驾驶更安全我们希望 OpenEMMA 成为一个全球化的开源社区,任何意见、建议或者贡献都是极为宝贵的!目前框架还处于初期阶段,我们期待和全世界的开发者、学者们一起完善它。如果你对自动驾驶感兴趣,欢迎 DM 或留言加入我们的社区!
论文链接:arxiv.org/abs/2412.15208
开源地址:https://github.com/taco-group/OpenEMMA
让我们共同推动自动驾驶的未来发展吧!
① 2025中国国际新能源技术展会
自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵