用多模态LLM做自动驾驶决策器，可解释性有了！比纯端到端更擅长处理特殊场景，来自商汤...

QbitAl

于 2024-01-10 17:31:15 发布

阅读量1.1k

点赞数 15

文章标签：自动驾驶人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QbitAI/article/details/135516623

版权

商汤科技的DriveMLM模型在自动驾驶领域取得突破，通过多模态大模型进行决策，不仅在闭环测试中表现出优于模块化和端到端方案的效果，而且提供了驾驶决策的可解释性。该模型能够处理复杂场景，如紧急车辆让行和乘客需求，有望推动自动驾驶系统的安全性和透明度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

丰色曹原发自凹非寺
量子位 | 公众号 QbitAI

用多模态大模型做自动驾驶的决策器，效果居然这么好？

来自商汤的最新自动驾驶大模型DriveMLM，直接在闭环测试最权威榜单CARLA上取得了SOTA成绩——

跑分比基线Apollo还要高4.7，令一众传统模块化和端到端方法全都黯然失色。

对于该模型，我们只需将图像、激光雷达信息、交通规则甚至是乘客需求“一股脑”丢给它，它就能给出驾驶方案——直接能够控制车辆的那种，并告诉你为什么要这么开。

这不仅让驾驶逻辑可控、过程具备可解释性，且更擅长解决特殊和复杂情况。

像什么给紧急车辆让行？小case：

你说你着急能不能超车？它也能灵活处理（a为超车成功，b为车道不空，拒绝超车）：

简直不要太惊艳～

具体怎么实现，我们扒开论文来看。

多模态LLM破解自动驾驶难题

目前，自动驾驶系统主要有两种方案，模块化和端到端。

模块化方案顾名思义，把自动驾驶任务拆解为感知、定位和规控三个模块，各模块各自完成任务，最后输出车辆控制信号。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。