用多模态LLM做自动驾驶决策器,可解释性有了!比纯端到端更擅长处理特殊场景,来自商汤...

商汤科技的DriveMLM模型在自动驾驶领域取得突破,通过多模态大模型进行决策,不仅在闭环测试中表现出优于模块化和端到端方案的效果,而且提供了驾驶决策的可解释性。该模型能够处理复杂场景,如紧急车辆让行和乘客需求,有望推动自动驾驶系统的安全性和透明度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

丰色 曹原 发自 凹非寺
量子位 | 公众号 QbitAI

用多模态大模型做自动驾驶的决策器,效果居然这么好?

来自商汤的最新自动驾驶大模型DriveMLM,直接在闭环测试最权威榜单CARLA上取得了SOTA成绩——

跑分比基线Apollo还要高4.7,令一众传统模块化和端到端方法全都黯然失色。

0a70e9970e8c03dc36ba77e8ad87717a.png

对于该模型,我们只需将图像、激光雷达信息、交通规则甚至是乘客需求“一股脑”丢给它,它就能给出驾驶方案——直接能够控制车辆的那种,并告诉你为什么要这么开。

a20d0e303684ce414b5b54ac1d0fc138.png

这不仅让驾驶逻辑可控、过程具备可解释性,且更擅长解决特殊和复杂情况

像什么给紧急车辆让行?小case:

c33bb44356b4207e4cdcee17c0b72fa4.png

你说你着急能不能超车?它也能灵活处理(a为超车成功,b为车道不空,拒绝超车):

1f615408ee8e2e9bb86d1cec87cc0e26.png

简直不要太惊艳~

具体怎么实现,我们扒开论文来看。

多模态LLM破解自动驾驶难题

目前,自动驾驶系统主要有两种方案,模块化端到端

模块化方案顾名思义,把自动驾驶任务拆解为感知定位规控三个模块,各模块各自完成任务,最后输出车辆控制信号。

c74d4c42c22973ff1ee38f240f783823.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值