丰色 曹原 发自 凹非寺
量子位 | 公众号 QbitAI
用多模态大模型做自动驾驶的决策器,效果居然这么好?
来自商汤的最新自动驾驶大模型DriveMLM,直接在闭环测试最权威榜单CARLA上取得了SOTA成绩——
跑分比基线Apollo还要高4.7,令一众传统模块化和端到端方法全都黯然失色。
对于该模型,我们只需将图像、激光雷达信息、交通规则甚至是乘客需求“一股脑”丢给它,它就能给出驾驶方案——直接能够控制车辆的那种,并告诉你为什么要这么开。
这不仅让驾驶逻辑可控、过程具备可解释性,且更擅长解决特殊和复杂情况。
像什么给紧急车辆让行?小case:
你说你着急能不能超车?它也能灵活处理(a为超车成功,b为车道不空,拒绝超车):
简直不要太惊艳~
具体怎么实现,我们扒开论文来看。
多模态LLM破解自动驾驶难题
目前,自动驾驶系统主要有两种方案,模块化和端到端。
模块化方案顾名思义,把自动驾驶任务拆解为感知、定位和规控三个模块,各模块各自完成任务,最后输出车辆控制信号。