自动驾驶:10家端到端方案简述

自动驾驶:10家端到端方案简述

基于今年发布的各类端到端智能驾驶方案,RoboX根据过往采访内容以及公开信息,高度概括出10家企业的端到端方案结构,以及相关负责人的观点,便于大家快速达成基本认知:

附赠自动驾驶最全的学习资料和量产经验:链接

01

理想汽车

**概述:**理想采用了「双系统」端到端——端到端「快系统」+VLM「慢系统」(视觉语言模型)。

其中,「快系统」负责实时响应、输出行为,「慢系统」则负责应对复杂逻辑判断,输出决策和参考轨迹。

image

理想汽车智能驾驶技术研发负责人-贾鹏

“如果未来算力足够,VLM有望跑进10-20赫兹,达到实时。随着Thor等大算力芯片的到来,两个系统最终会合成一个统一的模型,而且兜底策略可能也会被VLM消化掉。”

02

蔚来汽车

**概述:**基于群体智能和生成式仿真,训练蔚来世界模型NWM,并基于该模型的时空认知和规划能力,进行端到端智能驾驶。

image

蔚来智能驾驶研发副总裁-任少卿

“因为需要重建视频,接入信息也会更多,这使得NWM的收敛速度更快,想象的能力也会更强。同时,相比于之前的算法,NWM生成的视频长度会长很多。”

03

小鹏汽车

**概述:**小鹏的端到端智驾大模型包含:神经网络XNet(感知)、规控大模型XPlanner(决策控制)以及大语言模型XBrain(与用户交互)。其端到端方案也是fen分段式结构。

小鹏汽车董事长-何小鹏:

在Q2财报电话会上,何小鹏认为端到端的进步速度,会快速替代之前的L3甚至L4级自动驾驶,上限很高。但他同时认为端到端的下限还存在瓶颈,例如转角遇到流浪猫的特殊场景,端到端或许无法解决。

04

华为乾崑

概述:华为ADS 3.0进一步去掉了BEV网络,以GOD(通用障碍物识别)大模型负责感知,PDP(预测决策规控)网络负责预决策和规划,可实现「从原始信号输入到最终规划轨迹输出」的自动化过程,但同样是「分段式端到端」。

05

极氪汽车

**概述:**极氪的「浩瀚智驾2.0」由两个子系统组成,其中包括了两个自研的智驾大模型——场景认知大模型SCM + 规控大模型IPM,它们分别实现「感知端到端」和「规控端到端」。目前可以实现的是泊车场景端到端、路口场景端到端。

image

极氪智能科技副总裁-陈奇

“「浩瀚智驾2.0」可大大提升复杂场景下的表现,也可以学习人类驾驶轨迹、变道时机等。接下来,极氪将分三个阶段实现实现「车位到车位全场景城市智驾」:从城市NZP通勤模式,到城市NZP,再到城市NZP+。”

06

长城汽车

**概述:**在采用端到端智驾大模型——SEE 2.0的同时,长城也做了多层兜底——通过数据共享和交换机制,该方案既要用一个感知模型替代多个模型,又要加上后处理的仲裁。以求既能直接输出驾驶轨迹,又能为感知加上模块化的决策规划,以此保证智能驾驶的拟人化和安全。

image

长城汽车智能平台开发中心的专家-吴国苏州:

“以当前的技术状态来说,谁也没办法达成完全端到端,更无法实现‘所有场景都能开’,所以将两种技术结合起来,是现阶段的比较好的方案。”

07

商汤绝影

**概述:**商汤绝影采用的是「完全端到端」方案UniAD——将感知、决策、规划等模块都整合到一个全栈Transformer端到端模型中,实现由传感器输入,直接输出行为轨迹。现阶段,该方案还需要规则兜底,而随着大模型的强化,亦有望舍弃规则。

未来,基于多模态大模型打造的DriveAGI将是可解释、可交互的下一代智驾方案。

image

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁-王晓刚

“「两段式」方案还是存在性能瓶颈的,因为其经过感知过滤后的信息,会出现较多损失。不过目前,一段式端到端还像一个孩子,需要规则兜底来帮扶一段时间,使其迭代;但这个孩子再怎么不成熟,也是属于人类,终究会成长起来。”

08

地平线

**概述:**地平线的SuperDrive采用了动态、静态、OCC「三合一的端到端感知架构」,该架构能够同时处理动态、静态目标,精准还原物理世界的真实环境。SuperDrive无需对感知数据进行抽象和逐级传递,提升了系统的遮挡准召率和降低了动态代码行数及网络负载。

09

Nullmax

**概述:**多模态大模型+「安全类脑」技术:通过多模态大模型,端到端系统可以根据理解来输出轨迹,并对其合理性进行一级仲裁;「安全类脑」则具备天然避障能力,可对多模态模型的控制输出进行二级仲裁,相当于监督功能。

image

Nullmax创始人、CEO、CTO -徐雷

“之所以采用两个安全模块(一级仲裁+二级仲裁),是因为我们很难保证对规则的考虑都是全面的——不管是一段式端到端,还是模块化的端到端,都要基于感知结果设计规则,而感知的准确性不可能100%准确,并且终究会有一些规则是我们没有想到的。”

10

鉴智机器人

**概述:**鉴智机器人采用了端到端神经网络Agent——GraphAD,该范式将图模型思想引入motion和planning等任务中,对驾驶环境中的交互场景元素(Interaction Scene Graph,ISG)进行显性建模,使得学习和训练效率更强。目前,该方案已经部署到量产车载计算平台上。

image

鉴智机器人联合创始人、CTO都大龙:

“我们将真实世界的信息压缩成一个生成式模型,同时要不断对其进行几个层面的优化:包括真实度、可控度以及可交互度,使其无限逼近真实世界。

  • 19
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值