理想用端到端一夜改写智驾排名:半年全切换,全场景无图自己开

作者 | 贾浩楠  编辑 | 智能车参考

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心端到端自动驾驶技术交流群

本文只做学术分享,如有侵权,联系删文

一夜间,理想也端到端了。

智能车参考获悉,本月理想完全自研的端到端智驾系统,已完成千人内测。

顺利的话,不用等到年底就会全面覆盖所有MAX车型用户。

59535c89732a7cba215c5419542129f5.png

这是理想第一次公开端到端上车进展,从之前尾随追赶华为、小鹏,一举实现齐头并进,效率惊人。

技术上还更加纯粹:One Model,没有任何对旧技术体系的妥协或改良。

更加惊人的是,理想自动驾驶研发一号位郎咸朋告诉我们,整个技术路线的切换、上车验证、量产准备,只用了半年时间

能用吗?敢用吗?智能车参考率先替大家体验了一番。

理想做出了什么样的端到端

在体验之前,理想智驾产品经理特意向我们介绍了测试路线的“含金量”:

路线是选定好的,围绕理想位于北京顺义的研发中心,全程20多公里大约40分钟。

远离市中心但工厂企业很多,晚高峰仍然拥堵。城市、乡村、人车混行等等场景都有,完全真实。

虽然路线选定,但场景下变量随机。

整体体验下来,顺义路况还是比北京市区轻松得多,没有严重的堵车、加塞,车道线清晰度和路面宽度也比市区好得多:

9ff98bccb00e3b81a366adeb86d8b9d6.gif

良好路况下理想端到端的体验,几乎和智能车参考前两天为大家介绍的理想6.0“无图NOA”,没有太大区别。

但在特定的复杂工况和博弈场景下,端到端优势就十分明显了。

比如在一个左转路口,旁车道的车突然抢跑别车:

873b0ef544670e27b46aa07bad944c4a.gif

理想端到端系统,采取了快打方向、紧急避险动作,而不是突然刹停提示接管。

“避让”显然是比“刹停退出”更安全、更负责任的行为,而且也符合人类司机在相同情况下的会采取的行动。

再比如,路上我们遇到了一辆停在路上下客的公交车,而同时,对向车道又有一辆驶来的大卡车。

理想端到端给我们秀了一把“艺高人胆大”,直接在两个大车夹缝中完成了一次极限穿越

54833eb0499598bbe2241bcc9600ca77.gif

对于可通行空间的精准判断和车控的细腻程度,已经超越了人类老司机。

但这样的策略是否必要?会不会给用户带来不必要的心理压力?可能还需要再斟酌讨论。

理想的解释是,现在的端到端还在测试,驾驶行为的偏好取向还要更多数据和测试反馈来决定,不代表量产实际情况。

第三个让人印象深刻的场景,是在一条主干道和乡村小路的右转博弈:

a7d124e915138876fd0d0d66a917a38c.gif

挑战是多方面的,首先这是个直角弯,对于大型SUV来说操作空间十分有限。其次路面有很大的坡度,车辆俯仰会影响传感器的朝向和数据质量。

最困难的还是同时和两轮车、三轮车、货车、行人等等目标的博弈:

c9e9daa7b868956d86d03c3e4d6463b6.gif

整个过程沉着冷静,没有任何多余的刹车、加速或是方向调整。

理想特别强调了“拟人”的优势:没用端到端的智驾,也有概率能通过,但博弈过程可能是“前倨后恭”,想过又不敢过,整个过程反复刹车、提速。

最后再来看一个十分有趣的场景。

路过学校时,理想同学会给用户播报“现在路过学校,速度降至XX”。类似的,对于路上可能会影响驾驶行为的突发事件,理想同学现在都会播报。

3a9dd5172380f5617498301f170460c2.jpeg

难道是背后用高精地图开天眼?

NoNoNo,这其实是理想端到端智驾的独特优势:

车端2个系统,一个是端到端AI司机,另一个是视觉语言模型VLM

端到端负责感知、决策、规划,是AI司机的主体。并且理想端到端不同于华为、小鹏,采用更直接的One Model结构,不分层

输入传感器数据,直接输出自车行驶轨迹。

One Model典型玩家是特斯拉,国内的商汤绝影UniAD也选择了这条路线,同样也走到了量产前夜。

至于VLM,本质是一个多模态大模型,作用是智能驾驶“点读机”,哪里不会点哪里,利用大语言模型的认知能力理解场景,输出另外一条行驶轨迹给端到端模型参考修正。

1859a61e6dcaef4e23484abdd654de83.jpeg

为啥要这么做?理想解释因为端到端模型尽管直接学习人类成熟驾驶经验,但黑盒决策过程不为人知。对于目标的错检漏检,以及幻觉问题难以通过直接调参解决。

所以要加这么一个“点读机”,以及适当的强化学习手段来规范端到端模型的行为。

总结一下,理想用半年时间干出了这样一套即将量产的端到端智驾技术:

最大的不同点是没用国内主流的多段式结构,而是和特斯拉One Model一样一步到位,而且也是国内量产进度最快的。

但理想和特斯拉不同的点又在于,选择用语言模型为基础的多模态模型作为认知能力的补充,和小鹏、蔚来、商汤等等玩家相同。

以及还有一点,端到端模型参数量4-5亿,VLM总参数量22亿,完全能在现有Orin芯片的理想各个MAX车型上实现车端部署

理想怎么做端到端

简要的说,理想端到端“方法论”有三个组成部分:

一是找对老师,二是理顺架构,三是舍得砸钱。

理想自己形容新的智驾技术体系为一快、一慢

dc71ed8727d8c185ee469b83cbf82d86.jpeg

快的是端到端模型本身,应对实时驾驶任务;慢的则是VLM大模型,用来学习常识,应对未知路况,比如潮汐车道等等。

分别来自两个“老师”:端到端摸着特斯拉过河,VLM则取法谷歌机器人系统 RT-1 和 RT-2。

这是理想认为的现在最可行的端到端量产模式,集各家之长。

自己是“踩在巨人的肩膀上”,躲了前人掉过的坑,才能在半年内完成端到端技术切换和量产准备。

理想尤其强调了特斯拉的先驱作用,FSD在V12之后各个版本展现出的实力,和快速进步迭代的能力,让理想几乎没有什么犹豫,果断选择One Model路线。

更长远的影响,是特斯拉的数据理念,理想从2019年就开始实践了。

李想去年曾坦白在智驾方面投入不足:早期因为要活下去,而把主要资源投在了产品、制造、渠道等等方面,智驾研发长期都是拮据状态。

智驾一号位郎咸朋更详细地解释了一下:所谓“没资源”,主要是没有足够的预算挖人才搞算法

a46f2c6c81f26c4d349135c7da0e3532.jpeg

所以早期理想用Mobileye方案,后来又用地平线+三方供应商方案等等,那时的智驾团队更像是一个“甲方”或项目交付团队。

但在有限资源制约下,李想和郎咸朋依然达成共识:算法可以徐徐图之,但数据能力必须提前建立起来。

所以在2019年开始交付的第一代理想ONE,团队特意在Mobileye的传感器旁边多放了一个摄像头,用来收集和分析问题。相应的,完成了一整套数据采集、挖掘、标注、训练的工具链。

一个例子,郎咸朋透露目前理想智驾训练数据的人工标注占比,已经不到1%。每年节约大约三四百亿的成本(人工标注一帧约10元)。

数据积累和研发体系建设上很早,这是理想端到端“一夜间”上车交卷的核心。

1169a0e9e8971923d37dd6ac3ec4ac49.png

理顺架构始于去年下半年的理想战略会,明确研发和量产交付一起做,一个技术体系,无论是早期的NPN还是去年底推的无图NOA,研发团队都是先在封闭区域短时间做验证,一个区域跑通就立马往外扩,同步加上安全兜底策略。

随着测试范围扩大,理想会逐步加入用户测试,实际上此时研发团队的角色和交付团队重叠了。

舍得砸钱,郎咸朋说目前理想每年用在训练上的费用为10亿人民币,未来这个数字会上升到10亿美金。

所以10亿仅仅是入场券,企业有健康的营收利润,保持每年数十亿的持续投入,才是端到端出成果的前提——“幸好理想的业务十分健康”。

换句话说,车卖得多,钱也多,以及还有另一层优势:数据足够多

郎咸朋认为这是理想回应一切对于质疑的终极答案。

理想为什么要做

理想端到端有两个模型,所以现在出现两种质疑声音。

首先是融合图像、语言多数据类型的大模型,理想能不能做好?

之前有国内知名AI玩家质疑过车企或者纯自动驾驶团队,没有通用性大模型的落地实践经验,靠开源模型永远实现不了端到端自动驾驶的认知能力。

5953328c56b3f2f87a298add636670ff.jpeg

换句话说,除非你一直搞通用AI大模型,否则你就很难搞好那个端到端“点读机”。

把这个问题抛给理想,他们的回应是这样的:

对于垂类应用来说,通用AI领域的多模态模型借鉴意义没那么大,唯一相通的其实就只有预训练的部分。

但再往后怎么训练,怎么加自动驾驶的知识而还不影响大模型常识,我们更有优势。因为我们有足够多的数据。反而是他们可能有点天真了

第二种质疑,来自All in端到端的友商,同样被我们抛给理想智驾负责人。

刚刚布道完端到端的何小鹏提了两个观点,首先是端到端应该是渐进式的,一步跳到One Model不可靠,以及他还说“车多数据多,也不一定能做好”。

对于分段式和One Model之争,郎咸朋认为肯定是One Model更好,但理想的技术路线切换不存在什么“飞跃”,而是实践后得出的认知。

8d74076c4d82b7889ddaeceac23a4eb4.png

去年,理想先后验证了高速NOA的有图路线、NPN(地图先验信息)、通勤NOA,最后又改成现在6.0的无图NOA(BEV+Transformer),在一年时间内快速试错:

从高速NOA到城市NOA,发现高精度图依赖不得,于是决定走NPN线,只在复杂路口用地图先验信息。后来NPN百城推进过程中,又发现大量二三线小城,效果远不如北上广这样的一线城市,解决不了问题,于是开始探索彻底去图的方案。

6.0无图NOA就是在这样的背景下诞生的。其实和小鹏华为在推的“分段式”端到端一本质相同,也是感知、决策、规控几个模型串起来,各个模块采用数据驱动。

但无图NOA落地过程中,理想又发现了新的问题。那就是只要还有规则存在,就永远有不符合人类驾驶习惯风格的行为,在用户看来,就是“开得不好”。

这个时间节点是今年年初,理想内部迅速统一了认识:

只有One Model端到端才能完全按照人类的习惯去学习驾驶。

虽然有技术切换的成本,有组织管理上的代价,但对于理想来说是值得的,也能负担得起。

为什么要做端到端,为什么走了这么多弯路才开始做端到端,以及为什么能这么快出结果,理想和盘托出。

610af42176d76709baf975b2f7740b97.png

至于端到端是不是解决自动驾驶终极问题的灵丹妙药,理想和大部分从业者看法并不同。

理想认为,仅靠端到端实现不了无人驾驶,因为目前为止,端到端模型本身解决的还是corner case问题,只不过方式从以前的写规则变成了喂数据。

真正制约自动驾驶发展的,是模型的认知能力,是大模型本身的规模

所以理想认为,智驾未来的关键变量其实是算力,只有车端算力足够大,才能把大模型频率跑的足够高、延迟足够低。

一旦大模型的响应时延满足自动驾驶安全需要,端到端模型本身和“外挂”VLM模型会出现融合的趋势,理想现在已经在做相关预研工作…这是一条特斯拉也不曾探索过的路线。

未来终局会是什么样,中间又会有哪些变数?

现在下结论太早,最快也要到英伟达的1000TOPS“芯皇”Drive Thor量产上车,答案才会逐渐清晰。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

281e8801327533cfac40b9aa0756b907.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

de7c9dfb74b675630dd84676305feb1b.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

6b85dd9167ddecd4cd362aae07085ad7.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

12c1dca4c7d0e32e697d3147430df13b.jpeg

④【自动驾驶之心】全平台矩阵

8524ecf61326f4dcd804781e7b4074aa.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的发文档:每个资源包都附有详细的发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零始的发者也能逐步掌握项目发的过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零始构建一个完整的Web系统,并积累丰富的项目经验。
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的发文档:每个资源包都附有详细的发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零始的发者也能逐步掌握项目发的过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零始构建一个完整的Web系统,并积累丰富的项目经验。
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的发文档:每个资源包都附有详细的发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零始的发者也能逐步掌握项目发的过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零始构建一个完整的Web系统,并积累丰富的项目经验。
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的发文档:每个资源包都附有详细的发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零始的发者也能逐步掌握项目发的过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零始构建一个完整的Web系统,并积累丰富的项目经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值