理想用端到端一夜改写智驾排名：半年全切换，全场景无图自己开-CSDN博客

作者 | 贾浩楠编辑 | 智能车参考

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

本文只做学术分享，如有侵权，联系删文

一夜间，理想也端到端了。

智能车参考获悉，本月理想完全自研的端到端智驾系统，已完成千人内测。

顺利的话，不用等到年底就会全面覆盖所有MAX车型用户。

这是理想第一次公开端到端上车进展，从之前尾随追赶华为、小鹏，一举实现齐头并进，效率惊人。

技术上还更加纯粹：One Model，没有任何对旧技术体系的妥协或改良。

更加惊人的是，理想自动驾驶研发一号位郎咸朋告诉我们，整个技术路线的切换、上车验证、量产准备，只用了半年时间。

能用吗？敢用吗？智能车参考率先替大家体验了一番。

理想做出了什么样的端到端

在体验之前，理想智驾产品经理特意向我们介绍了测试路线的“含金量”：

路线是选定好的，围绕理想位于北京顺义的研发中心，全程20多公里大约40分钟。

远离市中心但工厂企业很多，晚高峰仍然拥堵。城市、乡村、人车混行等等场景都有，完全真实。

虽然路线选定，但场景下变量随机。

整体体验下来，顺义路况还是比北京市区轻松得多，没有严重的堵车、加塞，车道线清晰度和路面宽度也比市区好得多：

良好路况下理想端到端的体验，几乎和智能车参考前两天为大家介绍的理想6.0“无图NOA”，没有太大区别。

但在特定的复杂工况和博弈场景下，端到端优势就十分明显了。

比如在一个左转路口，旁车道的车突然抢跑别车：

理想端到端系统，采取了快打方向、紧急避险动作，而不是突然刹停提示接管。

“避让”显然是比“刹停退出”更安全、更负责任的行为，而且也符合人类司机在相同情况下的会采取的行动。

再比如，路上我们遇到了一辆停在路上下客的公交车，而同时，对向车道又有一辆驶来的大卡车。

理想端到端给我们秀了一把“艺高人胆大”，直接在两个大车夹缝中完成了一次极限穿越：

对于可通行空间的精准判断和车控的细腻程度，已经超越了人类老司机。

但这样的策略是否必要？会不会给用户带来不必要的心理压力？可能还需要再斟酌讨论。

理想的解释是，现在的端到端还在测试，驾驶行为的偏好取向还要更多数据和测试反馈来决定，不代表量产实际情况。

第三个让人印象深刻的场景，是在一条主干道和乡村小路的右转博弈：

挑战是多方面的，首先这是个直角弯，对于大型SUV来说操作空间十分有限。其次路面有很大的坡度，车辆俯仰会影响传感器的朝向和数据质量。

最困难的还是同时和两轮车、三轮车、货车、行人等等目标的博弈：

整个过程沉着冷静，没有任何多余的刹车、加速或是方向调整。

理想特别强调了“拟人”的优势：没用端到端的智驾，也有概率能通过，但博弈过程可能是“前倨后恭”，想过又不敢过，整个过程反复刹车、提速。

最后再来看一个十分有趣的场景。

路过学校时，理想同学会给用户播报“现在路过学校，速度降至XX”。类似的，对于路上可能会影响驾驶行为的突发事件，理想同学现在都会播报。

难道是背后用高精地图开天眼？

NoNoNo，这其实是理想端到端智驾的独特优势：

车端2个系统，一个是端到端AI司机，另一个是视觉语言模型VLM。

端到端负责感知、决策、规划，是AI司机的主体。并且理想端到端不同于华为、小鹏，采用更直接的One Model结构，不分层：

输入传感器数据，直接输出自车行驶轨迹。

One Model典型玩家是特斯拉，国内的商汤绝影UniAD也选择了这条路线，同样也走到了量产前夜。

至于VLM，本质是一个多模态大模型，作用是智能驾驶“点读机”，哪里不会点哪里，利用大语言模型的认知能力理解场景，输出另外一条行驶轨迹给端到端模型参考修正。

为啥要这么做？理想解释因为端到端模型尽管直接学习人类成熟驾驶经验，但黑盒决策过程不为人知。对于目标的错检漏检，以及幻觉问题难以通过直接调参解决。

所以要加这么一个“点读机”，以及适当的强化学习手段来规范端到端模型的行为。

总结一下，理想用半年时间干出了这样一套即将量产的端到端智驾技术：

最大的不同点是没用国内主流的多段式结构，而是和特斯拉One Model一样一步到位，而且也是国内量产进度最快的。

但理想和特斯拉不同的点又在于，选择用语言模型为基础的多模态模型作为认知能力的补充，和小鹏、蔚来、商汤等等玩家相同。

以及还有一点，端到端模型参数量4-5亿，VLM总参数量22亿，完全能在现有Orin芯片的理想各个MAX车型上实现车端部署。

理想怎么做端到端

简要的说，理想端到端“方法论”有三个组成部分：

一是找对老师，二是理顺架构，三是舍得砸钱。

理想自己形容新的智驾技术体系为一快、一慢。

快的是端到端模型本身，应对实时驾驶任务；慢的则是VLM大模型，用来学习常识，应对未知路况，比如潮汐车道等等。

分别来自两个“老师”：端到端摸着特斯拉过河，VLM则取法谷歌机器人系统 RT-1 和 RT-2。

这是理想认为的现在最可行的端到端量产模式，集各家之长。

自己是“踩在巨人的肩膀上”，躲了前人掉过的坑，才能在半年内完成端到端技术切换和量产准备。

理想尤其强调了特斯拉的先驱作用，FSD在V12之后各个版本展现出的实力，和快速进步迭代的能力，让理想几乎没有什么犹豫，果断选择One Model路线。

更长远的影响，是特斯拉的数据理念，理想从2019年就开始实践了。

李想去年曾坦白在智驾方面投入不足：早期因为要活下去，而把主要资源投在了产品、制造、渠道等等方面，智驾研发长期都是拮据状态。

智驾一号位郎咸朋更详细地解释了一下：所谓“没资源”，主要是没有足够的预算挖人才搞算法。

所以早期理想用Mobileye方案，后来又用地平线+三方供应商方案等等，那时的智驾团队更像是一个“甲方”或项目交付团队。

但在有限资源制约下，李想和郎咸朋依然达成共识：算法可以徐徐图之，但数据能力必须提前建立起来。

所以在2019年开始交付的第一代理想ONE，团队特意在Mobileye的传感器旁边多放了一个摄像头，用来收集和分析问题。相应的，完成了一整套数据采集、挖掘、标注、训练的工具链。

一个例子，郎咸朋透露目前理想智驾训练数据的人工标注占比，已经不到1%。每年节约大约三四百亿的成本（人工标注一帧约10元）。

数据积累和研发体系建设上很早，这是理想端到端“一夜间”上车交卷的核心。

理顺架构始于去年下半年的理想战略会，明确研发和量产交付一起做，一个技术体系，无论是早期的NPN还是去年底推的无图NOA，研发团队都是先在封闭区域短时间做验证，一个区域跑通就立马往外扩，同步加上安全兜底策略。

随着测试范围扩大，理想会逐步加入用户测试，实际上此时研发团队的角色和交付团队重叠了。

舍得砸钱，郎咸朋说目前理想每年用在训练上的费用为10亿人民币，未来这个数字会上升到10亿美金。

所以10亿仅仅是入场券，企业有健康的营收利润，保持每年数十亿的持续投入，才是端到端出成果的前提——“幸好理想的业务十分健康”。

换句话说，车卖得多，钱也多，以及还有另一层优势：数据足够多。

郎咸朋认为这是理想回应一切对于质疑的终极答案。

理想为什么要做

理想端到端有两个模型，所以现在出现两种质疑声音。

首先是融合图像、语言多数据类型的大模型，理想能不能做好？

之前有国内知名AI玩家质疑过车企或者纯自动驾驶团队，没有通用性大模型的落地实践经验，靠开源模型永远实现不了端到端自动驾驶的认知能力。

换句话说，除非你一直搞通用AI大模型，否则你就很难搞好那个端到端“点读机”。

把这个问题抛给理想，他们的回应是这样的：

对于垂类应用来说，通用AI领域的多模态模型借鉴意义没那么大，唯一相通的其实就只有预训练的部分。

但再往后怎么训练，怎么加自动驾驶的知识而还不影响大模型常识，我们更有优势。因为我们有足够多的数据。反而是他们可能有点天真了。

第二种质疑，来自All in端到端的友商，同样被我们抛给理想智驾负责人。

刚刚布道完端到端的何小鹏提了两个观点，首先是端到端应该是渐进式的，一步跳到One Model不可靠，以及他还说“车多数据多，也不一定能做好”。

对于分段式和One Model之争，郎咸朋认为肯定是One Model更好，但理想的技术路线切换不存在什么“飞跃”，而是实践后得出的认知。

去年，理想先后验证了高速NOA的有图路线、NPN（地图先验信息）、通勤NOA，最后又改成现在6.0的无图NOA（BEV+Transformer），在一年时间内快速试错：

从高速NOA到城市NOA，发现高精度图依赖不得，于是决定走NPN线，只在复杂路口用地图先验信息。后来NPN百城推进过程中，又发现大量二三线小城，效果远不如北上广这样的一线城市，解决不了问题，于是开始探索彻底去图的方案。

6.0无图NOA就是在这样的背景下诞生的。其实和小鹏华为在推的“分段式”端到端一本质相同，也是感知、决策、规控几个模型串起来，各个模块采用数据驱动。

但无图NOA落地过程中，理想又发现了新的问题。那就是只要还有规则存在，就永远有不符合人类驾驶习惯风格的行为，在用户看来，就是“开得不好”。

这个时间节点是今年年初，理想内部迅速统一了认识：

只有One Model端到端才能完全按照人类的习惯去学习驾驶。

虽然有技术切换的成本，有组织管理上的代价，但对于理想来说是值得的，也能负担得起。

为什么要做端到端，为什么走了这么多弯路才开始做端到端，以及为什么能这么快出结果，理想和盘托出。

至于端到端是不是解决自动驾驶终极问题的灵丹妙药，理想和大部分从业者看法并不同。

理想认为，仅靠端到端实现不了无人驾驶，因为目前为止，端到端模型本身解决的还是corner case问题，只不过方式从以前的写规则变成了喂数据。

真正制约自动驾驶发展的，是模型的认知能力，是大模型本身的规模。

所以理想认为，智驾未来的关键变量其实是算力，只有车端算力足够大，才能把大模型频率跑的足够高、延迟足够低。

一旦大模型的响应时延满足自动驾驶安全需要，端到端模型本身和“外挂”VLM模型会出现融合的趋势，理想现在已经在做相关预研工作…这是一条特斯拉也不曾探索过的路线。

未来终局会是什么样，中间又会有哪些变数？

现在下结论太早，最快也要到英伟达的1000TOPS“芯皇”Drive Thor量产上车，答案才会逐渐清晰。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频