加入“端到端”竞赛，理想智驾的“快与慢”

光锥智能

于 2024-07-10 13:54:49 发布

阅读量296

点赞数 6

文章标签：汽车

本文链接：https://blog.csdn.net/GZZN2019/article/details/140319384

版权

文｜刘俊宏

编｜王一粟

一向强调产品大于技术的理想汽车（下面简称“理想”），也加入了智能驾驶的“端到端”竞赛。

就在7月5日的智驾发布会上，理想一反常态，先宣布了全国无图NOA全量推送。随后，理想宣布，下一版本即将落地的大模型“端到端”智驾。

这意味着，从2023年才开始将智驾领先作为核心战略目标的理想，不仅追平了高阶智驾落地，更是在端到端的技术路线上，比已经落地的华为和小鹏还要激进。

一年来，理想在智驾技术的追赶中几次经历变动。

在2023年5月时，理想汽车智能驾驶副总裁郎咸朋在一次采访中还表示，理想还在做无图化的BEV+OCC智驾架构。而在今年的中国汽车蓝皮书论坛上，郎咸朋就一步跨为了端到端赛道的拥护者，“端到端+大模型，是更接近于人类驾驶的智能驾驶方案”。

除了郎咸朋，理想智驾“端到端”背后的核心研发人员，包括智能驾驶技术研发负责人贾鹏和高级算法专家詹锟。

无论是理想、华为、小鹏还是长城汽车，中国智驾玩家们普遍采用“分段式”的路线，与特斯拉FSD一步到位的“跨越式”端到端方案，形成了鲜明的对垒。

不过，对于理想这家善于用产品定义智能汽车的公司而言，智驾最大的意义在于理想拿下了智能汽车设计“工具箱”的最后一环。在理想MEGA失利后，理想真正意义上的下一代产品快要来了。

01 “全国都能开”，追平一线智驾水平

“我们很羡慕理想，能在批量交付的车主中，选择种子用户来实验智驾。”一位传统车企的智能化负责人对光锥智能表示。

相比去年就开放“全国都能开”的鸿蒙智行，理想的城市NOA落地节奏还是稍微慢了一步，智驾能力显然和销量不成正比。

2024年，整个行业的高阶智驾落地再向前推进了一大步，理想也跟上了节奏。

在7月5日的智能驾驶夏季发布会上，理想终于结束了今年5月开始的城市NOA测试体验。在智驾OTA6.0的升级中，面向AD MAX版本的用户全量推送了城市无图NOA功能。

本次升级，理想智驾通过行业内比较成熟的BEV+OCC+Transformer技术，实现了理想车主期盼已久的城市NOA。针对具体能力，理想还总结出了“哪里都能开、绕行丝滑、路口轻松、默契安心”的四大特色。

其中，“哪里都能开”是智驾行业“去高精地图”的成果。在普通导航地图的指引下，智驾“有路就能开”。“路口轻松”和“默契安心”，主要基于BEV+OCC技术的应用，智驾系统能够认识到外部环境，并做出相应的反应。

“在我并线时，我看到了一个对象，汽车也看到并立即作出响应，这就是一种默契和安心”，智驾顺畅通行的能力，理想汽车产品部高级副总裁范皓称。

具体的特色功能，主要聚焦在“绕行丝滑”上。

在老城区场景中，经常会遇到前方车辆突然停下接人的情况。对于这种情况，行业内不少智驾玩家的决策是等待前车再次启动（或等一会再绕行）。而理想的“绕行丝滑”，则是与人类司机一样，等一秒钟便立刻“打一把方向盘”绕开。

“不磨叽”绕行的背后，是理想在BEV中添加了时序概念。让传统BEV视角下，只能感受单帧图像内障碍物的智驾系统，拥有了“预判”未来的能力。

智驾理解时间的重要性，恰如人类的时间知觉。就像是人类结合自身位置和飞行轨迹接飞盘一样，在多帧画面的综合理解下，智驾也能明白事物的延续性和顺序性。对应到具体操作上，是预测自车与他车的空间交互关系，规划未来时间窗口内的所有可行驶轨迹，进而无需“观望”果断绕行。

通过这四大功能，理想智驾已经能够适应绝大部分场景，保障行车安全。但安全只是智驾最基础的能力，通过部分演示看到，理想智驾在逻辑决策上存在着短板。

例如在转向中，面对斑马线上加速通过的小孩，理想智驾起初仍选择正常通过，随后触发AEB紧急刹停。诚然在结果上，理想智驾没有发生事故。但若是真人司机“操刀”，是看到异常情况立即减速观望，而非继续尝试通过。

出现如此情况，意味着理想智驾在逻辑决策与智驾控制能力的两个层面上，并未完全“对齐”。

逻辑问题，有望在落地端到端大模型后，在下一个版本中得到优化。

02 大模型的“快与慢”

理想的智驾团队和马斯克一样，都喜欢从本体论视角拆解目标。

马斯克从亚里士多德的第一性原理上，认识到能源的重要性。而理想智驾团队从《思考，快与慢》中认识到，学习人类的思维逻辑，是智驾达到人类水平的关键。

为了模拟人类的下意识反应和深思熟虑操作，理想智驾团队没有选择类似特斯拉FSD的“跨越式”方案，而是搭建了“快慢”双系统（对应系统一和系统二）。

其中，系统一是完全的端到端架构。与特斯拉FSD一样，都是在收到传感器信息后，直接操作汽车。就像是人类面对正常路况一样，“加减速”不需要思考太多。这部分的训练，理想选择了与特斯拉类似的训练方式，让智驾直接学习“五星好司机”的真实驾驶视频。并添加强化学习，让智驾在模仿之余，找到更优的解法。

在系统一的基础上，理想将大模型（主要是VLM）作为高级规控的方式，控制整个智驾系统的逻辑决策能力。系统二的底层技术原理，可以理解为参考人类的综合信息理解能力。理想在传统智驾的Transformer框架下，将视频、汽车状态等信息统一“扔进”一个编码器。从而让智驾获得“深思熟虑”的能力，避免闹出“白马非马”的笑话。

具体而言，在路口等待的场景中，行业不少解决方案只能“认出”红绿灯，但具体的读秒需要导航地图的反馈，无法实现智驾自动起步。而智驾有了理解能力之后，智驾不仅能“认出”红绿灯，还能明白读秒的含义。更进一步，当导航地图不够精确的时候，系统二会根据实际需要“纠正”导航地图的错误，避免汽车跟着导航开到辅路上。

可以看到，大模型在更好地应对路况的同时，也萌生出了“按照自己理解开车的想法”。为了放大模型能力的上限，理想也给出了更符合“大模型体质”的训练方法。

在自动驾驶领域中，单靠真实数据训练智驾远远不够。为了让智驾学到现实难以遇上的Corner Case，需要在仿真环节中让智驾模拟训练。

2021年，特斯拉分享了一套基于3D虚拟+现实重建的仿真技术。通过对现实数据采集，特斯拉在虚拟世界模拟重构一些如高速上有人奔跑、马路上挤满人等“超现实”场景。虽说这套方案促成了今天的FSD，但缺点也非常明显。在极大的信息标注量和算力需求下，马斯克买不到足够训练用的GPU，只能“干看着”。

理想的解决方案，也是行业内目前普遍使用的，是将现实重建与Diffusion技术相结合。以真实数据为基础，“画出”想象中可能遇到的具体路况。例如在一段汽车驾驶的画面中，理想的仿真方案能根据提示词生成晴天、阴天、雨天、雪天等多种场景用于训练。

“15秒经历一年四季，遍览世间繁华”，理想汽车智能驾驶技术负责人贾鹏表示。

如今，伴随着理想城市NOA落地，和即将开启的端到端大模型智驾测试，或许，理想能够凭借智驾能力，跳出理想ONE的“围城”。

03 跳出理想ONE的“围城”

理想可能是所有造车新势力们最羡慕的样子，但也是理想最想摆脱的样子。

羡慕的部分，是理想以单月超4万的销量，以实力碾碎市场上关于“增程落后”、“创新全靠冰箱彩电沙发”的争议。凭借对汽车产品理解，理想不仅成为了第一个盈利的造车新势力，更是以理想ONE开创了中国全新的汽车文化。

汽车工业过往时期，巨头们的崛起主要靠大时代下的错位竞争。在福特汽车制霸时期，是标准化生产让汽车走下“奢侈品神坛”；在日系车拿下美国市场时期，靠的是石油危机时提供的低出行成本；在中国自主品牌兴起的现在，一是靠供给侧降本实现“低价”对标合资车，二是通过电动化、智能化弯道超车。

但理想成功的路线，并非承接时代的机遇，只靠低价卷。而是从需求侧出发，以产品经理思维重塑了汽车行业过往从供给侧设计产品的模式。

在理想ONE上，理想基于用户画像、需求痛点、市场研究、用户体验等逻辑，给出了上市即交付、尽量少的选配、新能源与续航兼得（增程）、座舱空间享受等综合特性的汽车产品。在理想的“一揽子”产品思路下，汽车行业的后来者们纷纷开始效仿学习，理想也从理想ONE中差异化“裂变”出整个“L系列”。

但在此之后，理想真正意义上的下一代产品却“始终没有到来”。理想MEGA的受挫，完全可以认为是进军纯电赛道时选择了保守策略，以大型MPV的标签将自己限定在了一个相对小众的市场。或许，理想下一次产品的发力点，还得看今年未发的三款纯电产品。

但是，由高阶智驾带动的新一轮智能汽车需求，已经在揭开汽车市场的“下一幕”了。

随着2024年越来越多的车企宣布落地高阶智驾，在蔚来、理想、小鹏、小米、广汽、长城等车企，华为、毫末、Momenta、元戎启行、商汤绝影等头部智驾供应商的共同表态下，智驾端到端的技术架构也被“提”到了台前。

甚至，英伟达汽车事业部副总裁吴新宙还称，“端到端，正是智驾三部曲的最终曲”。

智驾玩家们如此看好端到端，并不只是看到了特斯拉FSD的成功经验、技术架构对信息的处理能力，或是大模型训练下的迭代速度。最核心的看好的，是端到端带来的“主动智能”。

正如长城汽车智能平台开发中心的高级总监姜海鹏所言，“真正智能驾驶终点一定像人一样有思考，对场景有理解，基于对场景有理解基础之上做智驾的动作”，端到端的路线，让“机械”的智驾有了“媲美人类思维”的可能。

不过，目前国内已经（或准备）落地玩家的情况，大多都是部分端到端的“分段式”方案，而非特斯拉FSD的“跨越式”架构。

其中，华为和小鹏的架构比较类似，大致方向是将之前智驾中感知、规划、控制“三部曲”，拆分成感知、规控两个“端到端”模型。长城的SEE大模型是将感知部分进行“端到端”处理，规控阶段有专家策略参与。理想的方案，则是用VLM充当完整端到端架构的“高级规控”，方案最激进。

国内智驾玩家采用“分段式”端到端架构的原因，可以参考李想在今年汽车重庆论坛上对于系统二用途的解释，“用于端到端的训练，大概一个月十轮左右的训练，基本就可以完成一个无图 NOA 的上限水平。但是面对中国的复杂路况，只有端到端不够，我们要思考什么是系统二。系统二的启发在于，解决各种各样的Corner Case和各种泛化的问题”。

换句话说，国内智驾系统们对于当前大模型能力的不足，在想办法通过“更强规控”的工程化方式去落地。

“当数据达到特斯拉级别的百万量级以上，通过对模型的强训练，智驾可学习视频流，就能直接告诉司机驾驶的方向，像当下流行的ChatGPT一样”，曾在特斯拉主导建立机器学习团队的谷俊丽在WAIC上如此表示。

但正所谓“罗马不是一天建成的”，李想在端到端智驾的变革中也找到了自己的方向，“我们认为端到端 + VLM + 生成式的验证系统，也会是未来整个物理世界机器人最重要技术架构和技术体系”。