弯道超车！理想汽车快慢双系统会是端到端自动驾驶的答案么？

最新推荐文章于 2025-06-05 18:15:45 发布

自动驾驶之心

最新推荐文章于 2025-06-05 18:15:45 发布

阅读量1k

点赞数

文章标签：汽车自动驾驶人工智能机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247616457&idx=2&sn=1c0e2bbdc27b8b5327bd3ba9a6f824d1&chksm=cf11f65c87599607237d9004ba0c7ad65f3ea4bde4a219c3a15038220ede40a8f72430647d01&scene=126&sessionid=0

版权

编辑 | 理想TOP2

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

本文只做学术分享，如有侵权，联系删文

理想今天下半场发布会的受众是自动驾驶从业人员与技术爱好者，可以类比苹果的WWDC与特斯拉 AI Day。如果你作为普通用户或股东感到沉闷无趣是非常正常的。

TOP2 917字总结版：

系统一是传感器输入输出轨迹的端到端，系统二是一个具备一定逻辑思考能力的视觉语言模型，与系统一是并行在跑，真正在驾驶的始终是系统一。

这套VLM系统可以做到周级或亚周级的迭代。

具备通用障碍物理解能力，超视距导航能力，道路结构理解能力，拟人的规划能力。

常规传感器进入到理想专门为Orin-X优化过的CNN主干网络，并提取特征融合，为了增强BEV空间特征表达能力，加入了记忆模块，不仅是时序记忆还有空间记忆。

特意额外设计了另外两个输入，一个是自车状态信息，另一个是导航信息，可以理解导航的语音提示前方2km这种信息。

信息进入Transformer编码器后，和加强后的BEV特征一起解码出动态障碍物、道路结构，OCC，行驶轨迹。

输出前三个主要有两重作用，第一重是输出EID，让用户放心，第二重是作为端到端模型的辅助监督任务，加速行驶轨迹的收敛。

目前端到段模型学了超过100万公里数据，年底可能超过500万公里。

整个视觉语言模型是一个统一的transformer解码器，将文本的prompt进行Tokenizer编码，输给这个解码器。同时把30度相机，120度相机的图片以及导航地图的图像进行视觉编码。送给这个模态对齐模块，对齐后的信息也交给这个解码器，最后一起自回归输出。

系统二的输出包含对环境的理解，驾驶的决策建议，驾驶的参考轨迹。参数量22亿。

三个特点：

1.流式视觉编码器可以缓存更长的视觉时序

2.记忆模块缓存了多帧历史信息，可以更好执行超长时序的推理问题，解决超长时序的推理时延。

3.有一个自动驾驶的prompt问题库，系统二不但时刻看周围环境，给系统一做辅助决策，系统一也可以主动向系统二问问题，解决部分场景。比如有时导航不知道自己在高架上还是高架下，可以通过问系统二来更好的判断。

通过魔改GPTQ,，在最新的DriveOS上，对attention算子进行深度优化，实现了更好的Tensor算子融合，并自研投机采样，最后用流式的视频流推理这一系列步骤将推理速度从4秒降到0.3秒。

考试系统是重建加生成结合的世界模型方式

下面是GS重建的过程，上面是利用真实数据的先验，给出layout做约束，然后再加上prompt，再给一些参考图片，生成新的视角。呈现出3D的世界，如果转换新视角，不会出现模糊的问题，这套架构的另外一个好处是上面生成的部分它可以独立的运行。通过layout先验，再加上Reference的图片与prompt，可以生成很多符合真实世界规律但是没见过的场景。泛化性会更好。

完整图文：

郎咸朋自动驾驶负责人

我们也邀请到了理想汽车智能驾驶技术负责人贾鹏和高级算法专家詹锟和我一起来进行今天的分享。贾老师要不你先给我们介绍一下这个理论的基本概念。

贾鹏智能驾驶技术负责人

好，其实很好理解，系统一其实就是人根据自己的过去的经验和习惯形成的直觉。他可以做出快速的角色，我们也可以称之为快系统或者快思考。比如像咱们回答一加一等于几，其实基本不用思考，直接回答，或者是人开车的时候，95%其实都是系统一直在工作的对，类似技术机一样。

那系统二其实是咱们的一个思维推理能力，我需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。比如像开车，可能只有5%的情况下，我们才会使用系统二。简而言之，其实就是系统一和系统二。形成了咱们人类认知理解和做出决策的基础。

郎咸朋自动驾驶负责人

这是一种能力是吧？是咱认知世界的一种能力。这个能力其实还是一种理论，刚才说的理论框架，理论到实践还是需要一定的挑战的。詹锟当时咱们讨论出了第一版的这个技术架构，就是你这边做的。简单介绍一下我们这个理论到实践的这个过程。

詹锟高级算法专家

基于刚刚贾老师说的这个理论，其实我们就在思考下一代立项汽车自动驾驶的算法原型是什么样子的.那最后我们结论，系统一其实就是一个端到端模型，它是直接用来快速响应的常规价问题的模型。然后系统二是一个VLM世界语言模型，它具备一些逻辑思考的能力。与此同时我们还在考虑这个系统一和系统的话，我们应该怎么去验证它。我们想就是说通过一个云端模型，一个世界模型来验证这个系统一和系统二的能力。

郎咸朋自动驾驶负责人

也就是说端到端实现系统一，VLM实现系统2，然后还有一个云端的这样一个世界模型来去评价和考是这个系统是吧？好，加上是詹锟。刚才我们聊了一些就是咱们整个的架构，还是要讨论一下细节。因为很多人都非常关心我们是怎么实现这个系统的。首先我们看一下端到端，其实很多人都分为郎博。什么是端到端，到底哪个端到哪个端？他原先我们过往的这个中间系统有什么样的一些区别？这块贾老师你来给我们做个介绍。

贾鹏智能驾驶技术负责人

那方便大家理解。我们回顾一下理想汽车自动驾驶过去系统一的一些发展过程，其实我们系统一直都在对，我们经历过三代。第一代其实是我们的NPN架构

它是个模块化的，然后我们有感知、有定位、有规划、有导航、有NPN，中间拿规则串在一起，这台架构支撑了我们在全国100个城市交付了这个城市NOA。

我们第二代架构就是我们刚刚发布的无图NOA

这一代架构可以看到它模块少了很多，对，只有两个模型了，感知和规划，中间也是拿规则串在一起。那去掉相应信息就意味着我们可以在全国都可以开。

郎咸朋自动驾驶负责人

就不用等先验信息更新

贾鹏智能驾驶技术负责人

没错，那有导航就可以开第三代架构，就是刚才其实詹锟提到的我们的端到端。现在其实更简单了，只有一个模型，它的输入和传感器输出是我们的行驶轨迹。

郎咸朋自动驾驶负责人

就是用这样一个看起来其实很复杂的模型，那么这个模块它有什么样的特点优势呢？

贾鹏智能驾驶技术负责人

第一个它是高效的信息传递，之前的架构里都有一些规则在里面，规则其实就是个漏洞，他把很多有用的信息都过滤掉了，导致整个上限会没有那么高，现在是一体化的模型了，所有的这种信息都在模型内部去传递，那它上限会更高，用户所能感受到的就是我们整个系统他无论他的动作还是角色更加拟人了。第二个是他的高效计算，我的一个模型加载到GPU内，它一次性的完成推理，整体的端到端的延迟会更低。明白，大家能感受到的就是我的手和眼更加协调一致了，这个反应不会像以前的慢半拍。

第三块可能是大家感受没有那么直接，但是对于研发团队很重要，我们迭代速度更快了。现在它是个一体化的模型，中间没有任何规则串在一起。我可以实现端到端的可训，完全的数据驱动，这样我就可以很轻松的做到周级的迭代或者是亚周级的迭代。对于用户来说，他的最大感受就是我们OTA的速度越来越快了。

郎咸朋自动驾驶负责人

OK对于我们内测用户来说，他们工作量也变大了，对，压力也大。谢谢。刚才说了这个模型的一些好处，但是我觉得还是先看一下它的实际效果，我想詹锟最有发言权。因为前两天想个微博转了你的那个测试视频，你也跟大家借着视频讲一讲我们现在效果能达到什么样的程度。

詹锟高级算法专家

其实那个视频当时我们正好在测端到端的这个软件，但是那天晚上突然北京这个恶劣天气来了非常大的雨。然后我们当时几个研发车上确实也是看到了端到端这么好表现，也是词汇量比较匮乏，对吧？就是很惊讶于这个性能。我们其实印象非常深有一个点，就是当时有一个场景，有一个锥桶应该是倒在地上人都看不太清。但是我们当然那系统能很丝滑的提前就绕行它。那这样说明其实我们当然端到端在这方面表现是非常能力强的。它其实是有一个未知物体的这种理解能力。这也不是设计出来，说的是他自己学出来的。

其实除了这个能力，其实我们还看到端到端还有其他的这个能力。我们可以看一下第二个视频，第二个视频其实展现的是端到端一个超视距的导航能力。我们整个自动驾驶系统是放在了北京的西直门桥新门桥，是不是已经最复杂的一个立交环道了。然后这个场景下其实有一个段子，就是说如果外星人来入侵地球，我们把它带上西直门桥它也会绕不出来。，可以足见我们这个西直门桥是非常复杂的。但是在这种情况下，我们端到端没有使用任何先验的情况，我们依然能应对自主这个场景。环岛可以认为是自动驾驶非常复杂的一个道路突破结构了。我们端到端在这也是不使用任何新的情况下，能够非常自如的通过。

可以看到我们是对一个这种复杂拓扑结构有很深刻的理解能力了。第四个能力，就是我们发现端端有非常强的拟人的规划能力。对，这个视频中可以看到右侧三个车道都被违规占住了。但端到端模型它自动选择了最左侧车道，绕过了这个违章车辆后，然后插空直接到了最右侧车道，绕过了行人。然后完成了右转。

郎咸朋自动驾驶负责人

这种动作的话，你写规则是写不出来。这个端到端模型可以看到它有很好的这种上上限的能力。它的这种结构应该也是相对比较复杂的。毕竟它把原来的那些模块化的东西都集中在一个模型里面的。那么这边的模型的设计已经它的一些细节，我觉得贾老师你还是给打开看一看。

贾鹏智能驾驶技术负责人

这里是我们端到端模型的架构图

我们左侧是我们的输入，右侧是输出。我们先看左上半部分，输入是常规的传感器，包括我们的摄像头和激光雷达。进入到了我们一个专门为Orin-X优化过CNN主干网络，然后提取他们的特征并融合在一起。为了增强BEV空间这个特征的表达能力，我们加入了一些记忆模块，它不仅仅有时序上的记忆，还有空间上的记忆。

郎咸朋自动驾驶负责人

这个4D的，类似这种感觉。

贾鹏智能驾驶技术负责人

对对对，然后除了这两个输入之外，我们还专门额外设计了另外两个输入。第一个是自车的这个状态信息，第二个是我们的导航信息。前方有2公里的这个导航信息，包括我们听到的一些语言文字，比如说前方300米左转，类似这样的都会输入。

郎咸朋自动驾驶负责人

这个比人能力强，人其实理解不了前方2公里的这样数据。对吧？

贾鹏智能驾驶技术负责人

对，他拿到数据比较远。那这个时候信息进入到我们我们的一个Transformer的编码器之后，和我刚才提到加强后的BEV特征一起解码出了四个东西，动态障碍物、道路结构，OCC，规划出我们的行驶轨迹。我们知道端到端其实最终的目的是把这个传感器转化成映射成我们的行驶轨迹。

郎咸朋自动驾驶负责人

所以说就是这端是传感器，那端是行驶轨迹。但是为什么你还有三个其他的东西？

贾鹏智能驾驶技术负责人

对，那我就解释一下，这样其实它有两重作用。第一重作用，这三个感知任务，它是把我周边的环境描绘出来，然后通过EID呈现给我们的用户，让用户能看到对吧？放心，对，这是第一重作用。第二重作用，它其实是作为整个端的模型的辅助监督任务。这样可以加速我的行驶轨迹的收敛，可以在更短的时间内训出一个更好的模型。

郎咸朋自动驾驶负责人

这个是纯从技术上的一个考量。

贾鹏智能驾驶技术负责人

没错，大家也可以看到这个结果和之前所谓的分段式端到端不太一样。我们是一个One Model一体化的模型，有多个任务。这也是我们之前称之为One Model的原因，也是真端到端的模型。

郎咸朋自动驾驶负责人

模型ok这么一个复杂的模型，它的训练方法和数据应该也是非常有特点。是的，贾老师你我觉得你继续介绍一下这方面的一些细节吧？

贾鹏智能驾驶技术负责人

我先从数据讲起，其实作为自动驾驶的一员，其实理想汽车是拥有非常大的优势的。也非常自豪其实我们拥有全国最大的自动驾驶车队，超过80万的车主，我们车卖的好。然后在过去几年超过了两百多亿公里的行驶里程。然后我们项目之初，其实跟产品团队、整车团队一起定义了五星级司机的标准，这就是专车司机的标准，我们拿这个标准去筛选我们的用户，给他们打分，那就是0到100分，目前来说超过90分的车主只占3%。

郎咸朋自动驾驶负责人

百里挑一了。

贾鹏智能驾驶技术负责人

其实这些优质的数据能输入到模型里，目前我们端到端模型已经学了大概超过100万公里的数据，到年底可能超过500公里，这是远远超过一个人类的司机的一生的驾驶里程。

第二个是训练方法，我们的训练方法跟大家也稍有不同，端到端模型的目的是学习形式轨迹。对，那它不像感知任务，感知任务是确定性的，有就有，没有就没有。行驶轨迹是不确定的。因为不同的司机即使我们用同一个标准去卡那他也有不同的驾驶行为。即使是同一个事情，在不同的场景，不同的时间，驾驶行为也不太一样，如果一味的只是去用使用模仿学习去模仿它，那你只能模仿对的，那你不知道什么是错的，所以会出现很多很诡异的驾驶行为。那我们其实在训练过程中会加入强化学习，让它知道什么是错的，错的时候给他惩罚。这样就可以学出一个无论是价值技巧还是价值观都是非常正确的一个模型。

郎咸朋自动驾驶负责人

也就是说就是告诉我们的这个端的模型，对的错了他都能理解清楚。是的，明白。其实我们刚才也提到了，系统一只能帮我们完成95%左右的这种驾驶场景。还有5%比较复杂的场景，我们需要用系统二来进行理解和判断。关于系统二，我觉得咱们先举一个简单例子，我觉得让大家理解一下什么系统上需要应对的场景。贾老师我觉得你比较有经验。

贾鹏智能驾驶技术负责人

因为我住在天津。天津这个城市的对自身驾驶来说是个非常有挑战的城市。举个例子，天津有很多这种潮汐车道，用LED灯或者是文字去表示。因为它是老城区，还有很多单行道，单行道上面会有很多这种文字标牌，告诉你几点到几点是单行道。这个对于自动驾驶来说是非常难的。

郎咸朋自动驾驶负责人

因为这个系统它不但要看清楚，而且还要理解上面写的，还有做出相应的判断。系统二的这个能力我们已经研究了一段时间了，詹锟这边应该有很多的场景可以给我们展示一下。

詹锟高级算法专家

系统一其实会面临各种各样复杂的情况，它处理不了，那这时候就需要系统二来解决，介入来帮忙。我们这里精选了一些系统二做的比较有意思的场景给大家分享一下来看看系统二的能力。第一个视频可以看到系统二发现这个地面路面是非常坑洼不平的。这时候我们系统上会给系统一发一个降速的提醒，并告知驾驶员前方的坑洼路车辆将慢速行驶，减少颠簸。然后使整个自动驾驶系统在过这里的时候会更加舒适。接着就是个黑天场景，整个在光线昏暗的情况下，系统上会让系统一做一个限速，然后这样使得整个驾驶更加安全可靠。

第二个视频可以看到我们整个系统二能够在主辅路走错的情况下，能判断出来当前是跟导航是不一样的。比如说导航告诉你现在要走辅路，结果我们在主路系统二会说那我们是可以切换导航的。这时候我们能帮助系统一解决各种走错路的情况，然后看甚至可以预防系统一去走错这个导航，这个比人强多了，人也会走错导航。

第三个视频，可以看到我们系统二能够稳定的识别公交车道，不但能知道它的类型，还能知道它的位置，更重要是它还能知道上面的时间，并且与当前时间做一个匹配。如果这个时间是合理的，系统二可以给出建议，就是说我会合理使用这个车道。在潮汐车道这里我们也可以看到，系统二已经知道了这个地方是潮汐车道，不可用区域。那我们系统二会告诉系统一这个地方是不能走的那我们也可以保证系统一不会错过导航。

郎咸朋自动驾驶负责人

贾老师如果用这套系统的话，就可能在天津可以开好了。

詹锟高级算法专家

是的，这样可以更好的帮助贾老师在天津开车了。其实我们不光这些能力，后来我们还会把系统二用来实习识别交警的这种动态手势施工改造等更复杂的场景。

郎咸朋自动驾驶负责人

这么好的一个能力，其实它对应的这个VLM模型，我们叫视觉语言模型。它其实跟我们的这个叫大语言模型还是有所区别的。是大语言模型它只有语言部分，对吧？咱们还有V的部分，还有V和L对齐的部分。詹锟我觉得你继续介绍一下我们整个VLM模型的这种系统架构的细节。

詹锟高级算法专家

这里可以看到这是我们整个自动驾驶系统二的VLM模型，视觉语言模型的架构图。

这里最核心的部分，它是一个统一的transformer解码器，然后这里面的参数量是非常大的。然后我们将文本的prompt进行Tokenizer编码，然后输给这个解码器。然后同时把30度相机，120度相机的图片以及导航地图的图像进行视觉编码。然后送给这个模态对齐模块，对齐后的信息也交给这个解码器，最后一起自回归的输出。我们想要的信息。系统二的输出包含几个部分，一个是对环境的理解，驾驶的决策建议，甚至是驾驶的参考轨迹，这些都是可以给到系统一帮助辅助驾驶策略的。

其实整个世界里面还有三个比较好的亮点。第一个可以看到我们这个视觉编码器这部分其实是一个流式的视频编码器。相比于大部分传统的单帧VLM来说，流式的视频变压器它其实可以缓存更长的视觉的时序。然后相当于一种常识类信息，对于这个物理世界中的AI系统来说是非常重要的这也是我们比较创新的一个架构。那右下角里面还有一个MemoryBank模块，这里相当于是换一个成了上帧甚至上上帧的那种多帧历史信息。这样拼成了历史信息，就更好的来执行超长时序的推理问题，解决超长时序的推理时延。

第三个特点的话，我们这里是有一个自动驾驶的prompt问题库。系统二不但时时刻刻都在看这个周围环境，给系统一做出一些辅助驾驶决策。同时系统一还可以主动向系统二问问题，然后根据prompt库里的问题，帮助系统以解决部分场景，比如说导航有时候也不知道自己在高架上上还是高架上下的时候，这时候系统一可以问当前是在桥上还是桥下，那系统二可以给系统一做出更好的辅助判断。

郎咸朋自动驾驶负责人

明白，系统二就相当于说在我们副驾永远做了一个驾校的教练，这个教练其实他也会时时刻刻监督你的行为。当你开错道或者需要帮助的时候，他也会主动提供一些建议给你，让你更好的开这个车。所以系统二的能力还是非常强大的。

郎咸朋自动驾驶负责人

我没记错的话，它的整个的模型的参数量是到了2.2个billion是吧？就22亿的参数量，这是绝对意义上的大模型。然后它的模型的部署其实也是非常大的一个挑战。我们因为从来没有说有这种大模型去部署到车端的现有车端芯片上的这样一个经历。

贾鹏智能驾驶技术负责人

这个其实我也想问一问，因为也先说一下，有好多友商说自己是端到端大模型，但是相对于我们VLM来说，就是这个参数量肯定是差了一个量级，因为我们是22亿的参数。但是因为我加入理想，其实之前就在英伟达工作了五年，也基本见证了Orin-X从零到量产整个过程。Orin-X本身不是为transformer，不是为大模型去设计的，它的内存带宽也有问题。那我们把它部署上去，其实是有很大的挑战的，大家也想听听詹锟在大模型部署上的一些经验。

詹锟高级算法专家

其实我们刚开始把大模型放在Orin-X部署的时候，其实面对了非常多的困难。他推力时间长达4秒，这个是在自动驾驶系统上是完全不可接受的一个时延。因此我们想要一步一步怎么优化它。

第一个能想到的就是说内存的带宽通常是大模型推理的一个瓶颈，因此我们想把大模型先进行量化，减少带宽的一个瓶颈。我们也试了业界主流的一些量化方法，比如说AWQ，GPTQ这种方法。但是我们发现它的这个精度和性能往往不能很好的平衡，所以我们使用了自研的方法，我们魔改了GPTQ，然后最终在Orin-X上实现了一个将近一倍的一个性能的提升。我们从4秒钟降到了1.9秒。

后来我们又发现其实还有个视觉ViT的这个推理。也是一个比较大的瓶颈。然后这时候我们去跟英伟达合作。然后我们在最新的DriveOS上，我们实现了一个更好的Tensor的算子融合。我们对attention算子进行了深度优化，我们发现这也是一个非常好的一个提升点，从1.9秒提升到了1.4秒。

然后另一个我们发现大模型推理的一个瓶颈，很重要的是这个自回归的推理，他每次输出只能输出一个token。业界现在很好的一些思路入就是说用投机采样方法。投机采样指的就是说大模型在一次推理过程中能连续输出多个token。我们也在Orin-X上用一套自研的方法实现了自研的投机采样。实现了整个性能的一倍的提升，从1.4秒降到了0.7秒。最后我们使用了流式的视频流推理，这样使重复的视觉计算得到大大的缓解。我们最后达到0.3秒的一个推理性能。

整个提升了将近是三倍之多。这套方案其实是我们业界首次把大模型放在Orin-X一个部署尝试，感兴趣的同学也可以参考一下我们的技术方案。

郎咸朋自动驾驶负责人

刚才詹锟说这句话的时候，感觉还是非常骄傲和自豪的，我们其实刚才也介绍完了VLM。整体的这个自动驾驶。如果想上路的话，我觉得像人一样，它需要一个考试的系统。前段时间我们也在讨论，就我们这个自动驾驶系统应该是一个什么样的考试和学习的系统。这块的话我们也调研了很多的业界的做法，有用仿真的是吧？有用重建的，还有生成的。这块儿其实贾老师应该是比较有发言权，你能不能先给我介绍一下业界的一些做法？

贾鹏智能驾驶技术负责人

好，其实是业界做法无非有三种

第一种就是3D仿真。其实就是把一堆这种3D的资产或者3D的模板，人工编辑排版，然后最后生成场景，最后通过这个游戏引擎渲染出来了。但是渲染出来的场景就一眼假。另外一个很致命的缺点，效率低。因为有大量的人工参与，没办法满足咱们自动驾驶快速迭代的需求。

第二个其实刚才提到了，就是真实数据的重建，我们把大量的真实数据通过NeRF或者3DGS这样的技术,自动化的重建出来，它的整体效率，它肯定比3D仿真这种要快的多的多。光照材质，然后行为这些都会真实的，这种是一样的。但是他也有个问题，当我把自动驾驶的系统接入进去作为闭环仿真的时候，如果本车跟原来的车的这个行为差异比较大，视角变化很大。那新视角下我重建的时候场景会出现模糊拖影这样的现象，也没办法完全满足自动驾驶的需求。

第三种其实就生成，最近sora比较火，利用diffusion技术然后加上prompt，形成这种各种各样的场景。但是所谓的世界模型或者生成模型，它最大的问题是它没有真正的理解世界。所以它存在很多不符合规律的这种幻觉的问题，也没办法完全满足自动驾驶的需求。

郎咸朋自动驾驶负责人

就是业界现成的方案，我觉得都不足以满足咱们对自动驾驶考试的需求。那么贾老师我们最终采取的方案是什么样子呢？

贾鹏智能驾驶技术负责人

对，我们最终采用的是一个重建加生成结合的世界模型的方式，就是说取长补短。对，把他们这两个的优点结合在一起，这是我们的架构图，其实可以分成上下两部分。

下面其实是一个GS重建的过程，上面其实是利用我们的真实数据的先验，给出layout做约束，然后再加上prompt，再给一些这种参考图片，生成新的视角。这样呈现出来的这种3D的世界，如果转换新视角，它也不会出现之前模糊的这个问题，把这个问题解决了，那我们这套架构的另外一个好处，上面生成的部分它可以独立的运行。那有了这种layout的先验，再加上这种Reference的图片，再加prompt，其实可以生成很多符合真实世界规律，但是没见过的场景。它的泛化性会更好。

郎咸朋自动驾驶负责人

也就是说我们有两种的测试和考试的题。一种题是用重建出来的，是真题。一种是用生成出来的，是模拟题对吧？就是同样题型，但是不太一样，用于更好的评价和考试。我们说了其实这么多，其实还是需要让大家看看我们最终展示的考试的效果。詹锟你们团队的工作请介绍一下。

詹锟高级算法专家

这块我们团队其实做了很多样的工作。我们先看一下第一个视频，这个视频接下来是我们整个重建的过程。其实我们重建的整个核心思想是这样的。我们先把一个视频的动态和静态进行分离。静态的背景我们先用3DGS算法进行建模，然后形成一个完整的背景资产。接着我们把动态拿出来也进行并重建，进行新视角生成，让它变成一个360度的一个新的资产。将这两者进行结合，我们就成为了一个3D的物理世界。

在这个世界中其实我们就可以控制里面任何元素了。我们可以左移右移，左偏右偏都可以做，同时我们还可以修改这里的动态障碍物的位置和轨迹。在这里我们就有一定泛化能力来测试我们的系统。

郎咸朋自动驾驶负责人

虚拟城市里边儿开极品飞车的效果。

詹锟高级算法专家

没错。第二个视频是我们的生成模型的一个过程。生成模型相比于重建来说，它是有更好的泛化性的。在这里面我们可以控制这里面的天气、使用时间、车流等等各种各样的信息。让它生成各种各样不同的场景，来考验我们的模型的泛化能力。这个就是我们所谓的15秒经历一年四季遍览世间繁华。我们其实是在这样的无限的环境中更好的给我们自动驾驶进行学习和考试。这样我们才能让我们交付出来的软件高效、安全和舒适。其实以上这些技术，其实我们整个团队也发表了很多论文，然后大家感兴趣可以自己去查阅。

郎咸朋自动驾驶负责人

除了世界模型，我们的端到端和VLM其实也有很多的技术论文在网上给大家进行分享一下查阅。到这里，我们今天的分享的内容也就差不多了。感谢詹锟和贾老师的，最后我们再来总结一下，画一下重点。首先我们的端到端和VLM是第一个在车端的双系统的自动驾驶方案。第二的话，我们的端到端是一个ONE Model的真端到端模型，它让我们的自动驾驶系统拥有了像人类老司机的行为能力。第三，我们的VLM模型是第一个在车端能部署的大模型。它让我们整个自动驾驶系统拥有了像人类一样的逻辑思考能力。最后我们的世界模型也给我们的自动驾驶系统提供了学习和考试的环境，让我们拥有了快速迭代的能力。

以上就是我们这次发布会的全部内容了，但请稍等还没有结束。我还有一个彩蛋要送给大家。我们除了全量推送无图NOA的版本之外，我们还会同时开启端到端加VLM的鸟蛋活动，一定会给大家带来惊喜的

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频