『端到端』下的智驾人：离不开的仿真闭环，逃不掉的相爱相杀！

最新推荐文章于 2025-04-25 07:40:22 发布

自动驾驶之心

最新推荐文章于 2025-04-25 07:40:22 发布

阅读量1.7k

点赞数 2

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247626339&idx=1&sn=86fbcc1df78358bbdaf7878758c6c5fb&chksm=cffa3b24cda6cfc716a07d2520d07266009da3cff4e0b829d1232d7e8019abb0ba5708350669&scene=126&sessionid=0

版权

点击蓝字关注我们Synkrotron.ai

端到端自动驾驶

“端到端”（End-to-End）无疑是今年自动驾驶行业最热的关键词，无论是学术圈还是工业圈，这一概念都引起了广泛的关注和讨论。它指的是一种直接将输入数据映射到输出结果的计算模型，无需复杂的中间处理步骤。在自动驾驶领域，这意味着可以通过深度学习算法直接从原始传感器数据（如摄像头图像、雷达信号等）学习到驾驶决策和车辆控制命令，而不需要传统的、基于规则的多层次数据处理流程。下图展示了特斯拉自动驾驶从模块化到端到端深度学习的演进。

图片来源 How Tesla will transition from Modular to End-To-End Deep Learning

端到端的方法在自动驾驶技术中的应用，带来了几个显著的优势。首先，它简化了系统架构，减少了对复杂软件和硬件的需求，从而降低了成本。其次，通过直接从数据中学习，端到端模型能够捕捉到更多的细微模式和复杂关系，这在传统的基于规则的方法中很难实现。此外，这种方法还有助于提高系统的适应性和泛化能力，因为它能够从大量的实际驾驶场景中学习，而不是仅仅依赖于预先定义的规则。

端到端的本质应当是感知信息的无损传递。感知模块输出对环境的检测和识别信息，是对复杂驾驶场景采用人为定义的显式抽象。然而，对于一些边缘场景中，显式抽象很难准确和完整的表达场景中影响自动驾驶表现的所有因素。广义的端到端系统，作用便是存在一种全面的场景表征方法，将信息无损传递到规划控制模块。

为了更好的定义端到端自动驾驶的概念，需要加上明确的描述词，主要分为四个阶段/架构：感知“端到端”、决策规划模型化、模块化端到端、One Model/ 单一模型端到端。

端到端自动驾驶仿真的挑战

当前的量产算法普遍还是采用模块化的算法框架，在测试的时候无论是logsim还是worldsim，都可以针对模块或者模块之间的组合进行测试，仿真或者测试系统能够去构造显示的输入，接收显示的输出进行闭环控制以及结果评价。实车测试验证的成本高昂，针对经典的自动驾驶架构，行业已经有一套行之有效的方案进行模型上车前的测试验证，即感知算法使用回灌数据进行离线开环测试，规控算法基于模拟器进行闭环测试验证。

对于感知“端到端”、决策规划模型化，传统的测试方法依然有效，显示的输出能够被定义和构造。但对于模块化端到端、One Model/ 单一模型端到端，隐示的表达可以被捕捉，但无法评测，也无法构造，这就造成传统方法的失效。在基于数据回灌的开环测试条件下，端到端系统无法与环境交互，系统一旦出现偏离采集路径的操作，后续系统的响应将无法评估。

图片来源Building the Next-Generation of Autonomous Vehicles in Simulation

当然这里的传统测试方法主要指的是SIL，对于HIL而言，现在主流的测试已经是信号级传感器的注入，对完整的功能进行测试验证，端到端的改变并没有很大影响。此外，目前模块化端到端、One Model/ 单一模型端到端还处在一个研发阶段，实际上车还需要很长一段时间。所以本文所讨论的内容，既有落地的方案，也有处在预研阶段的路线。

端到端仿真的技术路线

端到端仿真需要更加真实的传感器输入，尤其是视觉传感器，这是行业的共识。实现高保真模拟的技术路线包括基于光线追踪的游戏引擎、基于三维重建的仿真器以及基于世界模型的仿真器。

基于游戏引擎的仿真器

全球最大最顶尖的端到端算法比赛，即CVPR 2024 Autonomous Grand Challenge，是采用CARLA测试，同时也有基于CARLA的算法比赛项目。CARLA基于Epic Games的虚幻引擎4构建，这意味着它可以生成高保真的3D环境，提供视觉上的真实性，这对于测试车辆感知系统尤其重要。也就是说从技术角度，Carla 这一类基于物理引擎架构的仿真平台在一定程度上可以完成自动驾驶感知端到端模型的训练和测试。

基于三维重建的仿真器

近年来，自动驾驶技术的迅猛发展不断推动着相关领域的技术革新。自ECCV 2020会议上NeRF（神经辐射场）技术的首次亮相，我们见证了三维重建技术跨入了一个全新的发展阶段。NeRF通过先进的深度学习算法，能够从稀疏的二维图像中重建出连续的三维场景，这一突破为自动驾驶领域提供了前所未有的感知能力。

紧接着，SIGGRAPH 2023会议上提出的3DGS（3D高斯泼溅）技术，进一步加速了三维重建技术的发展。3DGS通过更高效的数据处理和更精细的模型构建，使得三维模型的生成更加迅速和准确，为自动驾驶系统提供了更为丰富和细致的环境理解。

清华AIR提出的首个开源自动驾驶NeRF仿真工具MARS，Waabi和多伦多大学在CVPR 2023上的工作汇报中介绍了UniSim，浙大&理想在ECCV 2024上Street Gaussians，一种新的显式场景表示。此外还有GaussianPro、LidaRF等相继被提出。

尽管三维重建的热点不断，但从实际表现来看，局限性比较多，重建效果非常依赖数据，而且当视角与原车视角变换大时，效果不可控。此外，动态场景的添加、场景与车辆的交互、光影的变换，也存在一些实现难点。

基于世界模型的仿真器

2023年2月16日凌晨，OpenAI 发布了视频大模型 Sora，能够根据用户提供的文本描述生成长达 60 秒的视频，视频精准反映提示词内容，复杂且逼真，效果惊艳。广义上，Sora 也属于世界模型的范畴。世界模型也是对物理世界“常识”的理解。

世界模型可以有效赋能智驾。在自动驾驶领域，能够准确预测驾驶场景未来的演变至关重要，通过对场景即将发生的事件进行预判，汽车可以自如地进行规划和控制做出更明智的决策。

图片来源World Models for Autonomous Driving: An Initial Survey

采用自回归的模型，将数据压缩和提炼，在潜在空间通过无监督的训练构建模型对未来进行预测，之后通过不同的解码器将预测好的信息解码成为需要的表达方式进而构建世界模型。在自动驾驶领域，世界模型可以用来生成场景，也可以直接用来做决策规划。具体而言：

可以生成诸多逼真的场景，生成稀缺、难以采集的场景，为模型训练提供足量的数据；
同样生成的场景亦可以作为仿真测试工具对算法进行闭环验证；
多模态的世界模型亦可以直接生成驾驶策略来指导自动驾驶行为。

OASIS SIM V3.0如何赋能

端到端仿真

OASIS SIM 3.0是基于游戏引擎的仿真器，也就是技术路线中的第一个。对于端到端的仿真，OASIS SIM能够提供高保真场景模拟与传感器以及高质量、规模化的测试用例场景搭建，提升仿真的置信度以及测试覆盖度。

高保真传感器模型

OASIS SIM V3.0通过精确的物理模型，实现了传感器仿真的高精度模拟，能够实现传感器采集层、模型层、协议层的全流程仿真。摄像头可模拟长焦、广角、鱼眼、双目等各种镜头类型，仿真畸变、运动模糊、晕光、过曝、脏污、噪声等特性。激光雷达模型通过对扫描特性、传播特性进行物理建模，实现运动畸变、噪声、强度的模拟，可以仿真不同型号的激光雷达，并生成接近真实雷达的点云数据。

摄像头仿真

激光雷达仿真

OASIS SIM将在新版本中使用UE5，使用更加精细的素材以及全新的光照和天气系统，丰富细节，提升真实度。

交通流仿真模型

OASIS SIM V3.0交通流能够在仿真环境中自定义交通流，重现真实世界的交通情景，帮助测试和优化自动驾驶算法。交通流场景控制功能支持基于规则的控制模型以及基于AI的控制模型。基于规则的控制模型能够自动识别并适配不同道路拓扑结构，可以根据周车的交互行为做出相应的驾驶行为，如车辆跟驰、换道、车道侵入、超车、避障、遵守交通规则等，无需预先定义原子场景。

大规模城镇场景程序化建模

OASIS SIM 3.0支持直接导入OpenDrive文件，并自动识别和解析道路网络等关键信息自动化生成三维场景，无需复杂的建模和人工编辑，提高了场景构建的速度和效率。在后续的版本中，会逐渐丰富场景的个性化参数，包括场景的风格、植被的密度、建筑的密度，并添加围栏、路灯、街道障碍物等。虽然建筑等并不是自动驾驶感知的感兴趣区域，但会影响光影效果，进而影响感知结果。

OASIS SIM V3.0三维场景生成

基于3DGS的融合策略

3D高斯泼溅（3DGS）技术的突破彻底改变了场景建模和渲染。利用显式3D高斯体的强大功能，3DGS在新视图合成和实时渲染方面取得了最佳效果，同时相比传统的表示方法（如网格或体素）显著降低了参数复杂性。这项技术无缝集成了基于点的渲染和splatting的原理，通过基于splatting的栅格化促进了快速渲染和可微分计算。

基于原始的 3DGS 算法，对自动驾驶场景进行进一步的动静态元素建模，对场景背景信息和交通参与者同时进行还原。

在此基础上， OASIS SIM V3.0 实现了 3DGS 场景和存量建模场景的渲染融合表达，支持对融合场景进行深度编辑，例如添加/移动车辆，改变天气光照等。

下图为真实数据展示

下图为OASIS重建场景演示，并且进行了车辆添加和天气改变

测试之外

合成数据

自动驾驶进入深水区，端到端逐步成为未来方向，世界模型重要性凸显。一方面随着自动驾驶走入深水区，玩家对数据的要求日益提升，厂家希望数据能够模拟复杂交通流、具有丰富的场景、广泛收集各类长尾场景、并且具备 3D标注信息。而现实状态下，数据的采集成本居高不下，部分危险的场景如车祸等难以采集，长尾场景稀缺，同时3D标注的成本高昂，因此采用合成数据来助力自动驾驶模型训练测试成为颇具前景的发展方向，而世界模型恰为良好的场景生成和预测器。

另一方面，随着端到端自动驾驶成为未来的发展方向，开发者需要依靠数据将驾驶知识赋予模型，数据需求会伴随模型体量的增加而扩大。此外更重要的影响在于，在仿真和验证环节，传统的模块化算法时代可以对感知和规控模块分别进行验证，感知端可以进行开环的检测（即将感知的结果和带有标注的真实世界状况直接对比即可，不需要反馈和迭代），规控环节可以依靠仿真工具，将世界的状况（各类场景）输入，通过环境的变化来给予模型反馈，进而闭环的（外部环境可以根据智能体的输出变化而改变，形成反馈）验证规控算法的性能。

这其中，感知环节更注重仿真环境的逼真性，而规控环节更注重逻辑的丰富度。在端到端时代，感知和规控合二为一，这要求仿真工具既可以逼真地还原外部环境，同时能够给予模型反馈实现闭环测试，尽管 NeRF、3DGS等等算法层出不穷，但能够很好的做到自动驾驶全过程完整的闭环测试亦难度较高，而世界模型则能够很好的应对类似的场景。

深度强化学习

在强化学习中，智能体学习如何在环境中做出决策和行动，以最大化累积奖励信号。在自主智能体的背景下，强化学习为这些智能体提供了一种通过试错学习来学习如何在没有明确编程的情况下执行任务和做出决策的方法。智能体是强化学习框架中的学习者。它与环境相互作用，并采取行动实现某些目标。环境是代理与之交互的外部系统。

深度Q学习（Deep Q-Network，DQN）是一种改进的Q学习算法，它使用神经网络来估计Q值。DQN的主要优势是它可以处理大规模的状态空间，从而能够应用于复杂的环境中。

展望

对于端到端模型的开发，仿真测试相比道路测试具有更大的优势：闭环。通过基于大模型实现的世界模型，我们可以建立可闭环、逼近物理级交互的世界仿真器。同时，借助于强化学习，来实现人类驾驶经验、交通法规的信息注入，引导模型更好迭代。

另外，著名 AI 科学家李飞飞近期的创业方向-空间智能说到

多年来我一直强调，拍照和真正地「看」并理解是两回事。今天，我想补充一点。仅仅看见是不够的。真正的「看」是为了行动和学习。当在三维空间和时间中采取行动时，我们将通过观察来学习如何做得更好。自然界通过「空间智能」创造了一个良性循环，将视觉和行动联系起来。

自动驾驶车辆作为智能体，也可以赋予空间智能的能力，由其所处的空间来决定下一步的动作，也许也是端到端仿真的技术方向。

往期推荐:

OASIS SIM V3.0 全新升级上线！AI重塑端到端自动驾驶仿真！

一文看懂|OASIS SIM V3.0交通流如何为自动驾驶算法提供CornerCase挑战

一文看懂 | 如何用OASIS SIM V3.0进行高阶智驾的硬件在环（HIL）测试

一文看懂|如何用OASIS SIM V3.0进行ADAS功能场景和准入测试

SYNKROTRON