最新综述：世界模型如何推动自动驾驶-CSDN博客

关注公众号，发现CV技术之美

本篇分享最新综述The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey，世界模型如何推动自动驾驶。

背景

驾驶世界模型（Driving World Models, DWM）是预测驾驶场景演化的关键技术，能够帮助自动驾驶系统感知、理解并与动态驾驶环境交互。

近年来，DWM 在提升自动驾驶安全性和可靠性方面的重要性日益凸显。然而，现有研究仍面临诸多挑战，包括多模态数据的高效融合、稀缺数据场景的建模以及模型在复杂场景中的鲁棒性。

为此，本文对DWM 的研究现状进行了全面梳理，系统性总结了方法分类、应用场景、数据集与指标，并深入探讨了未来研究方向，为研究者提供了宝贵的参考。

此外，本文还公开了一个名为Awesome World Models for Autonomous Driving的GitHub仓库，现在已经收获超700 star，并保持持续更新。

本综述系统性地对 DWM 方法进行了分类，涵盖了 2D 场景、3D 场景和无场景范式，并详细介绍了每种方法的核心技术和最新进展：

2D 场景演化

2D 场景方法主要利用生成技术（如自回归 Transformer 和diffusion模型）生成高保真、物理一致的驾驶场景：

3D 场景演化

3D 场景方法利用occupancy和点云数据，捕获精确的空间几何关系和动态信息：

无场景（Scene-free）范式

无场景方法不关注细致的场景预测，而是关注潜在状态的预测或多智能体行为的建模，提升自动驾驶系统的效率和泛化能力：

DWM在自动驾驶中的应用场景广泛，涵盖仿真、数据生成、预测与规划以及4D预训练等多个方面：

仿真

DWM通过生成多样化、高保真的驾驶场景，支持自动驾驶模型的训练与评估。如Vista提供高保真的视频仿真，支持动作评估；ACT-Bench关注动作保真度，准确遵守condition的控制；TrafficBots模拟多智能体行为，提升动作仿真真实性。

数据生成

DWM通过合成多样化的数据，弥补真实数据的不足。例如，DrivePhysica生成高质量驾驶视频，LidarDM生成真实的点云数据，增强下游任务（如3D检测）的性能。此外，DriveDreame4D还能合成新的驾驶行为视频，强化下游模型对长尾场景的适应能力。

预见性规划

DWM通过未来场景预测优化车辆规划与决策。例如，DriveWM结合奖励函数选择最优轨迹，ADriver-I通过多模态预测实现长时间规划。也可以将场景预测与训练过程结合，例如AdaWM通过对比预测场景和真实场景的差异来进行微调，LAW通过监督场景预测和未来真实场景一致以强化端到端规划。

4D预训练

利用多模态数据进行自监督学习，DWM提升了下游任务性能并降低了对人工标注的依赖。例如，ViDAR通过视觉点云预测学习3D几何信息，BEVWorld在多传感器数据上进行统一的BEV表示预训练。

高质量的数据集和科学的评估指标是推动 DWM 研究的重要基石。本综述全面梳理了 DWM 领域的主流数据集和常用指标：

多模态数据集：如 nuScenes、Waymo Open Dataset，涵盖图像、点云和 occupancy 等多种模态。
定制化数据集：如 DrivingDojo 专为 DWM 训练设计，包含复杂的驾驶动态场景。
评估指标：DWM的评估指标因任务不同而多样化，主要包括生成指标和规划指标：
生成质量：如FID（Fréchet Inception距离）、FVD（Fréchet视频距离）等衡量生成数据与真实数据的分布差异。
规划性能：如Collision Rate（碰撞率）、Driving Score（驾驶得分）等评估模型在规划任务中的表现。
一致性与可控性：除了通用的生成与规划指标外，DWM还需考虑预测场景演变的时空一致性和可控性。为此提出了一些指标，如关键点匹配（KPM）和对象操作控制（COM）。