作者 | 半闲 编辑 | 自动驾驶之心
原文链接: https://zhuanlan.zhihu.com/p/31557051183?
点击下方卡片,关注“自动驾驶之心”公众号
>>点击进入→自动驾驶之心『多模态框架』技术交流群
本文只做学术分享,如有侵权,联系删文
论文地址:
https://arxiv.org/abs/2503.14945
项目主页:
https://yanhaowu.github.io/UMGen/
1. 概述
随着端到端自动驾驶技术的发展,行业对于闭环仿真测试器和仿真训练器的需求越来越明确和急迫。生成模型有希望成为构建这样一个仿真系统的基础技术架构。然而,现有自动驾驶场景生成方法通常以生成图像为主,忽视了驾驶场景的其他元素,如闭环测试还需要的地图、smart agents(交通参与者)等元素。
为此,我们提出了一个多模态驾驶场景生成模型框架UMGen。该模型可以预测生成驾驶场景的各种元素——自车运动、静态元素、smart agents和图像等,因此可用于构建闭环仿真器,甚至是self-play(自博弈)的强化学习训练器。具体来讲,UMGen将场景生成转换为Next-Scene Prediction任务,利用帧间并行自回归和帧内多模态自回归技术,在一个统一的模型中生成以自车为中心、多模态一致的驾驶场景序列,其生成的每个场景中包含自车、地图、交通参与者以及图像等多种元素,并还可以根据需求增加其他模态的元素。
UMGen可以自由想象生成各种驾驶场景,更重要的是,它可以根据用户的控制和设定来生成特定的驾驶场景,如控制自车在场景中主动执行左右转等动作,控制他车和自车生成一个cut-in场景等。这些交互式生成的功能,既可以为自动驾驶训练生成稀缺样本,也可以用来构建闭环仿真器以测试和训练端到端自动驾驶系统。
视频1
❝UMGen生成的多模态场景,视频中的每一个模态(自车动作,地图,交通参与者,图像)都由模型自行想象
2. 方法

UMGen从给定的初始场景序列开始,逐场景、自回归地生成多模态驾驶场景。我们首先根据历史信息预测自车要采取的动作,然后根据这一动作预测观察到的地图变化,以及其他交通参与者的行动,最后将这些信息映射到图像中。为实现这一目标,我们将每个时刻的场景元素(包括自车动作、地图、交通参与者以及摄像头图像)转换为有序的token序列,从而将生成任务转化为Next-token Prediction任务。一个很直观的想法是将来自不同帧、不同模态的token直接拼接在一起,然后使用一个decoder-only的transformer进行预测。但是这样做,token数量会随着场景长度的增加而迅速增加,使得算力需求变得无法接受。
为了解决这一问题,我们提出了一种两阶段序列预测方法,将整体任务划分为帧间预测和帧内预测两个阶段。在帧间预测阶段,我们设计了时序自回归模块 (TAR) ,该模块通过因果注意力机制对帧间的时序演化进行建模,确保每个token仅依赖于其历史状态,从而捕捉时间维度上的动态变化。在帧内预测阶段,我们引入了有序自回归模块 (OAR) ,该模块通过指定帧内模态生成的顺序(自车动作→地图元素→交通参与者→摄像头图像,如下视频所示),建立场景内不同模态之间的关联,从而保证模态间的一致性。TAR和OAR模块协同工作,不仅有效捕捉了跨模态的时序依赖关系,还显著降低了计算复杂度,为高效生成多模态驾驶场景提供了技术保障。同时,为了增强自车动作与地图变化之间的模态一致性,我们还提出了AMA模块,根据自车动作计算affine transformation矩阵对地图特征进行变换,充分利用地图这种静态元素的时序先验提升预测精度。
视频2
❝UMGen生成过程
3.实验及可视化
UMGen在nuPlan数据集上进行训练,并通过可视化和定量实验证明其具备自由幻想多模态驾驶场景的能力,以及按照用户需求生成特定驾驶场景的能力。此外,我们还展示了UMGen在闭环仿真中的应用潜力:通过将自定义的自车动作注入UMGen中替换生成的自车动作,UMGen实时生成了相对应的下一时刻场景。
以下对部分实验结果进行展示。
自主自由幻想生成驾驶场景序列
A. 生成长时序多模态驾驶视频
视频3
B. 生成多样的驾驶视频
视频4
自车受控下的场景生成
用户控制自车动作以生成指定行为模式下的多模态场景。
A. 在路口控制自车直行或者右转
视频5
B. 控制自车停车等待或者变道超车
视频6
用户指定的场景生成
在此模式下,用户可通过控制指定交通参与者的动作以创造场景。
在该场景中,通过设定黑色汽车的横向速度,我们创造了一个"他车突然变道插入"的危险场景,并控制自车刹车或者变道完成规避
视频7
利用Diffusion Model进一步提升图像质量
受到近期Diffusion模型的启发,我们训练了一个基于transformer的Diffusion模型。通过将UMGen生成的token作为condition,我们实现了更高质量的图像生成。
总结
UMGen在统一框架内实现了多模态驾驶场景的生成,每个场景包含自车动作、地图、交通参与者以及对应的图像信息。其交互式生成的能力,展现了广泛的应用潜力, 如作为闭环仿真器的核心组件以及corner case数据生成器等。在未来的研究中,将更多模态数据(如激光雷达点云)纳入生成框架中,将是一个值得探索的方向,这有望进一步提升场景生成的丰富性和实用性。
视频8
视频9
❝左侧原图,右侧diffusion之后
最后
欢迎讨论,欢迎留言,鄙人常驻知乎
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com