DRIVEARENA: A Closed-loop Generative Simulation Platform for Autonomous Driving
摘要:DRIVEARENA第一个为驾驶代理在真实场景中导航而设计的高保真闭环仿真系统。包含三个模块:Traffic Manager,World Dreamer,Agent。智能体通过World Dreamer生成的图像感知周围环境并输出轨迹,这些轨迹被输入交通管理器,与其他车辆实现逼真的交互,并产生新的场景布局;最后,最新的场景布局被传回World Dreamer,使模拟周期永久化。这种迭代过程在高度现实的环境中促进了闭环探索。
主要贡献:
- 高保真的闭环仿真
- 可控并且可扩展
- 模块化设计,可以灵活替换
框架
包含:Traffic Manager:用于控制车流,World Dreamer:用于渲染世界图像,Agent:驾驶代理
Traffic Manager:接受代理输出的自我车辆的轨迹信息,管理整体的车流,利用车流生成的算法,允许不常见的不安全的驾驶场景的出现
利用LimSim作为底层交通管理器模拟动态交通场景,生成道路和车辆布局
支持自定义的高清地图,便于构建道路图形方便仿真;闭环模式下,智能体对自车进行规划,并控制自车;开环模式下,预测的轨迹不用于控制自车
World Dreamer:输出相机图片,可以接受提示词控制输出
基于Diffusion模型的World Dreamer,利用地图和控制条件和交通管理器的车辆布局生成驾驶场景,可控并且可扩展
几个改进点:
- 新的Condition Encoding,对每个视图的相机姿态、文本描述、3D对象边界框和BEV地图布局进行编码,将地图和对象布局投影到每个相机视图上,以生成布局画布,从而提供更准确的车道和车辆生成指导。
- 引入一个参考条件来提供外观和时间一致性指导。在训练过程中,从过去的L帧中随机提取一帧作为参考帧,并使用预训练的CLIP模型从多视图图像中提取参考特征。编码的参考特征暗示了语义上下文,并通过交叉注意力模块集成到条件编码器中。为了使扩散模型能够感知自我车辆的运动变化,将自我相对于参考帧的姿态编码到条件编码器中,以捕捉背景的运动变化趋势。相对姿态嵌入规则通过傅里叶嵌入进行编码。通过结合上述控制条件,有效地控制环绕图像的生成。
- 自回归生成。为了在保持时间一致性的同时促进在线推理和流媒体视频生成,开发了自回归生成pipeline。具体而言,在推理阶段,先前生成的图像和相应的相对自我姿态被用作参考条件。这种方法引导扩散模型生成具有增强一致性的当前环绕图像,确保与先前生成的帧的平滑过渡和一致性。
Agent:接受相机图片,输出轨迹预测
文中使用了UniAD
闭环评估:
PDMS
实验
使用nuScenes数据集进行训练,700个场景训练、150个场景验证
使用预训练的Stable Diffusion v1.5作为预训练模型,其他结构都是从头训练
Traffic Manager的频率为10Hz,控制频率为2Hz,每0.5s向WorldDreamer发送布局请求图像
总结和未来的工作
数据多样性:当前的生成模型仅在nuScenes数据集上训练,这限制了多样性和涌现能力
时间一致性:虽然可以使用自回归策略生成连续视频,但保持帧之间的运动趋势和时间一致性仍然具有挑战性。
运行时效率:与许多生成模型一样,World Dreamer需要大量的运行时
扩展智能体测试