【DAY006】论文阅读-03

DRIVEARENA: A Closed-loop Generative Simulation Platform for Autonomous Driving

https://arxiv.org/abs/2408.00415

摘要:DRIVEARENA第一个为驾驶代理在真实场景中导航而设计的高保真闭环仿真系统。包含三个模块:Traffic Manager,World Dreamer,Agent。智能体通过World Dreamer生成的图像感知周围环境并输出轨迹,这些轨迹被输入交通管理器,与其他车辆实现逼真的交互,并产生新的场景布局;最后,最新的场景布局被传回World Dreamer,使模拟周期永久化。这种迭代过程在高度现实的环境中促进了闭环探索。

主要贡献:

  • 高保真的闭环仿真
  • 可控并且可扩展
  • 模块化设计,可以灵活替换

框架

在这里插入图片描述
包含:Traffic Manager:用于控制车流,World Dreamer:用于渲染世界图像,Agent:驾驶代理

Traffic Manager:接受代理输出的自我车辆的轨迹信息,管理整体的车流,利用车流生成的算法,允许不常见的不安全的驾驶场景的出现
利用LimSim作为底层交通管理器模拟动态交通场景,生成道路和车辆布局
支持自定义的高清地图,便于构建道路图形方便仿真;闭环模式下,智能体对自车进行规划,并控制自车;开环模式下,预测的轨迹不用于控制自车
World Dreamer:输出相机图片,可以接受提示词控制输出
基于Diffusion模型的World Dreamer,利用地图和控制条件和交通管理器的车辆布局生成驾驶场景,可控并且可扩展
在这里插入图片描述
几个改进点:

  • 新的Condition Encoding,对每个视图的相机姿态、文本描述、3D对象边界框和BEV地图布局进行编码,将地图和对象布局投影到每个相机视图上,以生成布局画布,从而提供更准确的车道和车辆生成指导。
  • 引入一个参考条件来提供外观和时间一致性指导。在训练过程中,从过去的L帧中随机提取一帧作为参考帧,并使用预训练的CLIP模型从多视图图像中提取参考特征。编码的参考特征暗示了语义上下文,并通过交叉注意力模块集成到条件编码器中。为了使扩散模型能够感知自我车辆的运动变化,将自我相对于参考帧的姿态编码到条件编码器中,以捕捉背景的运动变化趋势。相对姿态嵌入规则通过傅里叶嵌入进行编码。通过结合上述控制条件,有效地控制环绕图像的生成。
  • 自回归生成。为了在保持时间一致性的同时促进在线推理和流媒体视频生成,开发了自回归生成pipeline。具体而言,在推理阶段,先前生成的图像和相应的相对自我姿态被用作参考条件。这种方法引导扩散模型生成具有增强一致性的当前环绕图像,确保与先前生成的帧的平滑过渡和一致性。

Agent:接受相机图片,输出轨迹预测
文中使用了UniAD

闭环评估:
PDMS
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实验

使用nuScenes数据集进行训练,700个场景训练、150个场景验证
使用预训练的Stable Diffusion v1.5作为预训练模型,其他结构都是从头训练

Traffic Manager的频率为10Hz,控制频率为2Hz,每0.5s向WorldDreamer发送布局请求图像

总结和未来的工作

数据多样性:当前的生成模型仅在nuScenes数据集上训练,这限制了多样性和涌现能力
时间一致性:虽然可以使用自回归策略生成连续视频,但保持帧之间的运动趋势和时间一致性仍然具有挑战性。
运行时效率:与许多生成模型一样,World Dreamer需要大量的运行时
扩展智能体测试

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值