百度DriVerse:多模态轨迹提示和运动对齐实现全新导航世界模型

作者 | 自动驾驶专栏 来源 | 自动驾驶专栏

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『世界模型』技术交流群

本文只做学术分享,如有侵权,联系删文

  • 论文链接:https://arxiv.org/pdf/2504.18576

  • 代码链接:https://github.com/shalfun/DriVerse

摘要

本文介绍了DriVerse:通过多模态轨迹提示和运动对齐实现驾驶仿真的导航世界模型。本文提出了DriVerse,这是一种通过单张图像和未来轨迹来模拟导航驱动的驾驶场景的生成模型。先前的自动驾驶世界模型直接将轨迹或者离线控制信号传入生成流程中,导致控制输入与2D基础生成模型的隐式特征之间对齐较差,从而生成低保真度的视频输出结果。一些方法使用粗略的文本命令或者离散的车辆控制信号,它们缺乏引导细粒度、特定轨迹视频生成的精度,使其不适合评估实际的自动驾驶算法。DriVerse以两种互补的形式引入了显式轨迹引导:它使用预定义的趋势词汇表将轨迹标记为文本提示以实现无缝的语言集成,并且将3D轨迹转换为2D空间运动先验以增强对驾驶场景中静态内容的控制。为了更好地处理动态目标,本文进一步引入了一种轻量级的运动对齐模块,它着重于动态像素的帧间一致性,这显著增强了运动元素在长序列上的时间一致性。本文还提出了一种推理时间策略来解决车辆快速航向变化导致的问题。DriVerse经过最少的训练并且无需额外数据,在nuScenes和Waymo数据集的未来视频生成任务中超越了最先进的模型。

主要贡献

本文的主要贡献总结如下:

1)本文提出了DriVerse,这是一种轨迹引导的驾驶世界仿真模型,它能够实现高质量生成和强大的泛化能力而不依赖于大规模训练数据;

2)本文设计了多模态轨迹提示(MTP),它将轨迹编码为一系列离散的趋势标记(来自预定义的运动词汇表)和3D anchors在2D空间中的运动。此外,本文还引入了潜在运动对齐(LMA)来提高静态场景的控制精度,并且确保动态目标的时间一致性;

3)DriVerse在nuScenes和Waymo数据集上展现出强大的性能,相比于现有的驾驶世界模型,实现了最佳的效果。

论文图片和表格

总结

本文提出了DriVerse,这是一种自动驾驶世界仿真器,它能够根据单帧输入图像和给定轨迹来生成未来视频序列。为了实现对相机运动(静态内容)和目标运动(动态内容)的精确建模,本文引入了两个模块:多模态轨迹提示(MTP)和潜在运动跟踪(LMT)。这些模块使最初在短距离、低速运动场景下训练的基础视频扩散模型能够通过有限的微调快速适应具有不同动态变化的远距离、复杂城市街道场景。此外,本文还提出了一种动态窗口生成(DWG)策略,以解决车辆航向急剧变化下导致的生成质量下降问题。实验结果表明,DriVerse在视觉质量和轨迹对齐方面均实现了最先进的性能,它生成了具有高度真实感和空间一致性的视频。本文方法为自动驾驶中未来场景仿真提供了一种有效的新范式。

局限性:尽管DriVerse着重于通过视频生成来根据给定轨迹模拟未来场景并且通过从生成的视频中重建轨迹来提出一种新的几何一致性指标,但是它尚未集成到全栈自动驾驶训练循环或者仿真器中。在未来工作中,本文的目标为:(1)探索DriVerse作为端到端驾驶模型中的轨迹评估器或者奖励信号;(2)将DriVerse与现有的隐式城市场景重建框架相结合,以提高在复杂环境中的仿真质量。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值