作者 |自动驾驶专栏 编辑 | 自动驾驶专栏
点击下方卡片,关注“自动驾驶之心”公众号
>>点击进入→自动驾驶之心『世界模型』技术交流群
本文只做学术分享,如有侵权,联系删文
论文链接:https://arxiv.org/pdf/2503.09215
摘要

本文介绍了驾驶世界模型在视频潜在空间中统一自车与其它车辆轨迹。高级端到端自动驾驶系统可以预测其它车辆的运动,并且规划自车的轨迹。能够预见轨迹结果的世界模型已经被用于评估端到端自动驾驶系统。然而,现有的世界模型主要突出了自车的轨迹,而使其它车辆不可控。这一局限性阻碍了它们真实地模拟自车和驾驶场景之间交互的能力。此外,为视频中的每辆汽车匹配多条轨迹以控制视频生成仍然是一项挑战。为了解决上述问题,本文提出了一种称为EOT-WM的驾驶世界模型,它统一了视频中自车与其它车辆的轨迹。具体而言,本文首先将BEV空间中的自车与其它车辆轨迹投影到图像坐标,以将每条轨迹与视频中的相应车辆相匹配。然后,通过时空变分自动编码器对轨迹视频进行编码,以在统一的视觉空间中从空间和时间上与驾驶视频latents对齐。此外,本文还进一步设计了轨迹注入扩散Transformer,用于在自车与其它车辆轨迹的引导下对带有噪声的视频latents进行去噪,以生成视频。最后,本文提出了一种基于控制潜在相似性的指标来评估轨迹的可控性。本文在nuScenes数据集上进行了大量实验,结果表明,所提出的模型在FID和FVD指标上分别比最先进的方法提高了30%和55%。该模型还可以使用自生轨迹来预测未见过的驾驶场景。
主要贡献

本文的主要贡献总结如下:
1)本文首先提出了一种基于自车与其它车辆轨迹的驾驶世界模型,更真实地模拟自车与驾驶场景之间的交互,并且能够通过可变的自车与其它车辆轨迹来生成多样化场景;
2)本文提出将轨迹表示为视频,并且通过驾驶视频编码器对轨迹视频进行编码,以使每条轨迹能够在统一的视觉空间中与每辆汽车对齐;
3)本文设计了轨迹注入扩散Transformer,以通过自车与其它车辆轨迹来更精确地对带有噪声的视频latents进行去噪。此外,本文进一步提出了基于控制潜在相似性的指标来评估轨迹的可控性;
4)本文在nuScenes数据集上进行全面实验,以评估所提出的EOT-WM,结果表明它在FID和FVD指标上分别比最先进的方法提高了30%和55%。
论文图片和表格

总结

本项工作提出了一种称为EOT-WM的新型驾驶世界模型,它可以使用自车和其它车辆轨迹来生成逼真的视频。具体而言,本文提出了在视频空间(而不是BEV空间)中表示自车和其它车辆轨迹,用于在统一的视觉模态中学习。然后,本文提出了AMGG来生成从空间和时间上与驾驶视频latents对齐的轨迹latents,它们也共享特征空间。最后,本文设计了TiDiT,它通过联合使用基于自车与其它车辆轨迹的运动引导来更精确地对带有噪声的视频latents进行去噪。本文在nuScenes数据集上进行实验,结果证明了所提出的EOT-WM的优越性。
在未来工作中,本文将探索更精确地控制其它车辆的方式,以及评估给定轨迹与生成视频之间一致性的定量指标。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com