世界模型进入4D时代!单视角视频构建的自由视角4D世界来了

编辑 | 机器之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心世界模型技术交流群

本文只做学术分享,如有侵权,联系删文

人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期,李飞飞教授团队通过单张图片生成三维物理世界的研究,再次向世界展示了空间智能技术的巨大潜力。

单图生成三维世界,不仅让人们能以交互方式探索静态图像,更标志着 AI 在重建与理解物理场景方面迈入全新阶段。

近日,极佳科技、北京大学、理想汽车及中国科学院自动化研究所联合推出 ReconDreamer,实现了自动驾驶场景自由视角重建+生成。正如同李飞飞及其团队在「空间智能」模型中展现的革新一样,ReconDreamer 仅需要单视角输入视频,即可通过同时重建+生成构建逼真的 4D 世界,第一次实现了平移 6 米范围的高精度渲染,推动这一领域从静态跨越至动态,从单点扩展到全域通用。

4e4bbd831361c1b150710e73df445187.png

  • 论文链接:https://www.arxiv.org/abs/2411.19548

  • 项目主页:https://recondreamer.github.io/

  • 代码地址:https://github.com/GigaAI-research/ReconDreamer

  • 论文标题:ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

引言&方法概览

闭环仿真是实现大规模端到端自动驾驶落地的关键步骤,而场景重建是闭环仿真中的重要一步。现有的驾驶场景重建技术,如 NeRF 和 3DGS,受限于训练数据的分布,仅能有效重建与之相似的驾驶环境。这些方法在处理复杂驾驶操作(如变道、加速或减速)时,其重建效果往往不尽人意,尤其是在面对大幅变化的相机视角时表现欠佳。

由极佳科技领衔的 DriveDreamer4D 工作,通过利用预训练的世界模型扩展相机视角,一定程度上缓解了这些问题,但在大范围视野变化的渲染下仍有局限性。相比之下,ReconDreamer 则通过训练世界模型来减少传统三维重建算法中的伪影,并引入了一种渐进式的修复策略,确保在大幅度相机运动下的高质量渲染

如下图所示,ReconDreamer 相较于 DriveDreamer4D 和 Street Gaussians,在大范围相机运动下展现了显著更优的渲染质量,不仅提升了驾驶前景(如车辆)和背景(如车道线)的时空一致性,还大大增强了动态驾驶场景中闭环仿真的精度和可靠性,为端到端自动驾驶系统的开发和测试提供了更为逼真和可靠的环境。

da8b9db32bbe51ced0f041f38918a418.png

ReconDreamer 的整体框架如下图所示,首先用传统方法如 Street Gaussians 进行场景重建,然后采样新轨迹并进行渲染,为了消除渲染视频中的伪影和缺陷,创新性地利用视频生成世界模型 DriveRestorer 进行视频修复,然后将这些恢复的视频与原始视频一起用于优化重建模型。ReconDreamer 还提出了渐进式数据更新策略,从小位移渲染开始修复,逐步扩展到大范围渲染的修复,这个迭代过程会持续进行直到重建模型收敛为止。

80514a22980aed9ba15282a4cd79507c.png

为了训练 DriveRestorer,需要构建驾驶视频修复数据集。其构建过程如左下图所示,本文使用原始轨迹的 GT 视频来训练一个欠拟合的 3DGS 模型,并在 3DGS 训练过程中渲染低质量视频。这些低质量视频与它们对应的 GT 视频配对,形成了修复数据集。在训练过程中还利用 mask 让网络加强对天空、远处区域的关注。如右下图所示为修复数据集 pair 的可视化。

ac9108de06877bab175f19f84d96abea.png

经过训练后,DriveRestorer 可以修复低质量视频,如下视频所示,左下角为修复前视频,右下角为修复后视频。

此外,ReconDreamer 还提出了一种渐进式修复策略,其算法流程图如下所示,通过逐渐扩大渲染视角范围来逐步更新训练数据,以提升大范围相机运动时的渲染质量。

829c7dc66787988e241fb8d6f7e2599a.png

实验结果

在实验中,如下视频所示,可以看出当前最先进的三维重建算法 Street Gaussians 在大范围相机变换视角时(例如平移 6 米)渲染质量不佳,其车道线、天空、车辆都会模糊,甚至出现 “鬼影” 现象。而 ReconDreamer 可以提升复杂变道场景下的视频渲染效果,不仅消除了 “鬼影”,而且提升了交通元素的渲染质量,车辆和车道线都更加清晰。

此外,ReconDreamer 可以实现大范围自由视角的变化渲染,例如 z 字漂移,横跨运镜等渲染操作。

在定量实验中,本文证明了 ReconDreamer 在大范围的相机运镜渲染(例如横跨 3 米,横跨 6 米,变道)等场景下,可以显著超越传统三维重建算法的性能,尤其是提升车辆和车道线渲染的时空一致性。

3b4bea132f59eb9902313f0577804b80.png

不仅如此,与最近的 DriveDreamer4D 相比,ReconDreamer 所提出的渐进式修复方案可以在大范围相机运镜下显著提升渲染性能,其对比结果如下所示。

3787abe9d1f269592e705fd269089e39.png

此外,本文还通过 user study 证明用户更加偏好 ReconDreamer 的渲染效果,获得了超过 95% 的投票率。

1c99c484429a08bf68d21067776011d6.png

总结

本项 ReconDreamer 工作是极佳科技研究团队之前 DriveDreamer、DriveDreamer-2 和 DriveDreamer4D 工作的延续。

DriveDreamer 是首个面向真实驾驶场景的世界模型,可以根据不同的控制条件生成自动驾驶周视视频,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基础上,引入大语言模型,可以生成用户自定义的驾驶数据,进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新轨迹视频(例如变道、加减速),从而大幅提升了多种 4DGS 算法的重建效果。

ReconDreamer 则是通过训练世界模型 DriveDreamer-2 让其具备视频修复能力,再通过渐进式修复方案进一步提升了大范围视角变化时的渲染效果。

团队介绍

本篇论文的牵头完成单位为极佳科技,是一家空间智能公司,致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力,都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司,在物理空间和虚拟空间两方面都已取得显著的技术和商业进展,获得了行业广泛的认可。

内容概要:本文详细探讨了制造业工厂中两条交叉轨道(红色和紫色)上的自动导引车(AGV)调度问题。系统包含2辆红色轨道AGV和1辆紫色轨道AGV,它们需完成100个运输任务。文章首先介绍了AGV系统的背景和目标,即最小化所有任务的完成时间,同时考虑轨道方向性、冲突避免、安全间隔等约束条件。随后,文章展示了Python代码实现,涵盖了轨道网络建模、AGV初始化、任务调度核心逻辑、电池管理和模拟运行等多个方面。为了优化调度效果,文中还提出了冲突避免机制增强、精确轨道建模、充电策略优化以及综合调度算法等改进措施。最后,文章通过可视化与结果分析,进一步验证了调度系统的有效性和可行性。 适合人群:具备一定编程基础和对自动化物流系统感兴趣的工程师、研究人员及学生。 使用场景及目标:①适用于制造业工厂中多AGV调度系统的开发与优化;②帮助理解和实现复杂的AGV调度算法,提高任务完成效率和系统可靠性;③通过代码实例学习如何构建和优化AGV调度模型,掌握冲突避免、路径规划和电池管理等关键技术。 其他说明:此资源不仅提供了详细的代码实现和理论分析,还包括了可视化工具和性能评估方法,使读者能够在实践中更好地理解和应用AGV调度技术。此外,文章还强调了任务特征分析的重要性,并提出了基于任务特征的动态调度策略,以应对高峰时段和卸载站拥堵等情况。
内容概要:本文介绍了一个使用MATLAB编写的基于FDTD(时域有限差分)方法的电磁波在自由空间中传播的仿真系统。该系统采用了ABC(吸收边界条件)和正弦脉冲激励源,并附有详细的代码注释。文中首先介绍了关键参数的选择依据及其重要性,如空间步长(dx)和时间步长(dt),并解释了它们对算法稳定性和精度的影响。接着阐述了电场和磁场的初始化以及Yee网格的布局方式,强调了电场和磁场分量在网格中的交错排列。然后详细讲解了吸收边界的实现方法,指出其简而有效的特性,并提醒了调整衰减系数时需要注意的问题。最后,描述了正弦脉冲激励源的设计思路,包括脉冲中心时间和宽度的选择,以及如何将高斯包络与正弦振荡相结合以确保频带集中。此外,还展示了时间步进循环的具体步骤,说明了磁场和电场分量的更新顺序及其背后的物理意义。 适合人群:对电磁波传播模拟感兴趣的科研人员、高校学生及工程技术人员,尤其是那些希望深入了解FDTD方法及其具体实现的人群。 使用场景及目标:适用于教学演示、学术研究和技术开发等领域,旨在帮助使用者掌握FDTD方法的基本原理和实际应用,为后续深入研究打下坚实基础。 阅读建议:由于本文涉及较多的专业术语和技术细节,建议读者提前熟悉相关背景知识,如电磁理论、MATLAB编程等。同时,可以通过动手实践代码来加深理解和记忆。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值