自动驾驶变革前夕 | 探索自动驾驶中视频生成与世界模型之间量子纠缠

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享东南大学最新的世界模型综述!全面复盘了世界模型在自动驾驶中的工作及未来发展趋势。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心世界模型技术交流群

论文作者 | Ao Fu等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

世界模型和视频生成是自动驾驶领域的关键技术,每项技术在提高自动驾驶系统的鲁棒性和可靠性方面都发挥着至关重要的作用。模拟真实世界环境动态的世界模型和产生逼真视频序列的视频生成模型正越来越多地被整合,以提高自动驾驶汽车的态势感知和决策能力。本文研究了这两种技术之间的关系,重点研究了它们的结构相似性,特别是在基于扩散的模型中,如何有助于更准确、更连贯地模拟驾驶场景。我们研究了JEPA、Genie和Sora等领先工作,这些工作展示了世界模型设计的不同方法,从而突显了世界模型缺乏普遍接受的定义。这些不同的解释强调了该领域对如何针对各种自动驾驶任务优化世界模型的不断发展的理解。此外,本文还讨论了该领域采用的关键评估指标,如用于3D场景重建的Chamfer distance和用于评估生成视频内容质量的FID。通过分析视频生成和世界模型之间的相互作用,本调查确定了关键挑战和未来的研究方向,强调了这些技术共同提高自动驾驶系统性能的潜力。本文的研究结果旨在全面了解视频生成和世界模型的集成如何推动开发更安全、更可靠的自动驾驶汽车的创新。

a5f88a7df28d452f6ceeadf3455f3853.png

总结来说。本调查探讨了集成视频生成和世界模型的最新进展和挑战,重点关注它们在自动驾驶中的应用,如图1所示。它旨在突出这些技术的结构相似性和协同潜力,为自动驾驶汽车技术领域的未来研究方向和实际应用提供见解。具体而言,与其他作品相比,本综述有以下四个主要贡献:

  • 分析了各个领域的世界模型的定义,强调世界模型的概念并不完全固定。它

  • 介绍了我们对世界模型的理解,并考察了自动驾驶领域世界模型的结构一致性。

  • 强调了视频生成模型和世界模型之间的结构相似性,解释了这些相似性如何提高自动驾驶系统的性能和能力。

  • 确定了整合视频生成和世界模型的关键挑战和机遇,提供了如何在现实世界场景中进一步开发和应用这些技术的见解。

视频生成

视频生成涉及通过深度神经网络利用历史数据预测未来的视频帧。目标是通过准确预测与既定视觉和时间动态一致的后续帧,无缝扩展视频序列。此任务通常包含条件输入,其中未来帧不仅基于先前帧生成,还受到补充条件的影响,例如文本到视频的转换。该过程可以正式描述如下:

96f2762db4c631e8d89f23715ff43f5f.png

传统视频生成

在最初阶段,视频生成技术很难制作出自然、冗长的视频。早期的模型通常根据训练数据中的模式在像素级别预测下一帧,或者使用概率模型来改进数据分布近似值。这些尝试缺乏标准化的结构,采用了各种架构,如长短期记忆(LSTM)、Transformer和生成对抗网络(GAN),通过对抗训练来提高生成质量。

  • 基于循环。基于循环的网络处理视频序列中的时间依赖性,这对于理解随时间变化的动态至关重要。它们记忆长期依赖关系的能力使基于循环的模型适用于具有连续动作或逐渐演变场景的场景,例如电影中的情节发展或监控视频分析。将传统的卷积神经网络(CNN)与循环网络相结合,利用CNN提取单个帧的局部特征,利用循环网络理解帧之间的时间和空间动态。开发了时空LSTM(ST-LSTM),增强了合成视频序列的时间和空间一致性。虽然对于捕捉时间依赖性很有效,但基于循环的模型可能计算量很大,并且可能难以处理很长的序列。

  • 基于Transformer。与基于循环的模型不同,Transformers可以一次处理整个数据序列,通过堆叠更多层来增加复杂性和表现力。

  • 基于GAN。通过对抗训练,GAN可以创建新颖逼真的视频内容。MoCoGAN,将视频分解为内容和运动,通过无监督训练和分离潜在空间实现随机生成。虽然GAN产生高质量的输出,但它们的训练具有挑战性,可能会遇到模式崩溃等问题,这会降低它们的灵活性。

传统的视频生成模型虽然具有开创性,但面临着影响其实际应用的重大局限性。它们通常缺乏跨不同视频类型的通用性和适应性,生成的视频质量经常不足,特别是在保持自然、连贯的长序列方面。这些挑战源于模型架构的局限性和训练复杂网络的计算负担,凸显了创新方法的必要性。下一节将探讨基于扩散模型的先进视频生成技术,旨在提高生成视频的质量、连贯性和长度,为该领域设定新的标准。

基于扩散模型的视频生成

1)图像生成的扩散模型:扩散模型是一种将朗之万动力学和随机微分方程相结合的概率生成模型,已成为生成方法的基石。由于其直接的训练、高质量的输出和控制能力,它已被广泛采用。当代SOTA视频生成模型严重依赖于扩散模型框架。去噪扩散概率模型(DDPM)代表了最直观和最广泛接受的公式。训练扩散模型包括两个阶段:正向过程和反向过程。在正向过程中,噪声逐渐添加到图像中,直到它几乎与高斯噪声无法区分。在反向过程中,该模型系统地从该噪声中重建原始图像。

2)视频生成的扩散模型:由于易于训练扩散模型及其一般结构,视频生成的研究通常遵循固定的流水线架构,这与之前的工作不同。该流水线通常包括自动编码器和核心扩散模型。训练过程分为两个阶段:(i)自动编码器学习数据的特征表示,将其压缩到一个潜在空间。(ii)然后在这个潜在空间内训练扩散模型,重点是通过利用压缩的特征表示来生成内容。基于UNet:扩散模型通常采用UNet,因为它能够通过跳跃连接进行多尺度特征提取和细节捕获。VideoComposer,将其与时空条件编码器(STC编码器)集成,用于多条件视频生成。

基于自回归:模型的可扩展性及其处理大型数据集的能力在视频生成任务中至关重要。MAsked Generative VIdeo Transformer(MAGVIT),利用3D标记器对视频输入进行序列化,并结合了MaskGIT和扩散模型的技术。Copilot4d是自动驾驶的场景生成模型,预测场景的未来3D表示。它将标记器与Transformer架构集成在一起,促进了环境动态的预测,并对代理对周围世界的理解进行了建模。

2559aed2c05162777bea4f2d1288e15e.png

自动驾驶中的世界模型

从以强化学习为中心的世界模型到专注于数据抽象的JEPA,再到以先进的生成能力而闻名的基于数据驱动的DiT的Sora,以及模拟游戏场景的Genie——这些不同的模型都被定义为世界模型。与这种多样化的世界模型相比,自动驾驶领域的模型通常具有统一的结构:感知模块和预测模块。感知模块充当模型与其外部环境之间的中介,将输入数据压缩为特定的表示格式,以减轻后续预测过程的负担。预测模块使用这些精炼的数据来预测未来的状态,其中可能包括环境场景、决策过程。

6615c9fa77d7cf10442459e13c4af248.png

同样基于扩散模型的视频生成框架的架构基础也分为两个主要部分:捕获和解码数据模式的自动编码器和预测数据分布的核心扩散模型,如图4所示。这种结构设计确保了模型能够有效地处理和生成复杂的数据。自动驾驶世界模型和基于扩散的视频生成框架之间的结构相似性突显了这种架构方法的有效性。利用这些先进的模型可以增强自动驾驶系统的态势感知和决策能力,为更可靠、更高效的自动驾驶汽车铺平道路。因此,本节将根据上述结构对自动驾驶领域的常见世界模型进行分类,表I和图3总结了自动驾驶中世界模型的方法。

71978d2841c7f7c2bd69ee6cbef0d2f4.png 80ec00bfebe127cee47892d1f4205349.png

1)感知预测结构:如前所述,自动驾驶领域的大多数世界模型都是基于固定结构的。无论是多模态编码器还是单个模态标记器,它们都是环境和模型之间的纽带,充当模型的感知者来收集信息和提取特征。擅长处理视觉信息的扩散模型和擅长处理序列化和语言信息的Transformer结构都用于拟合和预测现实世界的数据分布。因此本文将这种结构归类为感知预测结构。

2)强化学习结构:另一种类型的世界模型基于强化学习框架,它利用深度神经网络来取代其框架内的复杂学习过程。这种方法更侧重于理论研究以及如何表示现实世界的概率分布。此类工作通常涉及抽象框架,并倾向于采用端到端的应用模式。因此,本文将其归类为基于强化学习的另一种结构。

数据集和评测指标

鉴于目前缺乏自动驾驶世界模型的标准化基准,本文强调了专门针对该领域定制的数据集和评估指标的重要性。与之前关于视频生成的讨论(此处不再赘述)不同,我们的重点是表二所示的自动驾驶世界模型发展所必需的数据资源和指标。

b40668140ca524780e9627302c1444d3.png

前景和挑战

基于世界模型的方法代表了自动驾驶领域的一种前沿方法,能够对未来的驾驶场景进行高精度模拟和预测。该技术通过创建潜在未来事件的详细可视化,增强了自动驾驶汽车(AV)的态势感知和决策能力。随着这项技术的不断发展,它带来了许多机遇和挑战。

未来前景

1) 增强多模态感知和控制的集成:未来世界模型旨在集成各种感知和控制信号,超越传统的模块化设计。利用MLLM和视觉扩散模型(VDM),这些系统将统一视觉和动作信号处理。这些模型将根据视觉动作对预测当前帧的控制信号,并根据历史数据预测未来帧,从而实现“无限驾驶”功能。这种集成将使自动驾驶汽车能够无缝地解释复杂的交通环境,对意外障碍做出迅速反应,并优化其导航策略。此外,多模式数据的统一将使更强大、更有弹性的自动驾驶系统能够在恶劣天气或交通繁忙等具有挑战性的条件下保持高性能。

2) 多样化的驾驶场景生成:DriveDreamer-2和GAIA-1等先进的世界模型利用生成模型来创建多样化和逼真的驾驶视频。这些视频可用于训练各种驾驶感知方法,提高其在现实世界应用中的有效性。这些模型不仅可以生成高质量的驾驶视频,还可以通过用户友好的文本提示生成定制的场景,从而提高数据多样性和生成质量。这种能力对于开发能够处理从拥挤的城市街道到偏远农村道路等各种驾驶条件的自动驾驶汽车至关重要。此外,通过生成不同的场景,这些模型有助于识别和解决反车辆系统中的潜在弱点,确保它们为现实世界的部署做好充分准备。

3) 扩展的无监督学习能力:下一代世界模型将进一步扩展无监督学习功能,通过离散扩散和标记化技术处理复杂的观察空间,在没有标签的情况下实现高效学习。这将显著增强自动驾驶系统在动态环境中的自适应和泛化能力。无监督学习将允许自动驾驶汽车通过从操作过程中遇到的大量数据中学习来不断改进,而不需要手动注释。这种方法将降低开发成本,加快AV技术的部署。此外,增强的无监督学习将使自动驾驶汽车更好地理解和适应新的和不可预见的驾驶情况,提高其整体性能和安全性。

挑战

1)数据稀缺性和注释复杂性:尽管在模拟环境中取得了重大进展,但实际应用仍然面临着数据稀缺和复杂注释的挑战。可以推广到现实世界复杂场景的训练模型需要大量高质量的训练数据,这些数据的收集和注释通常既耗时又昂贵。此外,不同地区驾驶条件的可变性需要一个多样化的数据集来确保全面的模型训练。解决这些问题不仅涉及收集更多数据,还涉及开发高效数据注释的创新方法,例如利用半监督学习技术或使用合成数据来增强现实世界的数据集。

2)计算资源和效率:训练高精度世界模型需要大量的计算资源和时间。尤其是扩散模型和LLMs的训练需要高性能硬件和长时间的训练,这对资源有限的研究团队构成了重大障碍。此外,在实时AV系统中部署这些模型需要优化算法,以便在机载有限的计算能力下高效运行。硬件加速方面的创新,如使用专用芯片进行人工智能处理,以及算法效率的提高,对于克服这些挑战和实现先进世界模型在自动驾驶中的实际应用至关重要。

3)隐私问题:自动驾驶汽车严重依赖数据收集和处理来导航和与环境互动。这包括对周围环境的持续监控,以及收集乘客数据以优化旅行路线和时间表。如此广泛的数据收集引发了重大的隐私问题,特别是关于谁拥有这些数据、如何使用这些数据以及如何保护个人隐私免受滥用。解决这些问题需要强有力的数据治理框架,包括明确的数据所有权政策、透明的数据使用实践以及确保数据安全和保护个人隐私的严格措施。确保公众对自动驾驶技术的信任对于其广泛采用至关重要。

4)结构创新:基于世界模型的工作很多,它们的整体结构在很大程度上仍然相似。然而,这并不意味着这些模型结构已经完善。将神经网络拟合到现实世界是一项极具挑战性的任务,因此,探索程序结构和模型选择仍然是一项重大任务。此外,目前专注于生成道路场景和视频生成的任务仍然产生次优结果,表明有相当大的改进空间。

通过不断克服这些挑战,未来的世界模型将更好地支持自动驾驶技术的发展,为更安全、更高效的自动驾驶系统奠定基础。这一进展不仅将彻底改变我们感知和与交通互动的方式,还将显著提高道路的整体安全性和效率。

结论

总之,本综述探讨了视频生成模型和世界模型之间的结构和概念相似性,强调了世界模型这一新兴但尚未定义的概念。世界模型对自动驾驶领域做出了重大贡献,特别是在有效地模拟现实世界和准确预测驾驶决策方面。此外,我们还讨论了该领域的未来前景和重大挑战,强调世界模型的结构设计和优化仍然是持续的任务。世界模型在自动驾驶领域具有巨大的潜力,为现实世界的模拟和预测分析提供了先进的功能。它们与视频生成模型无缝集成的能力增强了自动驾驶汽车的态势感知和决策准确性。尽管取得了这些进步,但仍然存在一些挑战,包括需要更复杂的数据集成、高效的模型训练,以及开发能够处理复杂和多样化驾驶场景的强大框架。应对这些挑战对于世界自动驾驶模型的持续发展和应用至关重要,为更安全、更可靠的自动驾驶系统铺平了道路。

参考

[1] Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey

『自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

f4fcfe6127e447ebd9070153dd7eb364.png

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

768dd0c71cc2855ddd83243ac90c74e2.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

e3d570b15cb0a305d8cef7363e44286c.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

e21116dffa357a4888a4c399b5431417.jpeg

④【自动驾驶之心】全平台矩阵

2e0505ac8edacc18beaf7dbe3ba19216.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值