极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

最新推荐文章于 2024-08-12 07:30:52 发布

AI生成未来

最新推荐文章于 2024-08-12 07:30:52 发布

阅读量972

点赞数 6

分类专栏： AIGC 文章标签：自动驾驶人工智能机器学习计算机视觉 LLM 世界模型

本文链接：https://blog.csdn.net/AIGCer/article/details/138991279

版权

AIGC 专栏收录该内容

145 篇文章 6 订阅

订阅专栏

文章链接：https://arxiv.org/pdf/2405.03520
项目链接：https://github.com/GigaAI-research/General-World-Models-Survey

通用世界模型通过预测未来来增进对世界的理解，是实现通用人工智能（AGI）的一个基本途径，极佳科技（GigaAI）最新发布了一篇关于世界模型的调研报告，让我们一起来学习下。

这篇调查报告探讨了世界模型领域的最新进展，其中引人关注的"Sora模型"以其出色的模拟能力而备受瞩目，展现了对物理定律的初步理解。这里深入探讨了世界模型在视频生成方面的生成方法学前沿，这些模型是合成高度逼真视觉内容的关键构建。详细剖析了自动驾驶世界模型领域的迅速发展，着重描绘了它们在重塑交通和城市流动性方面不可或缺的作用。此外，还深入研究了部署在自主Agent中的世界模型所固有的复杂性，阐明了它们在促成动态环境中智能互动方面的重要意义。最后，探讨了世界模型面临的挑战和局限，并讨论了它们潜在的未来发展方向。希望这份调查能成为研究界的基础性参考，并激发持续创新。

介绍

在追求通用人工智能（AGI）的过程中，通用世界模型的发展被视为一个基本途径。通用世界模型通过生成过程来理解世界。值得注意的是，Sora模型的引入引起了极大关注。其出色的模拟能力不仅表明了对物理定律的初步理解，还突显了世界模型中具有前景的进展。站在人工智能创新的前沿，深入探讨世界模型的领域至关重要，揭示它们的复杂性，评估它们当前的发展阶段，并思考它们未来可能的发展轨迹。

世界模型通过预测未来来增进对世界的理解。这种预测能力对于视频生成、自动驾驶以及自主Agent的发展具有巨大的潜力，这代表了世界模型发展的三个主流方向。如下图1所示，视频生成世界模型涵盖了生成和编辑视频以理解和模拟世界，这对媒体制作和艺术表达非常有价值。

自动驾驶世界模型借助视频生成技术，创建驾驶场景，并从驾驶视频中学习驾驶元素和策略。这种知识有助于直接生成驾驶动作或训练驾驶策略网络，从而实现端到端的自动驾驶。同样，Agent世界模型利用视频生成在动态环境中建立智能交互。与驾驶模型不同，它们构建适用于各种情境的策略网络，无论是虚拟的（例如游戏或模拟环境中的程序）还是实体的（例如机器人）。

在全面建模的基础上，视频生成方法通过视觉合成揭示了物理定律。最初，生成模型的重点主要放在图像生成和编辑上，为合成动态视觉序列的更复杂进展奠定了基础。随着时间的推移，生成模型不仅发展了对图像的静态属性的捕捉，而且还能够无缝地串联序列帧。这些模型已经初步了解了物理和运动，这代表了通用世界模型的早期和有限形式。

值得注意的是，在这种进化的最前沿是Sora模型。通过利用生成技术的力量，Sora展示了生成复杂视觉叙事的深厚能力，这些叙事符合物理世界的基本原理。生成模型与世界建模之间的关系是共生的，彼此相互启发和丰富。生成模型可以在受控环境中构建大量数据，从而减轻了对大量真实世界数据收集的需求，特别有利于训练在现实世界应用中至关重要的AI系统。

此外，生成模型的有效性关键取决于世界模型提供的理解深度。正是由世界模型提供的对底层环境动态的全面理解，使得生成模型能够在遵循严格的物理约束条件的同时产生视觉上引人注目的高质量信号，从而增强其在各个领域中的逼真度和实用性。

世界模型理解环境的能力不仅提升了视频生成的质量，还有助于实际驾驶场景的应用。通过运用预测技术来理解驾驶环境，世界模型正在改变交通和城市流动性，通过预测未来的驾驶情景来增强安全性和效率。针对建立环境动态模型的世界方法在自动驾驶中至关重要，因为对未来的准确预测对安全操控至关重要。然而，为自动驾驶构建世界模型存在独特挑战，主要是由于真实驾驶场景中固有的样本复杂性。早期方法尝试通过减少搜索空间和明确解释视觉动态来解决这些挑战。尽管取得了进展，但一个关键的限制在于主要集中于模拟环境。

近期的进展表明，自动驾驶世界模型正在利用生成模型来解决搜索空间更大的真实场景。GAIA-1采用Transformer来预测下一个视觉token，有效地构建了驾驶世界模型。这种方法能够根据各种提示（如天气条件、场景、交通参与者和车辆行为）预测多种潜在的未来。

类似地，像DriveDreamer和Panacea这样的方法利用预先训练的扩散模型从真实驾驶视频中学习驾驶世界模型。这些技术利用驾驶场景中固有的结构化信息来可控地生成高质量的驾驶视频，甚至可以增强驾驶感知任务的训练。基于DriveDreamer的DriveDreamer2进一步集成了大语言模型，以提高驾驶世界模型和用户交互的性能。它能够通过自然语言输入生成可控制的驾驶场景视频，甚至包括突然的超车等罕见情景。

此外，Drive-WM展示了利用生成的驾驶场景视频直接训练端到端驾驶的可行性，显著改善了端到端驾驶性能。通过预测未来情景，这些模型赋予了车辆做出明智决策的能力，最终导致更安全、更高效的道路导航。此外，这种整合不仅提高了交通系统的安全性和效率，还为城市规划和设计开辟了新的可能性。

除了在驾驶场景中已建立的实用性之外，世界模型越来越成为自主Agent功能的一部分，在各种背景下促进智能交互。例如，在游戏Agent中，世界模型不仅增强了游戏体验，还推动了复杂游戏算法的发展。Dreamer系列通过其熟练使用世界模型来预测游戏环境中的未来状态充分说明了这一点。这种能力使得游戏Agent能够在想象中学习，明显减少了有效学习所需的交互量。

在机器人系统中，创新方法进一步凸显了世界模型的多功能性和潜力。例如，UniPi重新构想了机器人决策问题，将其视为一种文本到视频的任务。其以视频为政策的表达方式促进了在各种机器人操纵任务中的学习和泛化。类似地，UniSim通过生成建模引入了动态交互的仿真器，这些仿真器可以在没有先前暴露的情况下部署到真实世界场景中。RoboDreamer通过利用世界模型来提出涉及动作和对象组合的计划，从而解决新颖机器人执行环境中前所未有的任务。世界模型的多方面应用不仅限于游戏和机器人。LeCun提出的联合嵌入预测架构（JEPA）标志着与传统生成模型的显著分歧。JEPA学习将输入数据映射到预测输出的高级表示空间中，这使得模型能够集中学习更语义化的特征，增强了其跨各种模态的理解和预测能力。

综上所述，从上面的全面讨论可以明显看出，对世界模型的研究具有巨大的潜力，可以实现AGI，并在各个领域有广泛的应用。因此，世界模型值得学术界和工业界的重视，并需要在长时间内持续努力。与最近的关于世界模型的调查相比，我们的调查提供了更广泛的覆盖面。它不仅包括视频生成中的生成世界模型，还深入探讨了世界模型在决策系统（如自动驾驶和机器人）中的应用。我们希望这份调查可以为刚刚踏入这一领域的新手提供宝贵的见解，同时也能在社区中引发批判性思考和讨论。

这份调查的主要贡献可以总结如下：

对世界模型研究的最新进展进行了全面的考察，包括深刻的哲学视角和详细的讨论。
深入研究了围绕视频生成、自动驾驶和自主Agent的世界模型的文献，揭示了它们在媒体制作、艺术表达、端到端驾驶、游戏和机器人等方面的应用。
评估了世界模型现有的挑战和限制，并深入探讨了未来研究的前景，以引领和激发世界模型的进一步进展。

2 视频生成作为通用世界模型

视频生成任务旨在创建各种逼真的视频，要求模型理解并模拟物理世界中的机制，这与构建通用世界模型的目标一致。在本节中，首先在第2.1节介绍视频生成模型背后的技术。然后，在第2.2节，我们将介绍和审查近年出现的先进视频生成模型。最后，在第2.3节中，讨论了被认为是视频生成中最重大突破的 Sora 模型。

2.1 视频生成背后的技术

视频生成的概念包含几种不同的任务，根据条件的不同，例如类别、文本或图像。本次调查主要关注给定文本条件的情景，即所谓的文本到视频生成。在本节中，首先简要介绍了广泛用于生成模型中的视觉基础模型。然后，介绍了从文本条件中提取文本特征的文本编码器。最后，回顾了生成技术的演进。

2.1.1 视觉基础模型

视觉基础模型最初是为了解决传统的计算机视觉任务，例如图像分类而提出的，但它们也启发了生成模型的发展。根据架构，它们大致可以分为基于卷积的模型和基于Transformer的模型，这两种模型也可以扩展到视频数据。

基于卷积的模型。过去几十年来，用于视觉任务的基于卷积的模型已经得到充分的探索。从 LeNet、AlexNet、VGGNet、InceptionNet、ResNet、DenseNet 等模型开始逐渐被提出来解决图像识别问题。这些模型被采用作为其他视觉任务的骨干模型。通常，U-Net 建立在骨干模型之上，用于图像分割任务。U-shape 架构使得模型可以利用来自骨干模型的低级和高级特征，从而显著提高像素级别的预测。由于像素级别预测的优势，U-shape 架构也被广泛应用于图像生成模型。

基于Transformer的模型。Transformer 最初是为机器翻译任务提出的，并通过ViT应用于视觉识别。在 ViT 中，图像被分成小块，然后被投影到tokens 中，最后通过一系列多头自注意力和多层感知器块进行处理。它在捕捉图像中的长程依赖性方面的能力使其在图像识别中表现优异。之后，引入了蒸馏、窗口注意力和mask图像建模等方法来改进视觉Transformer的训练或推理效率。除了在图像识别中取得成功外，基于Transformer的模型在各种视觉任务中也表现出优越性，如目标检测、语义分割和图像生成。由于其良好的可扩展性，基于Transformer的模型已成为 Sora 的主要架构。

扩展到视频述方法主要设计用于图像数据。研究人员进一步将这些方法扩展到解决视频领域的问题。基于卷积的模型通常引入三维卷积层来构建视频数据中的时空关系。基于Transformer的方法将多头自注意力从仅空间设计扩展到联合建模空间-时间关系。这些方法也启发了文本到视频生成模型的架构设计，例如[111], [238], [239].

2.1.2 文本编码器

文本编码器被采用来为图像或视频生成中的给定文本提示提取文本嵌入。现有的生成方法通常采用多模态模型的文本编码器，或直接使用语言模型进行嵌入提取。接下来，将简要介绍代表性的多模态模型和语言模型。

练的多模态模型训练的多模态模型（如[121]、[122]、[169]）在嵌入空间中对图像和文本的表示进行对齐。它通常由图像编码器和文本编码器组成，自然可以被调整以将文本信息注入生成模型中。CLIP是一个典型的预训练多模态模型，已经广泛应用于图像/视频生成模型中。它通过对比学习在大规模图像-文本对上进行了预训练，并在各种任务中展现出了优越的性能。然而，CLIP 是针对图像-文本对齐进行预训练的，而不是用于理解复杂的文本提示。当给定提示长而详细时，这个缺点可能会限制生成性能。

练的语言模型训练的语言模型通常在大规模语料库上进行预训练，因此具有各种下游语言任务的可传递能力。BERT是对语言模型预训练的早期尝试，它设计了几个任务来推动模型从未token数据中学习。这一范式也启发了后续的工作，如 RoBERTa和 BART。随着模型规模的增加和训练数据集的扩大，预训练模型展现出了惊人的能力，通常被称为更大的语言模型（LLMs）。T5 和 Llama-2是两个广泛应用于生成任务中的LLMs，因为它们的出色性能和开放性。LLMs能够更好地理解长文本提示，因此有助于生成按照人类指令的内容。

2.1.3 生成技术

在这一部分，回顾了近几十年生成技术的发展。

GAN。在扩散方法取得成功之前，GAN在图像生成中一直是主流方法。GAN由生成器G和鉴别器D组成。生成器G被设计为从高斯分布中采样的噪声z生成输出，而鉴别器D则用于将输出分类为真实或虚假。

从GAN的最初定义开始，生成器G和鉴别器D是以对抗的方式进行训练的。具体来说，首先训练鉴别器D。将从数据分布中采样的真实数据x和生成的输出输入到鉴别器D中，它学习改善对真实和虚假样本的鉴别能力。这可以表示为:

鉴别器D应该最大化损失。在这个过程中，生成器G中的参数被冻结。然后，我们按照以下方式训练生成器G：

生成器G被训练来最小化损失，以使生成的样本能够接近真实数据。在此过程中，鉴别器D的参数也不会被更新。下面的工作将GAN应用于与图像生成相关的各种任务，例如风格转移、图像编辑和图像修补等。

扩散。自从去噪扩散概率模型（DDPM）开始统治图像生成以来，基于扩散的方法已经开始主导图像生成领域。DDPM从高斯分布中学习了一个逆过程来生成图像。它包含两个过程：扩散过程（也称为正向过程）和去噪过程（也称为逆过程）。在扩散过程中，在T个时间步中逐渐向图像中添加小的高斯噪声。给定来自数据分布的图像，可以通过所有先前扩散过程的累积分布得到。

其中

T和[]分别表示扩散步骤和预定义的噪声计划。我们还可以通过以下方式得到t时间步的输出：

其中，且。因此，有:

去噪过程是扩散过程的逆过程，使我们能够从高斯噪声中获得图像。为了实现这一点，一个去噪模型学习通过一个简化的损失函数来预测在时间步 t 添加的噪声，该损失函数可以表示为:

然后，可以通过逐步去噪来进行：

其中，。虽然DDPM的生成质量令人满意，但其缓慢的生成速度阻碍了其更广泛的应用。以下工作尝试通过减少去噪步骤或加速去噪模型来解决这个问题。

自回归建模。自回归建模已经在语言生成方法和图像生成任务中得到了探索。给定一个tokens 序列，第 k 个token 的概率仅依赖于tokens 。一个自回归模型被训练以最大化当前tokens 的似然性，可以表示为：

最近，LVM将训练数据量扩大到 4200 亿个tokens ，并将模型大小扩展到 30 亿个参数，展示了对于一般性视觉推理以及生成的能力，并指向了通往世界模型的潜在途径。

Masked建模。Masked建模最初是为了语言模型和图像模型的自监督学习而设计的。给定一个tokens 序列，一些tokens 会被随机地掩盖。然后，模型被迫预测被掩盖的tokens 并重建原始表示。注意到Masked建模对图像重建的能力，一些研究,如[125], [126] 直接从mask tokens 生成图像，并发现它在视频生成任务中也有很好的泛化能力。考虑到其简单性和惊人的性能，这也是未来生成技术的一个有前景的方向。

2.2 高级视频生成模型

在本节中，回顾了近年来提出的高级视频生成模型。根据给定的条件（例如，示例、类别、音频、文本、图像或视频），在生成期间，视频生成任务可以分为不同的类别。在这里，主要关注文本到视频方法，其中在生成期间提供了文本描述。这些模型旨在生成与给定文本语义对齐的视频，同时保持不同帧之间的一致性。基于其他条件的构思生成方法可以从文本到图像模型进行修改。

2.2.1 基于GAN的方法

除了图像生成的成功之外，基于GAN的模型也在视频生成方面取得了显著的性能。在这里，选择了三种代表性方法并进行简要回顾。从下图4 (a) 中可视化了基于GAN的方法的一般架构。

基于文本的时间GAN（TGANs-C）采用基于LSTM的文本编码器来提取文本嵌入。然后，将该嵌入与随机噪声向量结合，共同形成生成器的输入。生成器包含一系列时空卷积，用于生成帧序列。与第2.1.3节中用于图像生成的GAN模型不同，后者通常只有一个鉴别器，TGANs-C 分别设计了三个鉴别器，用于视频、帧和运动级别。由于这些鉴别器的存在，该模型能够生成与提供的文本一致且类似于真实视频素材的视频。

文本过滤器条件生成对抗网络（TFGAN）采用从文本编码器中提取的文本特征来生成不同帧的一系列滤波器。然后，将这些滤波器用作每帧生成的卷积滤波器。这种操作增强了给定文本与生成视频之间的语义关联。

StroyGAN的目标是基于多句段落生成一系列帧，其中每个句子负责一个帧。它采用故事编码器和上下文编码器来提取多句段落和当前帧的全局表示，分别。然后，将故事编码器和上下文编码器的输出组合并输入生成器以生成当前帧。它还采用两个鉴别器来确保与给定段落的帧级和视频级一致性。

2.2.2 基于扩散的方法

扩散模型在图像生成方面的发展也促进了视频生成方面的进展。我们选择了四种代表性方法，因为它们的有效性或效率。在上面图4 (b) 中总结了这些方法的框架。

Imagen Video提出了一个级联采样pipeline用于视频生成。从基本视频生成模型开始，该模型生成分辨率和帧速率较低的视频，作者级联了空间和时间超分辨率模型，以逐步提高生成视频的分辨率和帧速率。

Stable video diffusion（SVD）基于Stable Diffusion，在空间卷积和注意力块之后插入了时间卷积和注意力层。为了提高生成性能，作者提出将训练分为三个阶段：在文本到图像任务上的预训练、在文本到视频任务上的预训练以及使用高质量数据进行文本到视频微调。这证明了对于视频扩散模型而言，数据筛选的重要性。

Latte是在视频生成中早期尝试应用基于Transformer的模型。该模型基于 DiT构建，并包含额外的块用于时空建模。为了确保生成的效率，作者探索了四种用于空间和时间建模的高效设计，这与第2.1.1节中提到的操作类似。Latte 的架构被认为类似于 Sora 的设计。

StreamingT2V将文本到视频生成分为三个步骤，从而可以生成长视频，甚至超过 1200 帧。首先，它采用预训练的文本到视频模型生成一个短视频，例如仅有 16 帧。然后，它通过短期和长期记忆机制扩展了视频扩散模型，以自回归地生成更多帧。最后，采用另一个高分辨率视频生成模型来增强生成的视频。

2.2.3 基于自回归建模的方法

自回归建模也是视频生成中常用的技术，如[88]，[144]，[220]，[229]，[237]。在前面图4 (c) 中展示了其架构。

VideoGPT是一种典型的基于自回归建模的方法。它首先训练一个 VQ-VAE将视频编码为潜在token。然后，利用了类似 GPT 的框架，并训练模型学习在潜在空间中预测下一个token。在推理过程中，从潜在空间中采样了一系列token，然后训练好的 VideoGPT 与 VQ-VAE 将其解码成生成的视频。

GODIVA也以类似的方式生成视频，但强调减少模型的计算复杂性。具体而言，提出用三个稀疏自注意力层替换原始的自注意层，这些层仅沿着潜在特征的时间、行和列维度进行计算。这种解耦操作的有效性也被第2.1节中提到的模型所验证。

CogVideo继承了预训练自回归模型 CogView2的知识，以减轻从头开始训练的负担。为了提高给定文本与生成视频之间的对齐性，作者提出了一个多帧率分层生成框架，该框架首先以自回归方式生成关键帧，然后通过双向注意力递归插值帧。

2.2.4 基于Masked建模的方法

Masked建模也是一种新兴的视频生成方法。与自回归建模不同，自回归建模存在顺序生成的缺点，而Masked建模方法可以并行解码视频。在前面图4 (d) 中展示了其架构。

MAGVIT通过一个3D-VQ分词器将视频编码为token，并利用mask token建模范式加速训练。具体而言，目标token在训练过程中被随机替换为条件token和mask token。然后，训练一个双向Transformer来细化条件token、预测mask token和重建目标token。为了提高生成质量，MAGVIT-v2被引入以改进视频分词器。作者设计了一种无查找量化方法来构建码书，并提出了一个联合图像-视频分词模型，使其能够同时处理图像和视频生成。此后，VideoPoet将MAGVIT-v2集成到一个大语言模型中，从各种条件信号生成视频。

类似地，WorldDreamer也训练模型基于未mask token来重建mask token。为了促进训练过程，他们设计了一个空间-时间分块Transformer，该Transformer在空间-时间窗口内进行注意力计算。它采用了交叉注意力层来将给定文本描述的信息注入模型。并行解码的优先级使其能够比基于扩散和基于自回归的方法实现更快的视频生成。

2.2.5 数据集和评估指标

训练文本到视频生成模型需要大规模的视频文本对。下表1展示了几个流行的数据集。这些数据集也可以用于训练多模态模型。根据Sora的技术报告，例如视频文本对齐和字幕丰富性等数据质量对生成性能至关重要。因此，我们希望能够开源更多大规模高质量的数据集，推动视频生成的繁荣甚至世界模型的发展。

用于评估视频生成性能的度量标准在不同的论文中有所不同。例如，Latte和 VideoGPT 通过 Fréchet 视频距离 (FVD)来衡量性能。CLIP 相似度 (CLIPSim)也是一种常见的评估方法。人类评估作为这些指标的补充，在现有工作中也被广泛采用。由于评估分数与随机种子密切相关，进行公平比较并不容易。此外，不同的方法可能采用不同的数据集来评估性能，这进一步加剧了这个问题。人类偏好注释可能是视频生成评估的一个潜在解决方案。最近，一些全面的基准 [97]，[133]，[134] 被提出用于公平比较。

2.3 迈向世界模型：Sora

Sora是由OpenAI开发的闭源文本到视频生成模型。除了能够生成一分钟高保真视频外，它还展示了一些模拟现实世界的能力。它通过视频生成模型指引了通往世界模型的道路。在本节中，我们简要介绍了Sora背后的技术。由于Sora是闭源的，这里的所有分析主要基于其技术报告，可能与其实际实现有所不同。

2.3.1 框架

Sora是一种基于扩散的视频生成模型。它由三部分组成：

压缩模型，将原始视频在时间和空间上压缩成潜在表示，并且将潜在表示映射回原始视频的非对称模型。
一个基于Transformer的扩散模型，类似于DiT，在潜在空间中进行训练。
一个语言模型，将人类指令编码成嵌入，并将其注入到生成模型中。

压缩模型。压缩模型通常包含一个编码器和一个解码器。前者被用来将视频投影到低维潜在空间中，而后者则将潜在表示映射回视频。根据技术报告 [21]，压缩模型基于VAE或VQ-VAE构建。由于解码器的架构通常与编码器对称，因此在这个回顾中，我们主要关注编码器的架构。

给定原始视频，编码器首先将其投影到一系列token 中。根据第2.1.1节中提到的视觉基础模型中采用的方法，存在两个选项：仅进行空间压缩和空间 - 时间压缩。仅进行空间压缩只沿空间维度压缩视频。它提取每个帧的尺寸为 h×w 的图像块，并采用 2D 卷积层将其投影到。在这种情况下，有。这种操作在 ViTs中被广泛采用。空间 - 时间压缩方法在空间和时间维度上压缩视频，提供了更高的压缩率。具体来说，它从视频中提取尺寸为的空间 - 时间管道，并采用 3D 卷积层将其投影到嵌入中。因此，有。这种操作类似于 ViViT 中的管道嵌入技术。

token化之后，编码器可以通过Transformer块、卷积块或它们的组合进一步处理这些token，并将它们投影到中。在下图2(a)中展示了压缩模型的架构。

生成模型。根据技术报告，生成模型是基于 DiT构建的。由于原始的 DiT 是为类到图像的生成而设计的，因此需要对其进行两项修改。首先，由于 DiT 中的自注意力块和 MLP 块是为了空间建模而设计的，因此应该添加额外的块来进行时间建模。这可以通过将原始自注意力扩展到空间和时间维度来实现。其次，条件从类更改为文本，并且应该添加注入文本信息的块。文本到图像的交叉注意力块是一个潜在的解决方案，其有效性在 [32] 中已经得到证实。基于此，潜在架构的一层可以被公式化为：

其中，STA 和 CA 分别表示空间-时间注意力和文本到图像交叉注意力块。表示该层的输入。从语言模型（如 T5）或多模型（如 CLIP）派生的文本嵌入表示为 c。为简洁起见，我们省略了时间步信息的注入，这可以通过自适应层归一化块来实现。在下图 2（b）中展示了潜在的架构。最后，生成模型被训练来预测添加到潜在表示 z 中的噪声。更多细节可以在第 2.1.3 节中提到的扩散技术中找到。

2.3.2 训练数据

训练 Sora 的一个巨大挑战是收集大规模高质量的视频文本对。先前的研究 [16], [32] 已经证明，生成性能高度依赖于数据的质量。低质量的数据，例如，嘈杂的视频文本对或过于简单的视频描述，导致生成模型遵循低质量的指导。为了解决这个问题，Sora 采用了 DALL-E 3 中提出的重新描述技术。具体来说，训练一个视频描述器，使用高质量的视频文本对，其中文本与相应的视频良好对齐，并包含多样且描述性的信息。视频描述器可以是视频版本的多模态大语言模型，例如 GPT-4V, mPLUG或 InternVideo。然后，预训练的视频描述器被用来为 Sora 的训练数据生成高质量的描述。这个简单的方法有效地提高了数据质量。

在推理过程中，为了解决用户可能提供过于简单的提示的问题，Sora 采用了 GPT-4来重新编写提示，使其更加详细。这使得 Sora 能够生成高质量的视频。

2.3.3 迈向世界模型

根据 OpenAI 的声明，Sora 可以作为一个世界仿真器，因为它能够理解行为的结果。来自其技术报告的一个示例是，Sora 生成了一个视频，在视频中画家可以沿着画布留下新的笔触，这些笔触会随着时间的推移而持续存在。另一个示例是，一个人可以吃掉一个汉堡包并留下咬痕，这表明 Sora 能够预测吃东西的结果。这两个示例表明，Sora 能够理解世界并预测行为的结果。这种能力与世界模型的目标非常一致：通过预测未来来理解世界。因此，我们相信 Sora 背后的技术可以进一步激发对世界模型的探索。

首先，训练和推理策略提高了大型生成模型的性能和效率。例如，Sora 从具有本地宽高比的视频中学习，这显然提高了生成视频的构图和画面。这需要技术和工程优化，以实现高效的训练。生成 1 分钟长度的视频对推理服务器来说是一个巨大的挑战和负担，这仍然阻碍了 Sora 的公开发布。OpenAI 的解决方案可能对大型模型社区很有价值。在 Sora 中采用的更多潜在技术可以在 [136] 中找到。我们相信，Sora 在这方面的贡献也可以激发构建世界模型的工作。

其次，Sora 采用了基于 Transformer 的生成模型，具有广泛的参数和大规模的训练数据，导致了在视频生成方面出现了新的能力。这表明在视觉领域也存在着扩展规律，并指引了建立大规模视觉模型甚至世界模型的一个有希望的方向。

最后，Sora 再次强调了训练数据对于良好生成性能的重要性。虽然 OpenAI 没有披露 Sora 中使用的数据的来源和规模，但有人猜测在训练过程中可能引入了大量的游戏视频。这些游戏视频可能包含丰富的物理信息，有助于 Sora 理解物理世界。这表明，整合物理引擎可能是通向构建世界模型的一个潜在途径。

3.自动驾驶的世界模型

自动驾驶需要应对不确定性。理解自动驾驶中固有的不确定性对于做出安全决策至关重要，即使是一个小错误也可能带来灾难性后果。不确定性主要有两种形式：认识不确定性，源于知识或信息的不足；随机不确定性，根源于现实世界的固有随机性。为了确保安全驾驶，必须利用嵌入在世界模型中的过去经验有效地减轻随机和认知不确定性。

世界模型善于通过预测未来的变化来表示一个Agent在其环境中的时空知识。在自动驾驶中，有两种主要类型的世界模型旨在减少驾驶不确定性，即端到端驾驶的世界模型和神经驾驶仿真器的世界模型。

在模拟环境中，方法如 MILE 和 TrafficBots 并不区分认知和随机不确定性，并根据强化学习将它们纳入模型，增强了决策和未来预测的能力，从而为端到端自动驾驶铺平了道路。在真实环境中，特斯拉和 GAIA-1 等方法利用生成模型构建神经驾驶仿真器，产生 2D 或 3D 未来场景以增强预测能力，从而减少随机不确定性。此外，生成新样本可以减轻罕见情况（如边缘情况）的认知不确定性。下图5 描述了自动驾驶中这两种类型的世界模型。神经驾驶仿真器可以进一步细分为生成 2D 图像和模拟 3D 场景的两类。

3.1 端到端驾驶

在自动驾驶领域，世界模型的发展扮演着关键角色，因为它们致力于构建环境的动态表示。对未来的准确预测对于确保在各种情境下安全操控至关重要。然而，在自动驾驶中构建世界模型面临着独特的挑战，主要源自驾驶场景中复杂的样本复杂性。端到端自动驾驶方法通过最小化搜索空间并在 CARLA 仿真器上集成对视觉动态的明确解缠来应对这些挑战。下表2 展示了基于世界模型的现有端到端驾驶方法的比较。

Iso-Dream 引入了一种基于模型的强化学习（MBRL）框架，旨在通过强化学习有效地解缠和利用可控和不可控状态转换。此外，Iso-Dream 根据世界模型的分离潜在想象优化Agent的行为。具体来说，Iso-Dream 将不可控状态投影到未来以估计状态值，并将其与当前可控状态联系起来。Iso-Dream 提升了Agent的长期决策能力，例如在自动驾驶车辆积极规避潜在危险时，预测周围车辆的移动。

Iso-Dream通过将前视 2D 图像映射到控制信号来学习世界模型，这对于在 3D 空间进行自动驾驶并不合适。为了解决这个问题，MILE 将世界模型与 3D 空间中的模仿学习相结合，即BEV空间。MILE 使用 3D 几何作为归纳偏差，并从专家驾驶视频中创建潜在空间。训练使用城市驾驶的离线数据集进行，无需与场景进行在线交互。在性能方面，即使在全新的城镇和天气条件下操作，MILE 在 CARLA 上的驾驶得分仍然超过先前领先的方法，超过 31% 的较大幅度。此外，MILE 展示了其能力，可以仅基于通过想象过程生成的计划执行复杂的驾驶动作。

与 MILE 类似，SEM2 也在 3D 空间中构建了世界模型。SEM2 通过整合潜在过滤器的新方法来孤立关键的任务特定特征，然后利用这些特征重建语义mask。此外，它在训练过程中使用了多源采样器，将标准数据与各种边缘案例数据合并到一个批次中，有效确保了平衡的数据分布。具体来说，SEM2 将摄像头和激光雷达作为输入，将它们编码为具有确定性和随机变量的潜在状态。随后，初始潜在状态被用于重新生成观察。在此之后，潜在语义过滤器从潜在状态中孤立出与驾驶相关的特征，重建语义mask，并预测奖励。在 CARLA 仿真器上进行的大量实验展示了 SEM2 在样本效率和对输入排列变化的鲁棒性方面的熟练程度。

TrafficBots 是另一种基于世界模型的端到端驾驶方法，其重点放在预测给定情景中个体Agent的动作上。通过考虑每个Agent的目的地，TrafficBots 利用条件变分自动编码器（CVAE）赋予每个个体Agent独特的特征，从而能够从鸟瞰图的角度进行行动预测。TrafficBots 提供了更快的操作速度和可伸缩性，以处理更多的Agent。在 Waymo 数据集上进行的实验表明了 TrafficBots 模拟真实多Agent行为和在运动预测任务中取得的有希望的结果。

上述方法在 CARLA v1 中进行了实验，但从根本上面临 CARLA v2 中数据低效的挑战。CARLA v2 提供了一个更接近真实的测试平台。为了应对 CARLA v2 场景的复杂性，Think2Drive 是一种用于自动驾驶的基于模型的强化学习方法，鼓励规划器在学习的潜在空间内思考。该方法通过利用低维状态空间和张量的并行计算，显著提高了训练效率。仅仅经过 3 天的培训，利用单个 A6000 GPU，Think2Drive 就在 CARLA v2 仿真器上达到了专家级别的熟练程度。此外，Think2Drive 还引入了 CornerCase Repository，一个旨在评估不同场景下驾驶模型的新型基准。

尽管在使用强化学习进行端到端驾驶的世界模型方面取得了进展，但仍然存在一个重要的限制：其主要着重于模拟环境。接下来，将深入研究自动驾驶在现实场景中的世界模型研究。

3.2 神经驾驶仿真器

高质量的数据是训练深度学习模型的基石。虽然文本和图像数据可以低成本获取，但在自动驾驶领域获取数据面临挑战，这主要是由于时空复杂性和隐私问题等因素。特别是在解决直接影响实际驾驶安全的长尾目标时。世界模型对于理解和模拟复杂的物理世界至关重要。一些最近的努力将扩散模型引入到自动驾驶领域，构建世界模型作为神经仿真器，以生成所需的自动 2D 驾驶视频。此外，一些方法利用世界模型生成描述未来场景的 3D 占据网格或激光雷达点云。下表3 概述了基于世界模型的这些神经驾驶仿真器方法。

3.2.1 2D 场景生成

用于驾驶视频生成的世界模型需要解决两个关键挑战：一致性和可控性。一致性对于保持生成图像之间的时间和交叉视图一致性至关重要，而可控性确保生成图像与相应的注释对齐。基于世界模型的现有 2D 驾驶视频生成方法的比较如下表4 所示。

GAIA-1 是一种先进的生成式世界模型，旨在生成逼真的驾驶视频，可以精确控制自车动作和环境要素。GAIA-1 通过将视频、文本和动作输入作为tokens 序列来解决世界建模的挑战，并以无监督方式预测后续tokens 。其结构包括两个主要元素：世界模型和视频扩散解码器。世界模型拥有 65 亿参数，在 64 个 NVIDIA A100 上进行了为期 15 天的培训，而视频解码器则具有 26 亿参数，在相同的持续时间内使用 32 个 NVIDIA A100 进行了培训。世界模型仔细研究了场景中的元素和动态，而扩散解码器将潜在表示转换为具有复杂逼真性的高保真度视频。GAIA-1 的训练语料库包括从 2019 年到 2023 年在伦敦收集的 4700 小时的驾驶视频。值得注意的是，GAIA-1 能够理解 3D 几何并捕捉由路面不规则性引起的复杂交互。此外，GAIA-1 遵循了大语言模型（LLM）中观察到的类似的扩展规律。凭借其学到的表示和对场景元素的控制，GAIA-1 为增强体验智能打开了新的可能性。

虽然 GAIA-1 可以生成逼真的自动驾驶场景视频，但其可控性仅限于使用文本和动作作为视频生成的条件，而自动驾驶任务则要求遵守结构化的交通约束。DriveDreamer 擅长可控驾驶视频生成，与文本提示和结构化交通约束（包括 HD-Map 和 3D 箱数据）无缝对齐。DriveDreamer 的训练pipeline包括两个阶段：首先，DriveDreamer 使用交通结构信息作为中间条件进行训练，显著提高了采样效率。在随后的阶段，通过视频预测开发世界模型，其中驾驶动作被迭代地用于更新未来的交通结构条件。这使得 DriveDreamer 能够根据不同的驾驶策略预测驾驶环境的变化。通过对具有挑战性的 nuScenes 基准的大量实验，DriveDreamer 被证实能够实现精确和可控的视频生成，代表了现实世界交通情况的结构约束。

为进一步增强生成的多视角视频的一致性和可控性，DriveDreamer-2 被引入作为 DriveDreamer 框架的演进版本。DriveDreamer-2 集成了一个大语言模型（LLM），以增强视频生成的可控性。首先，DriveDreamer-2 集成了一个LLM接口，用于解释用户查询并将其转化为Agent轨迹。随后，它根据这些轨迹生成符合交通规定的高清地图。此外，DriveDreamer-2 提出了统一的多视角模型，以提高生成多视角视频的时间和空间一致性。与具有 LLM 的 DriveDreamer-2 不同，ADriver-I 则利用了多模态大语言模型（MLLMs）来增强生成驾驶场景视频的可控性。受 MLMM 中交替文档方法的启发，ADriver-I 引入了交替的视觉-动作对，以建立视觉特征及其相关控制信号的标准化格式。这些视觉-动作对被用作输入，并且 ADriver-I 以自回归方式预测当前帧的控制信号。ADriver-I 继续使用预测的下一帧，使其能够在合成环境中实现自动驾驶。通过在 nuScenes等数据集上进行大量实验对其性能进行了严格评估。

ADriver-I 仅限于生成单视角视频。为了生成像 DriveDreamer-2 一样的多视角视频，提出了 Panacea 和 DrivingDiffusion。Panacea 是专为全景和可控驾驶场景合成而设计的创新视频生成系统。它分为两个阶段：首先制作逼真的多视角驾驶场景图像，然后沿时间轴扩展这些图像以创建视频序列。对于全景视频生成，Panacea 引入了分解的 4D 注意力，增强了多视角和时间一致性。此外，Panacea 利用 ControlNet 来合并 BEV 序列。除了这些基本功能外，Panacea 还通过允许通过文本描述操纵全局场景属性，包括天气、时间和场景细节，提供了一个用户友好的界面来生成特定样本。DrivingDiffusion 也提出了一个多阶段方法来生成多视角视频。它涉及几个关键阶段：多视角单帧图像生成、跨多个摄像头生成共享单视角视频以及能够处理扩展视频生成的后处理。它还引入了局部提示以有效提高图像的质量。在生成过程之后，采用后处理来增强后续帧之间的一致性。此外，它利用了时间滑动窗口算法来延长视频的持续时间。

以上方法的目标是在给定特定条件下生成逼真的驾驶场景视频。Drive-WM更进一步利用预测的未来场景视频进行端到端规划应用，以增强驾驶安全性。Drive-WM 引入了多视角和时间建模来生成多视角帧。为了提高多视角一致性，Drive-WM 提出了对联合建模进行因式分解的方法，以在相邻视角的条件下预测中间视角，显著提高了视角之间的一致性。Drive-WM 还引入了一个简单而有效的统一条件接口，能够灵活利用各种条件，如图像、文本、3D 布局和动作，从而简化了条件生成。此外，通过利用多视角世界模型，Drive-WM 探索了端到端规划应用，以增强自动驾驶安全性。具体而言，在每个时间步骤，Drive-WM 利用世界模型为从规划器中采样的轨迹候选生成预测的未来场景。这些未来场景使用基于图像的奖励函数进行评估，并选择最佳轨迹来扩展规划树。在真实驾驶数据集上的测试验证了 Drive-WM 生成顶尖、连贯且可管理的多视角驾驶视频的能力，从而为真实世界的模拟和安全规划打开了新的可能性。

诸如边界框或高精地图之类的控制信号提供了驾驶场景的稀疏表示。WoVoGen通过引入 4D 世界体来增强基于扩散的生成模型。首先，WoVoGen 通过将参考场景与即将到来的车辆控制序列合并来构建 4D 世界体。然后，这个体指导多视角图像的生成。在这个 4D 结构中，每个体素通过融合多帧点云获得 LiDAR 语义标签，丰富了对环境的深度和复杂性理解。

SubjectDrive进一步研究了增加生成视频规模对自动驾驶感知模型性能的影响。通过他们的调查，他们已经证明了扩大生成数据产生对不断提升自动驾驶应用的效果。它指出了增强数据多样性对于有效扩展生成数据生产的至关重要性。因此，SubjectDrive 开发了一个创新模型，包括一个主体控制机制。

以上用于生成驾驶视频的方法主要是在相对较小的数据集上研究的，如 nuScenes。GAIA-1在一个包含 4,700 小时视频内容的数据集上进行了训练，但训练数据集不公开。最近，GenAD发布了用于自动驾驶的最大的多模态视频数据集 OpenDV-2K，其规模超过了广泛使用的 nuScenes 数据集 374 倍。OpenDV-2K 包含 2,059 小时的视频内容，配有文本注释，这些内容来自于 YouTube 的 1,747 小时和其他公共数据集收集的 312 小时的组合。GenAD 利用因果时间注意力和分离的空间注意机制有效捕捉了高度动态驾驶环境中的快速时空波动。这种架构使得 GenAD 能够在各种场景中进行零-shot 泛化。这种获得的理解进一步通过将其学到的知识应用于规划和仿真任务来得到证实。

除了通过世界建模生成用于自动驾驶的2D视频外，一些方法还探索利用世界模型生成3D LiDAR点云或3D占用栅格。

Copilot4D提出了一种创新的世界建模方法，首先使用 VQ-VAE 将 LiDAR 点云观测结果进行token化，然后通过离散扩散来预测未来的 LiDAR 点云。为了有效地并行解码和去噪token，Copilot4D 修改了mask生成图像 Transformer，使其适应离散扩散框架并进行轻微调整，从而取得了显著的改进。在使用基于 LiDAR 点云观测的世界模型进行训练时，Copilot4D 在 nuScenes、Argoverse2 和 KITTI Odometry等数据集上实现了 1s 预测的点云预测的 Chamfer 距离降低超过 65%，3s 预测时超过 50%。

Copilot4D 利用未注释的 LiDAR 数据构建其世界模型，而 OccWorld则深入到 3D 占用空间，以表示3D场景。OccWorld 首先采用 VQ-VAE来优化高级概念，并以自监督的方式得出离散的3D语义占用场景token。随后，它定制了 GPT架构，引入了空间-时间生成 Transformer 来预测场景token和自我token。通过这些进展，OccWorld 在4D占用预测和规划方面取得了显著的结果。

Copilot4D 和 OccWorld 利用过去的 LiDAR 或3D占用帧来生成未来的3D场景，而 MUVO采用了更全面的策略，利用原始的摄像机和 LiDAR 数据作为输入。MUVO 的目标是获取环境的传感器不可知几何表示，并以 RGB 图像、3D 占用栅格和 LiDAR 点云的形式预测未来的场景。MUVO 首先进行图像和 LiDAR 点云的处理、编码和融合，利用基于 Transformer 的架构。随后，它将传感器数据的潜在表示输入到转移模型中，以建立当前状态的概率模型。同时，MUVO 预测未来状态的概率模型，并从中生成样本。

虽然 Copilot4D、OccWorld 和 MUVO 生成没有控制的3D场景，但 LidarDM在生成具有布局意识的 LiDAR 视频方面表现出色。LidarDM 利用潜在扩散模型生成3D场景，集成动态角色以建立基础的4D世界，随后在这个虚拟环境中生成真实的感知观察。从时间 t = 0 开始，LidarDM 利用输入的交通布局启动生成过程，创建角色和静态场景。随后，LidarDM 生成角色和自车的运动，构成基础的4D世界。最后，利用基于生成和物理的模拟来生成真实的4D传感器数据。由 LidarDM 生成的 LiDAR 视频是逼真的、具有布局意识的、物理合理的，而且在与在真实数据上训练的感知模块进行测试时表现出最小的域差异。

作为对现实的抽象时空表示，世界模型具有根据当前状态预测未来状态的能力。世界模型的训练机制有望建立自动驾驶的基础预训练模型。UniWorld、ViDAR和 DriveWorld探索了基于世界模型的4D预训练的研究，旨在增强自动驾驶的各种下游任务，如感知、预测和规划。

UniWorld提出了将预测未来3D占据作为自动驾驶的预训练任务的概念，利用大量未token的图像-LiDAR对进行4D预训练。它将多视角图像作为输入，生成统一的BEV空间中的特征图。然后，世界模型头部利用这些BEV表示来预测未来帧的占据情况。与3D预训练方法[149]、[150]相比，UniWorld在语义场景补全和运动预测等任务的交并比方面展示了改进。

虽然UniWorld已经证明了基于世界模型的4D预训练对于自动驾驶的有效性，但它通过添加简单的占据头来预测未来场景。ViDAR 提出了使用可微分的射线投射的潜在渲染算子进行未来场景预测。ViDAR包括三个主要组件：历史编码器、潜在渲染算子和未来解码器。历史编码器将视觉序列嵌入到BEV空间中。随后，这些BEV特征经过潜在渲染算子的处理，显著增强了下游性能。未来解码器作为自回归Transformer，利用历史BEV特征来迭代地预测各个时间戳的未来LiDAR点云。

为了通过更好地捕捉时空动态来增强自动驾驶的4D预训练，DriveWorld迈出了进一步的步伐，分别处理了时间和空间信息。DriveWorld引入了内存状态空间模型来减少自动驾驶中的空间和时间维度上的不确定性。首先，为了解决偶然性不确定性，DriveWorld提出了动态内存银行模块，该模块学习了时间感知的潜在动态以预测未来场景。其次，为了减轻认识不确定性，DriveWorld引入了静态场景传播模块，该模块学习了空间感知的潜在静态以提供全面的场景上下文。此外，DriveWorld引入了任务提示，利用语义线索作为指导，动态调整各种驾驶任务的特征提取过程。

4. 自动智能体的世界模型

自动Agent技术是指能够通过传感器（如摄像头）感知周围环境并通过执行器采取行动以实现特定目标的系统。这些Agent可以是物理的，如机器人，也可以是虚拟的，比如在数字环境中执行任务的软件程序。

给定一个目标，Agent需要规划一系列的行动。已经有许多成功的算法用于在已知环境中进行动态规划。然而，在大多数情况下，环境是复杂且随机的，这使得通过人类经验来明确建模变得困难。因此，该领域的核心问题是Agent如何学习在未知且复杂的环境中进行规划。解决这个问题的一种方法是使Agent通过与环境的交互积累经验并直接从中学习行为，而不需要对环境的状态变化进行建模（即所谓的无模型强化学习）。虽然这种解决方案简单且灵活，但学习过程依赖于与环境的许多交互，这可能非常昂贵，甚至是不可接受的。

World Models 是第一个在强化学习领域引入世界模型概念的工作，它从Agent的经验中建模有关世界的知识，并获得预测未来的能力。该工作表明，即使是一个简单的RNN模型也可以捕捉环境的动态并支持Agent在该模型中学习和演化策略。这种学习范式被称为在想象中学习。有了世界模型，试错的成本可以大大降低。

在本节中，我们介绍了自主Agent的世界模型。首先描述了基于世界模型的Agent的一般框架，包括关键组件和后续工作中广泛使用的模型结构在第4.1节。然后，我们在第4.2节介绍了为各种任务提供服务的Agent，例如游戏Agent和机器人Agent。最后，介绍了常用于评估基于世界模型的Agent性能的基准。

4.1 基于世界模式的 Agent 通用框架

大多数研究在源自机器人学的基本框架下实现基于世界模型的代理。在这个框架中，世界模型是核心组件。为了对周围环境进行建模和预测，先驱们提出了几种有效的结构，在后续的研究中被广泛采用。在本节中，详细描述了框架的关键组件以及世界模型的广泛使用结构。

4.1.1 关键组件

在软件工程的视角下，一个Agent系统可以分解为四个组件：

传感器：传感器是Agent与环境之间的接口，提供机器人理解当前情境并做出决策所需的原始（或解释后的）信息。对环境的感知涵盖多种模式，包括通过摄像头进行视觉、通过麦克风进行听觉、通过触摸传感器进行触摸等。在这些模式中，视觉是至关重要的。大多数研究都使用视觉作为Agent感知环境的唯一方式。

执行器：执行器是Agent在其环境中施加影响或实现变化的机制。它们是输出设备，允许Agent执行动作，例如用于运动的电机、用于操作的机器人手臂以及用于与其他系统或人类进行交互的通信接口。Agent所采取的行动是由其规划系统内做出的决定确定的，并通过执行器执行。

规划划是使自主Agent确定一系列行动的认知过程，这些行动将导致实现其目标。它涉及分析传感器感知到的环境的当前状态，定义期望的最终状态，并选择最适合的行动以弥合当前状态和期望状态之间的差距。规划组件必须考虑Agent的能力、约束和其行动的潜在后果。有效的规划使Agent能够有目的地和灵活地行动，优化其行为以有效地实现其目标。

世界模型：世界模型是对周围环境的内部表示。该模型对于Agent理解其操作环境的上下文、预测其行动的结果和做出明智决策至关重要。世界模型通过“告诉”和“问”接口与其他三个组件进行交互。也就是说，它接收来自其他组件的信息以更新其状态，并且还会响应其他组件的查询。

一个健壮的世界模型可以在得到当前感知和行动的情况下合理地预测未来状态，从而指导规划组件做出更明智的决策。

4.1.2 广泛使用的模型结构

世界模型的关键能力在于预测环境的未来状态。鉴于大多数环境中固有的随机性，预测应在确定性和不确定性之间保持平衡。针对这个问题已经进行了许多研究，并提出了各种模型结构。下图6显示了这一领域的研究工作。

在这些工作中，最广泛使用的结构包括RSSM，JEPA以及基于Transformer的模型。

循环状态空间模型。循环状态空间模型（RSSM）是Dreamer系列的核心结构。RSSM旨在促进潜在空间中的预测。它从像素观察中学习环境的动态模型，并通过在编码的潜在空间中进行规划来选择动作。通过将潜在状态分解为随机和确定性部分，该模型考虑了环境的确定性和随机因素。由于其在机器人连续控制任务中的出色表现，许多后续作品都在其基础上进行了扩展。

联合嵌入预测体系结构。联合嵌入预测体系结构（JEPA）是由LeCun提出的一篇论文中提出的，该论文阐述了未来自主机器智能架构的概念框架。它学习从输入数据到预测输出的映射。这个模型不同于传统的生成模型，因为它不直接生成像素级的输出，而是在更高级别的表示空间中进行预测，使模型可以专注于学习更语义化的特征。JEPA的另一个核心思想是通过自监督学习来训练网络，使其可以预测输入数据中缺失或隐藏的部分。通过自监督学习，模型可以在大量未token的数据上进行预训练，然后在下游任务上进行微调，从而提高其在各种视觉和非视觉任务上的性能。

基于Transformer的世界模型。Transformer起源于自然语言处理任务。它基于注意力机制的原理操作，使模型能够同时关注输入数据的不同部分。在许多需要长期依赖和基于记忆的推理的领域中，Transformer已被证明比循环神经网络（RNN）更有效，因此近年来在强化学习领域受到越来越多的关注。自2022年以来，多项工作尝试基于Transformer及其变种构建世界模型，在某些复杂的记忆交互任务上取得了比RSSM模型更好的性能。其中，谷歌的Genie引起了相当大的关注。这项工作基于ST-Transformer构建了一个基于生成的交互式环境，通过对大量未token的互联网视频数据进行自监督学习进行训练。Genie展示了可操纵的世界模型的新范 paradigm，并展示了未来世界模型发展的巨大潜力。

4.2 不同工作的Agents

许多研究人员已经探索了Agent在各种领域和任务中的应用，例如游戏、机器人、导航、任务规划等。其中，最广泛研究的任务之一是游戏和机器人。

4.2.1 游戏Agent

让AI系统学会玩游戏一直是一个有趣的话题。游戏Agent的研究不仅改善了游戏体验，更重要的是，它帮助人们开发了更先进的算法和模型。随着Arcade Learning Environment（ALE）的推出，Atari游戏作为强化学习的基准受到了很多关注。Atari收藏了500多款游戏，涵盖了各种类型的游戏和挑战，使其成为评估强化学习算法能力的理想选择。许多研究表明，强化学习可以使Agent在游戏中达到与人类玩家相媲美的水平。然而，大多数研究需要与环境进行大量的交互步骤。世界模型可以预测环境的未来状态，使Agent能够在想象中学习，从而显著减少了学习所需的交互次数。

RES是一种基于RNN的环境仿真器，它可以根据一系列动作和相应的环境观察来预测环境的后续状态。基于这种能力，SimPLe设计了一种新颖的随机视频预测模型，在样本效率方面取得了显著的改进。在交互次数限制为100K的情况下，SimPLe在Atari游戏中的表现要比以前的无模型强化学习方法好得多。

DreamerV2基于RSSM模型训练了一个游戏Agent。与以前的方法不同，DreamerV2使用了离散的分类变量，而不是连续的潜在表示。这种离散化方法使模型能够更准确地捕获环境的动态变化。DreamerV2进一步使用了演员-评论者算法，纯粹从由世界模型生成的想象序列中学习行为，并在Atari 200M基准测试中取得了与人类玩家相媲美的性能。

IRIS是将Transformer应用于世界模型的先驱之一。该Agent基于自回归Transformer的世界模型学习其技能。正如Robine等人指出的那样，自回归Transformer可以通过允许世界模型直接访问先前的状态来建模更复杂的依赖关系，而以前的工作只能查看压缩的循环状态。IRIS表明Transformer架构在采样方面更加高效，在Atari100k基准测试中，它只需两个小时的游戏时间就能胜过人类。

TWM提出了一种基于Transformer-XL的世界模型。Transformer-XL通过引入片段级别的循环机制来解决语言建模任务中捕获长距离依赖性的问题。TWM将这种能力迁移到世界模型中，使其能够捕获环境状态之间的长期依赖关系。为了更有效地运行，TWM进一步在潜在想象中训练一个无模型的Agent，避免在运行时对世界模型进行完整的推理。

STORM通过随机Transformer在Atari100k基准测试中刷新了不依赖于前瞻搜索的记录。受到将随机噪声引入世界模型有助于增强稳健性和减少自回归预测中累积错误的启发，STORM采用了一个囊括性的变分自动编码器，其固有地具有随机性。

Genie是DeepMind团队开发的一种新型生成环境。它通过对许多互联网视频进行无监督学习，学会了生成交互式的2D世界。最吸引人的是，它不仅可以基于图像或文本提示生成全新的虚拟环境，还可以根据用户输入的操作预测该环境的连贯视频序列。Genie提高了虚拟内容创建的效率，并为未来AIAgent的培训提供了丰富的交互式学习平台。尽管当前的视频质量和帧率仍有待改进，但它已经展示了生成AI在构建未来虚拟世界方面的巨大潜力。

4.2.2 机器人学

让一个Agent学会操控机器人是一个长期的挑战。人们希望Agent能够自主规划、做出决策，并控制执行器（例如机械臂和腿）与物理世界完成复杂的交互。常见的基本任务包括行走、奔跑、跳跃、抓取、携带和放置物体。一些更复杂的任务需要结合几个基本任务，例如从抽屉中取出特定物品或冲泡一杯咖啡。

机器人与游戏Agent的一个区别在于，机器人的目标是与真实环境交互，这不仅使得环境动态更加复杂和随机，而且大大增加了在训练过程中与环境交互的成本。因此，在这种情况下，减少与环境交互的步骤数和提高采样效率尤为重要。此外，执行器的控制是在一个连续的动作空间中，这与游戏环境中的离散动作空间非常不同。

以往的基于模型的规划工作[39]，[59]，[79]通过假设可以访问底层状态和奖励函数来学习低维环境动态。但是在复杂环境中，这种假设通常是不可行的。Hafner等人建议从像素中学习环境动态，并在潜在空间中进行规划。他们提出了RSSM，这是后来Dreamer系列世界模型的基础。在DeepMind控制套件（DMC）的六个连续控制任务中，他们在不到1/100的场景中实现了与最先进的无模型方法相似的性能，这证明了在图像域中学习环境的潜在动态是一种有前途的方法。

然而，PlaNet通过在线规划学习行为，即只考虑固定想象视野内的奖励，这会带来近视行为。为了解决这个问题，Hafner等人进一步提出了DreamerV1，这是一个纯粹从基于RSSM的世界模型的想象中学习长期行为的Agent。在潜在空间中进行预测具有高效的内存利用率，因此可以并行想象数千条轨迹。DreamerV1使用了一种新颖的演员-评论家算法，以学习超出视野范围的行为。对DMC的视觉控制任务进行的评估显示，DreamerV1在数据效率、计算时间和最终性能方面均超过了先前的基于模型和无模型方法。

SafeDreamer旨在解决安全强化学习，特别是在视觉任务等复杂场景中。SafeDreamer采用了一种在线安全奖励规划算法，用于在世界模型内进行规划，以满足基于视觉的任务的约束条件。它还将拉格朗日方法与在线和后台规划相结合，以平衡长期奖励和成本。SafeDreamer在低维度和视觉输入任务中表现出几乎零成本的性能，并在Safety-Gymnasium基准测试中超过其他强化学习方法，展示了在强化学习任务中平衡性能和安全性的有效性。

上述工作只在简单的模拟环境中学习和评估它们的性能，而真实环境往往包含与任务无关的视觉干扰，例如复杂的背景和不同的光照。RSSM通过重建图像观测来学习世界模型，因此对图像中的视觉干扰非常敏感，并且难以捕捉到小但重要的内容。因此，基于DreamerV1，Dreaming避免了自编码过程，直接在潜在空间中进行想象和规划，并通过对比学习来训练世界模型，这不依赖于像素级重建损失，因此该方法对环境中的视觉干扰具有鲁棒性。DreamingV2进一步探讨了如何将对比学习应用于DreamerV2的离散潜在空间。在包含3D空间和照片级渲染的5个模拟机器人任务上的实验结果表明，DreamingV2可以有效处理复杂的视觉观察，并且性能显著优于DreamerV2。

DreamerPro和Dr.G也做出了类似的努力，它们都使用了一种无重建的方法来解决RSSM对视觉敏感性的问题。不同之处在于，DreamerPro使用原型学习方法在潜在空间中训练世界模型的预测，这避免了对比学习所需的大批量计算带来的昂贵计算。另一方面，Dr.G使用双对比学习的自监督方法来取代DreamerV1中的重建损失。两者都在包含复杂背景视频的DMC环境中进行评估，验证了它们对视觉干扰的鲁棒性。

除了那些只涉及模拟环境的工作之外，一些工作正在尝试在真实世界中训练机器人。最困难的是，与真实世界的交互是昂贵甚至危险的。因此，在这种情况下，想象中的训练能力尤为重要。RobotDreamPolicy 首先学习世界模型，然后在世界模型中学习策略，以减少与真实环境的交互。在训练世界模型期间，机器人在环境中执行随机动作，收集图像在动作之前、动作和动作之后的图像作为训练数据。DayDreamer将DreamerV2应用于4个真实机器人，并直接在线在真实环境中训练模型。作者在实验中发现，Dreamer模型能够在真实世界中进行在线学习，并且可以在很短的时间内掌握一项技能。这些工作提供了强有力的证据，即世界模型的样本效率可以帮助机器人以更少的交互学会各种技能。

4.2.3 不同的环境和任务

除了游戏和机器人任务之外，一些研究工作还关注其他任务，如导航。PathDreamer将世界模型的思想应用于室内导航任务中。世界模型用于增强环境感知和预测规划。给定一个或多个先前的观察，PathDreamer可以预测未来可能的全景图像，甚至对于未见过的房间或角落后的区域。此外，PathDreamer创新地使用3D点云来表示环境，这显著提高了导航成功率。

JEPA系列工作将LeCun提出的架构应用于各种模态理解和预测任务。I-JEPA是一种非生成的自监督学习方法，通过从单个上下文块预测相同图像中不同目标块的表示来学习高度语义化的视觉表示。A-JEPA提出了一种基于音频频谱图的自监督学习方法，有效地将视觉领域的成功掩蔽建模原则应用到音频中。使用上下文编码器来预测和对齐相同音频频谱图中不同目标块的表示。MC-JEPA 是一种通过JEPA同时学习视频内容特征和运动特征的自监督学习方法，使用共享编码器来提高运动估计的准确性，并丰富内容特征以包含运动信息。V-JEPA扩展了I-JEPA以在视频中进行特征预测。它提供了一系列仅基于特征预测目标进行训练的视觉模型。这些模型是在不依赖监督信号（如预训练的图像编码器、负例、文本和重建技术）的情况下开发的。

其他研究工作旨在研究适用于各种任务的Agent程序。DreamerV3是一种通用算法，通过信号幅度转换和强大的归一化实现了跨领域学习，具有固定的超参数。作者从Atari游戏、高/低维度连续控制任务、生存任务、空间和时间推理任务等多个基准集中进行了评估。结果表明，DreamerV3可以仅依靠相同的超参数集掌握不同领域，其性能甚至优于一些专门设计用于特定领域的算法。DreamerV3也是第一个成功在Minecraft中从零开始收集钻石的Agent。

Plan2Explore提出了一个自监督的两阶段学习过程。在第一阶段，Agent以自监督方式探索环境，收集有关环境的信息，并将过去的经验总结为参数化的世界模型。值得注意的是，在此阶段不向Agent提供奖励信息，并且探索由Agent自主进行。然后，Agent在经过训练的世界模型中学习特定任务的行为。这个阶段可以在几乎不与环境进行交互的情况下完成。这种两阶段学习过程使Agent能够获得更通用的世界模型，使其更有效地学习下游任务。

SWIM旨在解决在真实世界中学习复杂和通用技能的问题。SWIM声称Agent必须利用互联网规模的人类视频数据来理解人类进行的丰富交互并获得有意义的可用性。为此，SWIM提出了一个适用于人类和机器人的高级、结构化、以人类为中心的行动空间。首先，世界模型从包含大约50K个自我中心视频的大型数据集中进行训练。然后，世界模型通过机器人数据进行微调，以适应机器人领域。之后，可以在经过训练的世界模型中使用标准的交叉熵方法学习指定任务的行为。借助人类行为视频的帮助，SWIM实现了比先前方法约两倍更高的成功率，同时仅需不到30分钟的真实世界交互数据。

HarmonyDream将世界模型确定为由观察建模任务和奖励建模任务组成的多任务模型。HarmonyDream认为，传统的世界建模方法往往专注于观察建模，由于环境的复杂性和模型的有限容量，这可能变得困难和低效。HarmonyDream通过自动调整损失系数来保持观察建模和奖励建模之间的平衡，这可以适应不同类型的任务并避免复杂的超参数调整。

RoboDreamer学习组合世界模型以增强机器人的想象力。它将视频生成过程分解，并利用自然语言的固有组合性。通过这种方式，它可以合成看不见的对象和动作组合的视频计划。RoboDreamer将语言指令分解为一组原语，然后作为一组模型的不同条件，生成视频。这种方法不仅表现出强大的零样本泛化能力，而且在多模态指导视频生成和机器人操作任务中显示出有希望的结果。

UniSim是一个用于真实世界交互的生成仿真器。UniSim包含一个统一的生成框架，将行动作为输入，整合了不同调制的多样数据集。通过这种方法，UniSim可以模拟高级指令和低级控制的视觉结果。UniSim可以用于各种应用，如可控游戏内容的创建以及在模拟环境中训练具身体机器人Agent，这些Agent可以直接部署在真实世界中。

4.3 常用基准测试

常用的基准测试用于衡量游戏Agent和机器人的性能。评估方法通常是测试Agent在特定环境中完成若干具体任务或在有限的交互学习后获得的奖励。

Atari100k是游戏Agent最常用的基准测试之一，使用了来自Arcade Learning Environment 的26个Atari游戏的子集。对于每个游戏，Agent可以收集高达100,000次的交互。每次交互中有4帧，相当于400,000帧或114分钟（以60FPS计算）。为了对不同游戏的分数进行归一化，提出了一个称为标准化人类得分（Normalized Human Score，NHS）的指标，定义为：

这一度量评估了Agent程序与专业人类玩家的表现差异，其中scorehuman是专业人类玩家取得的分数，而scorerandom是使用纯随机策略的Agent程序取得的分数。表5总结了本调查中提及的基于世界模型的游戏Agent程序的表现。总体而言，最近的方法已经能够在约半数的这26个游戏中超过人类玩家，而且有些游戏中，超过的倍数还不止。与此同时，在其他一些游戏中，比如Alien、Amidar和Seaquest，它们的表现要比人类玩家差得多。这可能是因为这些游戏的环境动态更加复杂，而100K次交互并不足以让Agent程序对环境有全面的理解。另一方面，低质量的图像使得一些重要的元素很容易被图像重建算法所忽视，从而导致对环境的错误理解。

对于机器人任务，有几个针对不同任务和环境采用的基准。DMC 是最常用的机器人学习基准之一。它包含一个虚拟环境，支持研究Agent程序如何学习复杂的物理任务。这个环境提供了一系列不同的控制任务，从简单的物体移动到复杂的机械手操作，以及在三维空间中的导航任务。这些任务建立在MuJoCo物理引擎的基础之上。它还支持高维度的观察空间，包括像素级的视觉输入，这使得它适合研究以视觉驱动的强化学习算法。为了增加视觉多样性，DMC Remaster在DMC的基础上增加了七种视觉因素，包括地面纹理、背景、机器人的颜色、目标的颜色、镜面属性、摄像机位置和光照，从而对算法的视觉稳健性提出了更大的挑战。

另一个常见的基准是RoboSuite。它是一个由MuJoCo物理引擎驱动的机器人学习仿真框架，为机器人学习研究提供了一个标准化的基准环境。RoboSuite包括各种机器人模型、夹持器、控制器模式和一套标准的基准任务。此外，它还支持使用模块化API设计程序生成新环境，使研究人员能够灵活设计新的机器人仿真环境。

用于机器人任务的其他基准包括Meta-World，其中包含50个不同的机器人操作任务，用于元强化学习和多任务学习，RLBench 包含100个独特的、手工设计的任务，涵盖了从简单的目标达成和开门到更复杂的多阶段任务的各个方面。

由于在不同的研究中选择了不同的任务和交互约束，机器人研究的结果很难对齐。DreamingV2评估了一个相对完整的这些工作集合，涵盖了离散/连续的潜在空间以及是否进行图像重建。我们在本调查中参考了他们的评估结果，这些结果呈现在表6中。该实验分析了两个因素的影响，即潜在空间的离散性或连续性，以及图像重建的存在与否，对Agent程序的学习效果的影响。

5 讨论

尽管最近在通用世界模型和特定领域如自动驾驶和机器人上的具体应用方面的研究大幅增加，但仍有许多挑战和机遇等待进一步探索。在本节中，深入探讨了通用世界模型面临的复杂挑战和它们当前的技术限制，同时展望了它们未来发展的潜在方向。此外，还探讨了自动驾驶和自主Agent领域的独特挑战和前景。此外，还反思了部署这些模型所引发的道德和安全考虑。

5.1 通用世界模型

通用世界模型旨在表示和模拟各种各样的情境和互动，如在现实世界中遇到的情况。生成模型方面的最新进展极大地提高了视频生成的质量。值得注意的是，Sora 可以生成高清视频，长度长达一分钟，紧密模拟了物理世界，显示出了通用世界模型的巨大潜力。然而，为了未来的进展，解决现有的问题和挑战至关重要。

5.1.1 挑战

视频生成并不等同于世界模型。虽然视频生成可能是世界模型的一种表现形式，但它并不能完全解决世界模型固有的核心挑战。我们将在接下来讨论几个我们认为对世界模型至关重要的挑战。

因果推理。作为一种预测模型，世界建模的本质在于其推理能力。模型应该能够推理以前从未遇到过的决策的结果，而不仅仅是在已知数据分布内进行预测。正如在 [163] 中讨论的，并在下图7 中说明的那样，我们期望世界模型具有反事实推理的能力，即通过理性的想象来推理结果。这种能力是人类固有的，但对当前的人工智能系统来说仍然是一项具有挑战性的任务。例如，想象一个面临突发交通事故的自动驾驶车辆，或者一个处于新环境中的机器人。具有反事实推理的世界模型可以模拟它们可能采取的不同行动，预测结果，并选择最安全的响应——即使在新情况下也是如此。这将显著提高自主系统的决策能力，帮助它们处理新的和复杂的场景。

物理定律。尽管 Sora 的视频生成令人印象深刻，但有人认为它在作为世界模型方面存在不足，因为它并未完全遵守物理定律。在 Sora 的视频中看到的真实感并不等同于现实，现实要求严格遵守物理定律，如重力、光相互作用和流体动力学。虽然 Sora 在模拟运动方面有所改进，包括行人和刚体运动，但仍然难以准确模拟流体和复杂的物理现象。仅仅用视频文本对来训练 Sora 是不足以理解这些复杂性的。理解物理定律通常需要具体观察，这表明将 Sora 与受物理驱动的仿真器结合可能是有益的。尽管这些仿真器可能达不到 Sora 的真实水平，但它们能够正确地遵循物理属性。

泛化能力。泛化能力是世界模型的一个关键方面，强调的不仅仅是数据内插，更重要的是数据外推。例如，在自动驾驶中，真实生活中的事故或异常驾驶行为是罕见的事件。因此，学习的世界模型能否想象这些罕见的驾驶事件？这要求模型不仅仅是简单地记忆训练数据，而是要对驾驶动态和道路情景的基本原理发展出强大的理解能力。通过从已知数据中外推并模拟一系列潜在情况，世界模型可以更好地准备自动驾驶车辆在现实世界中安全驾驶，即使在不熟悉或意外的情况下也是如此。

计算效率。视频生成中的效率目前是一个重要的限制因素。为了保持视频生成的一致性，通常采用自回归方法，导致生成时间大大增加。根据互联网上的新闻和分析，Sora 可能需要大约一小时的时间才能生成一分钟的视频。尽管在图像生成领域出现了一系列基于蒸馏的方法，取得了显著的性能加速，但视频生成领域的研究仍然有限。

评估系统。当前的世界模型主要基于生成模型研究，评估指标主要关注生成质量，如 FID和 FVD。此外，还有一些工作提出了更全面的评估基准，如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO等。然而，仅仅依靠生成度量无法反映世界模型的预测理性。这突显了人本评估的必要性，该评估措施生成的视频是否符合用户的期望或与人类的推理相一致。通过整合人类反馈，评估变得更加全面，考虑到现实感、连贯性和相关性。这种方法还能够提供关于实际应用的见解，指导进一步的发展和完善。

5.1.2 未来展望

尽管最近的世界模型研究取得了成功，并考虑到我们之前讨论的一些核心挑战，我们认为未来的世界模型研究可以朝以下方向进一步发展。

3D 世界仿真器。视频生成在模拟世界各个方面方面取得了显著进展，但世界从根本上存在于三个维度。因此，未来的世界模型应该具备预测和理解三维空间环境的能力。这不仅包括捕捉对象和场景的视觉外观，还包括编码它们的空间关系、深度信息和体积特性。将世界模型扩展到三维空间可以实现更沉浸式和更逼真的模拟，促进虚拟现实、增强现实、机器人技术和自主系统等领域的应用。此外，3D 世界模型可以增强解释和与物理世界互动的能力。

具身智能的世界模型。具身智能的世界模型包括创建对Agent与之交互的环境的全面表示。这意味着世界模型可以作为仿真器来训练具身Agent的决策过程，正如 Drive-WM在自动驾驶领域的初步尝试所示。此外，与具身智能的集成丰富了它们与环境的直接交互，显著增强了机器对物理世界的理解和适应能力。

5.2 自动驾驶的世界模型

尽管自动驾驶中对世界模型进行了大量研究，但与熟练的人类驾驶员所拥有的综合性心理世界模型相比，当前的世界模型仍然十分基础。在行动可控性、三维一致性和克服数据限制等领域仍然存在重大挑战。尽管如此，我们坚信自动驾驶的基础模型将建立在世界模型的基础之上，从而实现对物理世界的有效交互和全面理解。

5.2.1 挑战

动作可控性。在自动驾驶领域，重点是动作条件生成，而不是文本条件的视频生成。虽然这个领域引起了关注，但只有少数研究对此进行了深入探讨。例如，GAIA-1和 DriveDreamer着重于转向和油门控制，而 Drive-WM则利用规划轨迹以更好地与端到端驾驶系统集成。然而，实现对动作的精细控制仍然极具挑战性。例如，在尝试控制车辆执行非常规操作，如高速转弯或 U 转时，生成的质量明显下降。这种限制也受到正常数据分布的影响。动作作为连续变量，从有限的数据样本中学习它们的潜在空间表示是困难的。目前的方法只能实现粗略的运动控制，强调了实现精细控制仍然存在的巨大差距。

3D一致性。对于自动驾驶来说，3D一致性至关重要。尽管当前的视频生成技术可能看起来很逼真，但确保它们的3D一致性是具有挑战性的，因此会影响世界模型生成的可靠性。然而，如果要真正应用世界模型，必须进一步提高生成一致的三维空间的能力。虽然 Sora 团队认为扩大规模可以使模型从视频中学习到3D一致性，但这种隐式学习方法对于自动驾驶显然不够安全。考虑到自动驾驶车辆的传感器的丰富性，世界模型可以超越仅仅是视频生成。例如，在点云或占据网格上的条件可以显著增强3D一致性。

数据限制。数据在训练基础模型中起着至关重要的作用。与互联网上readily available的图像和文本数据不同，自动驾驶在数据收集方面遇到了重大挑战，使得世界模型的构建变得非常困难。首先，自动驾驶数据收集与人类学习有很大的不同，因为传感器位置固定。人类通过被动观察和主动交互来学习世界的物理学，而自动驾驶车辆缺乏这种灵活性。理解自我Agent的行为对环境的影响对于推理交互至关重要。然而，这样的数据通常稀缺或难以获取，这在世界模型的构建中构成了重大挑战。其次，隐私问题和商业竞争常常阻止汽车公司分享他们的自动驾驶数据。这不仅限制了可用数据的规模，还限制了数据的多样性。最后，数据收集通常呈现长尾分布，强调了尽管关键但罕见场景对于自动驾驶至关重要。因此，对这些数据的有效选择仍然是一个具有挑战性和未解决的问题。虽然 GenAD 已经探索了使用互联网数据训练世界模型，但其有效性仍处于初步阶段。解决这些数据限制问题将促进自动驾驶世界模型的研究。

5.2.2 未来展望

端到端基础驾驶模型。世界模型对于构建自动驾驶的端到端基础模型至关重要。作为真实世界的仿真器，它不仅可以提供高质量的数据，还可以为决策制定提供闭环训练环境。尽管驾驶领域与一般场景相比更为受限，但它涉及丰富的交互和对空间和时间信息的理解，而这些信息目前在基于文本的视频生成模型中还是缺乏的。目前，自动驾驶的世界模型仍远未实现这一目标。最好的模型 GAIA-1是在 4,700 小时的视频数据上进行训练的，类似于 GPT 预测下一个 token。然而，其模型规模为 9B，与大语言模型相比仍然相差甚远。然而，向大数据驱动的自动驾驶转变无疑是不可避免的趋势。模型将越来越多地理解现实，并从数据中掌握驾驶的规则和技术，而不仅仅依赖于手动设计的规则。在这方面，特斯拉的 FSD beta 12.3 展示了惊人的驾驶能力，为未来驾驶的端到端基础模型带来了一线希望。

真实世界驾驶仿真器。 虽然在 CARLA 仿真器中正在研究许多端到端自动驾驶方法，但模拟环境与真实世界环境之间固有的差异带来了重大挑战。这凸显了未来构建更加逼真的真实世界驾驶仿真器的必要性。利用世界模型的强大预测能力，我们可以创建更加逼真的驾驶仿真器，不仅仅局限于视频生成。这样的仿真器还必须关注场景布局控制、照明控制和对象操作等方面。此外，世界模型可以与基于 MVS、NeRF和 3D 高斯平铺的以往模拟努力无缝集成，从而增强现有方法的场景泛化能力。通过利用更逼真的驾驶仿真器进行模型训练，可以极大地促进在实际环境中可靠部署自动驾驶系统的能力。

5.3 自主Agents的世界模型

自主agent包括现实世界中的物理机器人和数字环境中的智能agent。世界模型不仅具有模拟物理世界复杂性的能力，还能模拟数字环境的细微差异。从自主代理的角度来看，世界模型提出了一些新的挑战和机遇。

5.3.1 挑战

理解环境动态。Agent程序需要有效地理解它们的环境。对于物理机器人而言，这意味着要应对复杂且常常不确定的物理世界动态，这一任务由于观察数据的有限性和现实世界变化的概率性而变得困难。与机器人不同，人类能够很好地应对这种复杂性，这得益于多感官感知、遗传知识以及从经验中学习和分享知识的能力。为了增强Agent程序对其环境的理解，我们可以从三个方面汲取人类能力的灵感：首先，通过增强多模态感知，允许Agent程序通过综合模型收集更全面的信息，其中包括视觉、听觉和触觉。这种方法的示例包括开发像 GPT-4V和 Gemini这样的大语言模型。其次，利用广泛的互联网数据进行无监督学习可以帮助Agent程序获得基本的认知能力。最后，通过像 LeCun 的多层次知识诱导这样的系统，推进并传播复杂的知识，可以帮助Agent程序迅速深入地理解它们的环境。

任务泛化。现实世界中的Agent程序经常会遇到各种各样的任务，因此需要能够不仅处理熟悉的任务，而且还能有效泛化到新颖的、未见过的任务的世界模型。这种任务泛化能力对于Agent程序至关重要，但当前的机器人在这方面仍然面临着重大挑战。如今，大多数机器人都是专门设计的模型，专门用于执行特定的功能，如扫地、运输、烹饪等，这限制了它们在处理更广泛任务方面的适应性和多功能性。这意味着学习世界模型不能仅仅依赖于模仿和生成；相反，从不同任务中抽象出常识是至关重要的。这种常识使得Agent程序更容易迁移和理解不同的任务。仅仅依赖大数据学习是一种低效且泛化能力差的方法。这类似于元学习的概念，其中元学习方法训练Agent程序学会如何学习，使它们能够快速适应新的任务。此外，多任务学习框架使Agent程序能够同时在多个任务上进行训练，识别并利用它们之间的共同点。

5.3.2 未来展望

通过大语言模型注入知识。在过去两年中，大语言模型已经展示了令人惊讶的理解能力。通过语言学习，该模型已经积累了一定数量的关于世界的知识。利用这些积累的知识，大语言模型可以作为世界模型的先验知识，使模型能够更有效地学习不同的任务。就像人类一样，世界模型最初根据其现有知识构想场景，然后通过从实际环境中获得的反馈来进一步完善它们的理解。我们相信，将世界模型与大语言模型集成是未来发展的一个有希望的方向。

真实世界应用。尽管 Dreamer 系列算法在通过规划在模拟环境和游戏场景中进行有限交互学习方面显示出潜力，但它们在现实世界机器人技术中的应用尚未得到广泛探索。然而，从模拟到现实的过渡是未来研究的一个不可避免的方向。现实世界引入了额外的不确定性，包括观察误差和控制精度，因此有必要研究世界模型在真实世界环境中对物理机器人的有效性。

6 结论

在这次调查中，对通用世界模型进行了全面的审查，强调了它们在追求通用人工智能的过程中的至关重要性，以及它们在从沉浸式虚拟环境到复杂的决策系统等众多领域的基本应用。通过我们的研究，突出了 Sora 模型的出现，因其无与伦比的模拟能力和对物理原理的初步理解，标志着世界模型演变的重要里程碑。深入探讨了当前的创新，特别关注了世界模型在视频生成、自动驾驶以及自主Agent运作中的应用。尽管取得了进展并展望了前景，但我们也对当前世界模型方法面临的挑战和局限性进行了批判性评价，思考了它们的复杂性、道德考量和可扩展性。这次全面的审查不仅展示了世界模型的当前状态和潜力，而且阐明了它们未来发展和应用的道路。希望这项调查能激发社区开发新颖解决方案，从而拓宽世界模型及其在塑造通用人工智能未来应用中的视野。