字节跳动致敬Sora，提出PhyWorld | 生成由一个/多个经典力学定律所支配的确定性视频-CSDN博客

本文链接：https://blog.csdn.net/Python_cocola/article/details/144067262

OpenAI的Sora突显了视频生成在开发遵守基本物理定律的世界模型方面的潜力。然而，视频生成模型是否能够在没有人类先验知识的情况下，仅从视觉数据中发现这些定律这一点仍然值得怀疑。一个学习真正物理定律的世界模型应该能够给出稳健的预测，并且正确地外推到未见过的情景中。

在这项工作中，作者通过三个关键场景进行评估：分布内、分布外以及组合泛化。为此，作者开发了一个二维模拟测试平台，用于模拟物体运动和碰撞，从而生成由一个或多个经典力学定律所支配的确定性视频。这为大规模实验提供了无限的数据供应，并使作者能够定量评估生成的视频是否遵守物理定律。作者训练了基于扩散的视频生成模型，根据初始帧来预测物体的运动。

实验表明，在分布内实现了完美的泛化，在组合泛化方面表现出可测量的扩展行为，但在分布外情景中失败。进一步的实验揭示了这些模型泛化机制的两个关键见解：

模型未能抽象出一般的物理规则，而是表现出“案例为基础”的泛化行为，即模仿最近的训练示例；

当泛化到新情况时，模型在引用训练数据时表现出不同的优先级：颜色 > 大小 > 速度 > 形状。

作者的研究建议，仅靠扩展本身不足以使视频生成模型揭露基本的物理定律，尽管扩展在Sora的整体成功中发挥了一定作用。

1 介绍

基础模型通过将模型和数据规模提升至前所未有的水平展现出了卓越的能力。例如，OpenAl的Sora不仅生成了高保真度和梦幻般的视频，还引发了对世界模型研究的新一轮兴趣。

扩展视频生成模型是构建物理世界通用模拟器的一条有前景的路径。— Sora Report

世界模拟器正受到机器人学和自动驾驶领域的广泛关注，这得益于它们能够生成真实数据和精确仿真的能力。这些模型需要理解基本的物理定律，以生成超越训练语料的数据，并确保仿真的准确性。然而，尚不清楚视频生成是否能够仅通过观察视频来发现这些规则，就像Sora所做的那样。作者旨在进行系统性研究，以理解物理定律发现中缩放的关键作用及其限制。

确定一个视频模型是否学会了规律而不是仅仅记忆数据是一项挑战。由于模型的内部知识不可访问，作者只能通过检查其在未见过场景中的预测来推理模型的理解能力，即其泛化能力。本文基于训练数据和测试数据之间的关系提出了一种综合评估分类（如图1所示）。同分布（ID）泛化假设训练数据和测试数据是独立同分布的（i.i.d.）。

相比之下，异分布（OOD）泛化指的是模型在测试数据来自与训练数据不同分布情况下的表现，尤其是在潜在参数超出训练期间所见范围时的表现。人类 Level 的物理推理能够轻松地进行 OOD 推理，并预测物理过程，即使之前未曾遇到过具体相同的场景。此外，作者还考察了一种特殊的 OOD 能力——组合泛化，它评估模型是否能够以一种新颖的方式结合两个不同的概念，这是基础模型朝着通用人工智能（AGI）发展时通常被认为非常重要的一个特征。

此外，现实世界的视频通常包含复杂的非刚性物体和运动，这对定量评估甚至人工验证构成重大挑战。此类视频中丰富的纹理和外观可能成为干扰因素，分散模型对基础物理学的关注。

为了缓解这些问题，作者特别关注经典力学，并开发了一个二维模拟器，其中物体由简单的几何形状表示。每个视频展示了这些二维物体的运动或碰撞，完全由一两条基本物理定律支配，给定初始帧。此模拟器使作者能够生成大规模数据集，支持视频生成模型的扩展。此外，作者还开发了一种工具，可以从像素中推理出生成视频中每个物体的内部状态（例如，位置和大小），这使得作者能够建立定量评估指标，用于物理定律的发现。

作者首先研究视频生成模型的扩展如何影响其ID和OOD泛化能力。作者选择了三项基本物理定律来进行模拟：球的匀速直线运动、两球之间的完美弹性碰撞以及球的抛物线运动。作者将数据集从3万例扩展到300万例，同时将视频扩散模型的参数从22百万增加到3.1亿。无论在哪一任务上，模型都能实现近乎完美的ID泛化效果。

然而，随着数据量和模型规模的增加，OOD泛化误差并未得到改善，揭示了在处理OOD数据时扩展视频生成模型的能力有限。对于组合泛化能力，作者设计了一个包含多个物体自由下落和碰撞的环境，以研究它们之间的交互。每次选择8个物体中的4个来生成一个视频，总共有70种组合方式。作者用其中的60种组合进行训练，剩余的10种用于测试。

通过改变训练数据的数量，从60万到600万不等，对生成的测试样本进行人工评估，并将其 Token 为“异常”如果视频看起来不符合物理原理。结果表明，大幅度增加数据量可以显著降低异常案例的比例，从67%降至10%。这表明扩展是提升组合泛化能力的关键。

作者的实证分析揭示了视频生成模型泛化机制的两种有趣特性:

首先，这些模型容易受到训练集中的“欺骗性”示例的影响，导致在特定条件下以“案例为基础”的方式泛化。这一现象在大语言模型中也有观察到，描述了模型倾向于在解决新任务时参考相似的训练案例的倾向。例如，假设有一个视频模型是在一种高速球沿均匀直线运动的数据上进行训练的。如果通过水平翻转视频进行数据增强，从而引入反向运动，则模型可能会生成一个场景，在初始几帧之后，低速球发生反向运动，尽管这种行为在物理上是不正确的。
其次，作者探索了泛化过程中不同数据属性之间的竞争关系。例如，如果均匀运动的训练数据由红色球和蓝色正方形组成，模型可能会在调节帧之后立即将红色正方形转化为球。这种行为表明，模型优先考虑颜色而非形状。作者的成对分析揭示了以下先验推理层次：颜色 > 大小 > 速度 > 形状。这种排序可能解释了当前视频生成模型在保持目标一致性方面为何经常遇到困难的原因。

2 使用视频生成来发现物理定律

2.1 问题定义

在本节中，作者将建立框架并定义视频生成背景下物理定律发现的概念。在经典物理学中，物理定律通过数学方程来表达，这些方程可以从初始条件预测未来状态和动力学。在基于视频的观测领域中，每帧代表时间的一个瞬间，而预测物理定律则对应于根据过去状态生成未来帧。

考虑一个涉及多个潜在变量的过程，每个变量代表某一特定的物理参数，例如速度或位置。根据经典力学，这些潜在变量将通过微分方程发展。离散化版本中，如果两帧之间的时间间隔为，则作者有。表示渲染函数为，该函数将世界状态渲染为具有形状和RGB通道的图像。

考虑一个遵循经典力学动力学的视频，其中包含帧。物理连贯性要求存在一系列潜在变量，它们满足以下要求：1) ，；2) ，。作者训练一个由参数化的视频生成模型，其中表征其对视频帧的理解。基于初始帧的状态，作者可以从中采样预测后续帧。变量通常取值1或3，取决于任务。

因此，物理连贯性损失可以简单定义为。它衡量预测值与现实世界发展一致的可能性。为了准确预测后续帧，模型必须理解潜在的物理过程，这使得作者能够定量评估视频生成模型是否正确发现了并模拟了物理定律。

2.2 视频生成模型

在借鉴了Sora的研究之后，作者采用了变分自编码器（VAE）和DiT架构进行视频生成。VAE能够从空间和时间两个维度对视频进行压缩，而DiT则负责建模去噪过程。该方法展示了强大的扩展能力，并能够在生成高质量视频方面取得令人满意的结果。

VAEModel. 作者采用一个 (2+1)D-VAE来将视频投影到潜在空间。作者在SD1.5-VAE结构的基础上，通过使用三维块将其扩展为一个空时自动编码器。 (2+1)D-VAE的所有参数均在高质量图像和视频数据上进行预训练，以保持强大的外观建模能力的同时，还能够进行运动建模。更多细节见附录A.3.1。在此论文中，作者固定了预训练的VAE编码器，并将其用作视频压缩器。附录A.3.2中的结果显示VAE具有准确编码和解码物理事件视频的能力。这使作者可以专注于训练扩散模型学习物理定律。

Diffusion model. 给定由VAE模型压缩得到的潜在表示，作者将其扩展为时空片段序列，类似于Transformer的Token。值得注意的是，在整个视频Token的空时序列中应用自注意力机制，而无须区分空间维度和时间维度。对于位置嵌入，采用RoPE的三维变体。根据第2.1节所述，作者的视频模型基于前帧进行条件化处理。长度为帧的视频通过零填充使其与完整的物理视频具有相同的长度。作者还引入了一个二元 Mask “视频”，即将前帧的值设置为1，以指示这些帧作为条件输入。噪声视频、条件视频和 Mask 视频沿着通道维度连接起来，形成最终的模型输入。

2.3 关于已学法律的验证

假设作者基于上述公式学习了一种视频生成模型。作者如何确定其背后的物理法则已被发现？一个成熟的物理定律描述了自然界的运动和相互作用行为，例如物体是如何移动和交互的。因此，一个结合真实物理定律的视频模型应该能够经得起实验验证，在任何情况下都能产生合理的预测，这表明了模型的泛化能力。

为了全面评估这一点，作者在本文范围内考虑了以下泛化分类（参见图1）：

同分布（In-distribution, ID）泛化指的是训练数据和测试数据来自同一分布的情况。在作者的案例中，训练数据和测试数据遵循相同的规律，并且位于相同的领域。
一个学习过物理定律的人可以很容易地将知识应用到从未见过的新场景中，这种能力称为异分布（Out-of-distribution, OOD）泛化。虽然这听上去颇具挑战性，但这一评价是必要的，因为它表明了一个模型能否从数据中学习到原理性的规则。
此外，还有一种介于ID和OOD之间的场景，更具实际价值。作者将这种情况称为组合泛化，代表一种情形，即所有“概念”或目标在训练过程中都已被观测，但它们的不同组合并未出现。它考察的是模型以新颖方式整合过去经验相关信息的能力。类似的概念已在大语言模型（LLMs）中进行了探讨，研究表明，模型可以通过重组之前学到的组件来出色地完成语言指令任务，而无需特定任务的经验。

3 分发内和分发外泛化

在本节中，作者研究了模型内分布和外分布泛化的相关性与模型或数据规模之间的关系。作者专注于由基本运动方程决定的确定性任务，因为这些任务允许清晰定义内分布/外分布，并且可以直接进行定量误差评估。

3.1 基础物理场景

具体而言，作者考虑了图2中所示的三个物理场景。

均匀直线运动：一个彩色球以恒定速度水平移动。这用于说明惯性定律。
完全弹性碰撞：两个不同大小和速度的球体沿水平方向相向运动并发生碰撞。背后的物理定律是能量和动量的守恒。
抛物线运动：一个具有初始水平速度的球由于重力而下落。这代表了牛顿第二运动定律。每种运动都由其初始帧决定。

数据集生成。作者利用Box2D来模拟各种场景下的动能状态，并将其渲染为视频，每个场景具有2至4个自由度（DoF），例如“球”的初始速度和质量。为每个DOF定义了分布范围。作者通过在这些范围内均匀采样高维网格来生成包含30K、300K和3M个视频的训练数据集。所有球体的密度相同，因此其质量可通过其大小进行推理。为了保持一致性，在抛物线运动中重力加速度为常数。初始球体位置在可视范围内随机初始化。更多细节见附录A.4。

测试数据生成。作者使用ID数据和OOD数据来评估训练好的模型。对于ID评估，作者从与训练过程中使用的相同网格中采样，确保没有特定的数据点成为训练集的一部分。对于OOD评估，生成的视频初始半径和速度值均位于训练范围之外。存在多种OOD设置，例如仅速度/半径异常或两者皆异常。详细内容参见附录A.4。

模型。针对每种场景，作者从头开始训练不同规模的模型，如表1所示。这确保了结果不受不可控预训练数据的影响。前三个帧作为条件输入，已经足够推理球的速度并预测后续帧。作者使用32块Nvidia A100 GPU训练了10万步的扩散模型，批大小为256，这足以确保模型收敛，因为训练30万步的模型也达到了相似的表现。作者保持预训练的VAE不变。每个视频包含32帧，分辨率为128x128。作者还尝试了256x256的分辨率，虽然泛化误差类似，但显著增加了训练时间。

评估指标。作者观察到学习得到的模型能够生成形状一致的球体。为了获取生成视频中第个球的中心位置，作者使用了一个基于彩色像素平均值的启发式算法，并通过颜色区分不同的球。为了确保的准确性，作者排除了部分球体超出视域的帧，从而得到有效的帧集合。对于碰撞场景，只考虑碰撞之后的帧。然后，作者通过对每个球的位置进行求导来计算其在每一时刻的速度。视频的误差定义为：，其中是在时间计算出的速度，是模拟器中的真实速度，是球的数量，而是有效帧的数量。

Baseline. 作者计算 GT 速度与从 GT 视频解析得到的值之间的误差，这被称为 GT 。这代表了系统误差——由将视频解析为速度所引起，并定义了模型能达到的最小误差。

3.2 缩放数据和模型的主要结果

在图3中，对于同分布（ID）泛化而言，增加模型规模（从DiT-S到DiT-L）或数据量（从30K到3M）一致地减少了所有三项任务的速度误差，强烈证明了对于ID泛化而言缩放的重要性。以匀速运动任务为例：使用30K数据时，DiT-S模型的速度误差为0.022，而使用3M数据时，DiT-L的误差减少到0.012，非常接近使用GT视频获得的0.010误差。

然而，在分布外（OOD）预测中，结果与分布内（ID）预测差异显著。首先，分布外的速度误差比分布内误差高一个数量级。例如，对于使用3M数据的DiT-L模型，OOD误差为0.427，而ID误差仅为0.012。其次，增加训练数据量和模型规模对减少这种预测误差影响甚微。

随着数据或模型规模的变化，速度误差的波动非常随机，例如在均匀运动场景下，Di1-B的误差分别为0.433、0.328和0.358，对应的数据量分别是30K、300K和3M。作者还使用了3M数据集对DiT-XL进行了训练，但发现其在OOD泛化方面并无改进。因此，由于资源限制，作者没有继续在其他场景或数据集上训练DiT-XL。这些发现表明，单纯增大规模不能在OOD场景中进行推理。ID和OOD设置之间的巨大差距进一步促使作者在第5.2节中研究视频生成的泛化机制。

4 综合概括

在第3章中，视频生成模型在OOD场景下未能进行推理。这可以理解，从数据中精确地推导出物理法则对人类和模型来说都是困难的。例如，科学家们花了几个世纪的时间才制定了牛顿的三大运动定律。然而，即使是孩子也能通过结合过去的经历来直观地预测日常生活中的结果。这种将已知信息结合起来预测新场景的能力被称为组合性泛化。本节中，作者将评估基于扩散的视频模型的组合性能力。

4.1 组合物理场景

作者选择了PHYRE模拟器作为测试平台。这是一个二维环境，包含多个可自由下落然后相互碰撞的目标，从而形成复杂的物理交互。该环境具有多种不同的物体类型，包括球体、瓶子、棒状物和墙壁，这些物体可以是固定的也可以是动态的。这使得碰撞、抛物线轨迹、旋转和摩擦等复杂交互能够在视频中同时发生。尽管环境结构复杂，但底层的物理定律是确定性的，这使得模型能够学习这些规律并预测未见过的场景。

训练数据。考虑了八种类型的目标，包括两个动态灰色球、一组固定黑色球、一个固定黑色棒、一根动态棒、一组动态直立棒、一个动态罐子以及一根动态直立棍。每个任务包含一个红色球和四种从八种类型中随机选择的目标，共有种独特的模板。见图4示例。

每个模板初始时以四种物体的随机大小和位置进行初始化，生成了10万个视频，以覆盖各种可能的场景。为了探索模型的组合能力和扩展效果，作者按照三个层次结构化了训练数据：最小的数据集包含6个模板（共0.6M个视频），这些模板包括八种物体类型中所有两物体交互的种类；更大规模的数据集分别包含30个和60个模板（共3M和6M个视频），其中60个模板几乎覆盖了所有的模板空间。最小的数据集对模型的组合泛化能力提出了最高的要求。

测试数据。对于每种训练模板，作者保留一小部分视频以构建模板内的评估集。此外，还保留了10个未使用模板用于跨模板评估集，以测试模型在评估未在训练过程中见过的新组合时的泛化能力。

模型部分。第一帧被用作视频生成的条件，因为初始目标是静态的。作者发现像DiT-S这样的较小模型在处理复杂视频时存在问题，因此主要使用了DiT-B和DiT-XL。所有模型都在64块Nvidia A100 GPU上进行了长达100万梯度步的训练，批次大小为256，确保接近收敛。为了更好地捕捉物理事件的复杂性，作者将分辨率提高到了，并使用了32帧。

评估指标。作者使用多种指标来评估生成视频与真实视频的一致性。弗雷歇视频距离（FVD）通过使用在Kinetics-400上预训练的膨胀3D卷积网络（Inflated-3D ConvNets, I3D）提取的特征，计算生成视频和真实视频之间的特征距离。SSIM和PSNR是像素级指标：SSIM评估亮度、对比度和结构相似性，而PSNR衡量峰值信号与均方误差的比例，并在整个帧上进行平均。LPIPS则衡量图像patches的感知相似度。作者还包括人工评价的结果，报告违反物理定律的生成视频的异常比例。

4.2 主要结果

由于任务复杂度增加，完成此任务需要更高分辨率、更多训练迭代次数以及更大模型规模。因此，作者无法像在第3节那样进行全面的数据与模型规模组合扫面。相反，作者从最大的模型DiT-XL开始研究数据扩展行为对组合泛化的影响。如表2所示，当模板数量从6个增加到60个时，所有指标在超出模板测试集上的表现都有所提升。

值得注意的是，人工评估中的异常率显著降低，从67%降至10%+。另一方面，使用6个模板训练的模型在同模板测试集上实现了最佳的SSIM、PSNR和LPIPS得分。这一现象可以解释为，在6个模板集合中的每个训练示例相比于60个模板集合中的示例更频繁地被展示十次，从而使模型更好地适应模板6相关的同模板任务。

此外，作者还使用DiT-B模型对完整的60个模板进行了额外实验，以验证模型扩展的重要性。正如预期，异常率达到24%。这些结果表明，模型容量和组合空间覆盖率对于组合泛化的关键性。这暗示视频生成的缩放法则应侧重于增加组合多样性，而不仅仅是增加数据量。作者的模型视频生成可视化结果见图17和图18。

5 更深入的分析

在本节中，作者旨在通过系统性的实验设计探究视频生成模型的泛化机制。基于这些发现，作者将尝试识别某些组合泛化的模式，这些模式可能有助于引导或激发模型的能力。

5.1 从内插和外推理解模型的泛化能力

模型的泛化能力源于其内插和外推能力。在这一部分中，作者设计实验来探索这些能力的极限，特别是对一个视频生成模型而言。作者设计的数据集会省略一些潜在变量，例如速度。经过训练后，作者测试模型在已见过和未见过的情境中的预测能力。作者主要关注均匀运动和碰撞过程。

匀速运动。作者创建了一系列训练数据集，在这些数据集中，某种速度范围缺失。每个数据集包含20万个视频以确保公平性。如图5 (1)-(2)所示，当训练集中的速度间隔较大时，模型倾向于生成高速或低速的视频以模拟初始帧显示中等速度的训练数据。作者发现，视频生成模型的OOD准确性与速度间隔大小密切相关，如图5 (3)所示，随着间隔减小，模型正确地对大多数OOD数据进行插值。此外，如图5 (4)和(5)所示，当重新引入缺失范围内的一部分（而不增加数据量）时，模型展现了更强的插值能力。

碰撞涉及多个变量，这使得问题更加复杂，因为模型需要学习一个二维的非线性函数。具体来说，作者在两个球的初始速度训练集中排除一个或多个正方形区域，然后评估碰撞后的速度预测误差。对于每个速度点，作者采样一系列半径参数来生成多个视频案例，并计算平均误差。如图6 (1)-(2)所示，一个有趣的现象发生了：视频生成模型在OOD点上的外推误差显示出显著的差异：对于落在训练集凸包内的OOD速度组合，即黄色区域内内部的红色正方形，模型表现良好。然而，当潜在值位于训练集凸包外部的空间时，模型会遇到较大的误差。

5.2 记忆或泛化

先前的研究表明，大语言模型依赖于记忆，在推理过程中复现训练数据中的案例，而不是学习加法等任务背后的规则。在本节中，作者调查视频生成模型是否也表现出类似的行为，即记忆数据而非理解物理规律，这限制了它们对未见数据的泛化能力。

作者使用均匀运动视频训练模型，其中速度范围为，并将前三个帧作为输入条件。使用了两个训练集：Set-1仅包含从左向右移动的球，而Set-2在训练时通过水平翻转包含了双向运动。在评估阶段，作者重点关注低速球，这些球未出现在训练数据中。如图7所示，Set-1模型生成的视频仅包含正速度，偏向高速范围。

相比之下，Set-2模型偶尔会产生带有负速度的视频，如绿色圆圈所强调的那样。例如，一个从左向右移动的低速球在其条件帧之后可能会突然改变方向。这可能是由于模型将反向训练视频识别为与低速球最接近的匹配项。这两种模型之间的这种差异表明，视频生成模型可能受到了训练数据中“欺骗性”示例的影响。模型似乎更依赖于记忆和案例基础的模仿来进行OoD泛化，而不是抽象出普遍规则。

5.3 扩散模型如何获取数据？

作者旨在探究视频模型在案例匹配中的表现方式，即识别给定测试输入的相近训练示例。为此，作者采用均匀线性运动进行研究。具体来说，作者比较了四个性质，即颜色、形状、大小和速度，每两个性质进行一次对比。通过这些比较，作者试图确定模型在案例匹配时偏好依赖特定属性的程度。每个属性都有两组不相交的值。对于每一对属性，存在四种类型的组合。作者使用其中两种组合进行训练，另外两种用于测试。

例如，在图8 (1) 中，作者将红色球和蓝色正方形的视频（具有相同大小和速度范围）用于训练。在测试阶段，一个蓝色球在条件帧之后立即改变了形状，变为了正方形；而一个红色正方形则转变为球形。在1,400个测试案例中，作者没有观察到任何例外情况，这表明模型在案例匹配时更偏好颜色而非形状。类似的趋势在大小与形状以及速度与形状的对比中也有所体现，如图8 (2) 和 (3) 所示，这表明形状是最不优先考虑的属性之一。这暗示基于扩散机制的视频模型在本质上更倾向于其他属性而不是形状，这也可能解释了为什么当前的开放集视频生成模型通常难以保持形状的一致性。

图9还展示了其他三对的关系。在速度与大小的关系中，组合泛化性能令人惊讶地良好。模型在大多数测试案例中有效维持了初始大小和速度，超出训练分布范围也是如此。不过，在极端半径和速度值情况下（图9（1）左上和右下），稍微更偏好大小而非速度的现象较为明显。

在图9（2）中，颜色通常可以与其他大小组合使用。而相反，在图9（3）的速度与颜色关系中，用于训练的数据包括高速蓝色球和低速红色球。测试时，低速蓝色球的出现速度明显快于其条件速度。测试集中没有一个球改变颜色，这表明颜色比速度更重要。基于以上分析，作者得出结论，先验排序顺序如下：颜色 > 大小 > 速度 > 形状。

5.4 复杂组合泛化是如何发生的？

在第4节中，作者展示了扩大数据覆盖范围可以提升组合泛化能力。但哪种类型的数据能够真正实现概念上的组合视频生成呢？在本节中，作者通过实验设计发现了三种心理上的组合模式。

属性组成。如图9（1）-(2)所示，某些属性组合，例如速度和大小，或颜色和大小，在一定程度上表现出组合泛化的特性。

空间组成。如附录中图11（左侧）所示，训练数据包含两种不同的物理事件。一种类型涉及一个蓝色正方形以恒定速度水平移动，而一个红色球体保持静止。相比之下，另一种类型显示红色球体朝向并随后撞击墙壁，而蓝色正方形保持静止。在这些球体和正方形同时移动时，学习到的模型能够生成红色球体撞击墙壁而蓝色正方形继续其匀速运动的场景。

时间组合。如图11右侧所示，当训练数据包含不同的物理事件时——一半展示了两个球相撞但没有弹跳，另一半展示了红球撞击墙面后反弹的情况——模型学会了在时间上组合这些事件。因此，在评估过程中，当球在墙面附近碰撞时，模型能够准确预测碰撞事件，然后判断蓝色球将以恒定的速度反弹离墙面。

具备这些空间和时间上的组合模式，视频生成模型可以识别出训练集中基本的物理事件，并在属性、时间和空间上将它们结合起来，生成包含复杂物理事件链的视频。

5.5 视频足以用于完整的物理建模吗？

为了使视频生成模型能够充当世界模型，视觉表示必须提供足够的信息以进行完整的物理建模。在作者的实验中，作者发现视觉模糊会导致细粒度物理建模中的显著不准确性。

例如，在图10中，仅凭视觉很难判断一个球是否可以通过尺寸差异达到像素 Level 的缝隙，这导致了视觉上合理但不正确的结果。同样，当球的水平位置相对于方块存在视觉模糊时，也会产生不同的结果。这些发现表明，仅仅依赖视觉表示可能不足以实现精确的物理建模。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述