最近大火的Sora能生成逼真的视频画面，它到底懂不懂物理世界？

沙漏AI机器人

于 2024-02-26 14:57:42 发布

阅读量412

点赞数 7

本文链接：https://blog.csdn.net/shakehands2012/article/details/136335057

版权

最近OpenAI发布的Sora可以说是引起了人工智能和内容生成领域的讨论热点，它可以生成长达1分钟的逼真视频，前所未有！

但是，我们真实的视频是会体现真实世界的物理规律，以航行为例这意味着AI需要考虑到重力、浮力、碰撞以及船体结构在动态环境中的行为。

那么问题来了，Sora到底懂不懂我们的物理世界呢？

Sora是一种基于Transfomer架构的神经网络模型，可以实现“端到端”的数据拟合及预测，在内容生成领域有很好的效果，尤其是现在可以生成长达1分钟的逼真视频内容，让相关行业的从业者为之震惊。

但是，目前的Sora不懂得物理规律，能依靠的依旧只有基于数据的经验总结。

本质上，Sora依旧是一种神经网络模型，通过输入大量的数据驱动来总结和学习其中事物发展的时空规律，并对未来一段时间内的变化做出预测。其背后就是数以亿计的超参数，通过梯度计算和参数的迭代更新等方法来更新模型，从而能够逼近所见过的数据，可以模拟一些复杂的计算过程。

因此，某种程度上来说，神经网络模型本身存在的问题在Sora中也存在，只不过它由于有一些巧妙的网络结构的设计，对数据的理解可能更好，在大多数场景下没有表现出问题。但是在个别场景下，尤其是它见得少或者没有见过的场景中，可能就会闹出笑话来。

比如下面的这个视频中，人们从沙里“抽出”了一把椅子的操作就让人很摸不着头脑，这把椅子随后还在空中飘来飘去，做出了一些完全不符合物理运动规律的动作。这类视频内容生成的技巧用来进行影视化的“魔幻”操作是可以的，但是不符合现实的物理世界。

再比如，在这个给老奶奶过生日的视频中，现场气氛很热烈，大家都很开心，老奶奶也在表达着对大家的感谢，这些我们都能感受到。但是，老奶奶对着生日蛋糕吹气的时候，蜡烛不仅没灭，连晃动都没有，这就很不符合物理世界的常识了。

老奶奶左边的第一个女士的手在空中乱舞，并且跟后面男士的手交织在了一起，很显然Sora是想模仿大家鼓掌的高兴场面，但是仅仅从视频内容的角度来模仿是还不够的，这些都不符合生物和物理常识，它只是在数据层面在模拟这些画面。

再比如，在下面的这个视频中，Sora想要展现的是杯子倒了以后，杯中的酒水流出洒在桌子上摊成一片的状态。在酒水洒出来之前和酒水洒出来之后的状态都比较符合现实情况，但是很明显的是，Sora并不能正确地理解先有杯子倒了，后有液体流出，随后才是铺开的状态，它可以把最开始的状态和最终的状态渲染出来，但是中间的这个物理过程却不能正确渲染。

当然，就视频内容的生成方面，Sora已经是行业翘楚了，可以取得很好的视觉效果，十分逼真，它已经在尝试去理解人类的世界。但是对于物理世界的许多规律，目前的Sora还理解得不到位，或者说它目前还不具备这种“理解”的能力。

虽然人类的学习也是通过总结规律来实现的，但是人的学习并不是完全依靠数据，其中有一种非常重要的能力就是抽象和联想能力，能够将结构相似的东西联系起来提升学习的效率，并能够通过书本、视频、甚至是语音等数据将各种见过的、没见过的东西都联合起来，可以大大降低学习的难度。

抽象思考的能力也赋予了人类丰富的想象力，使得我们甚至可以想象出自己没有见过的东西，并通过经验大致猜测出其基本的运行和发展规律，这也是人类的数学和物理可以很好发展的前提。

也许将来的数据量更大了，各种场景更丰富了，又或者可以在神经网络模型纯数据学习的基础上增加数学和物理约束，那么Sora的后继者们经过长时间的学习和经验提取，有可能对物理世界的规律理解得比较好，从而能够生成更加符合物理直觉的内容。