Sora 技术文档解读

rww94

已于 2024-03-10 21:02:27 修改

阅读量853

点赞数 23

文章标签：人工智能

于 2024-03-10 20:59:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rww94/article/details/42647093

版权

Sora 是openai团队开发的视频生成模型，根据已公布资料，可以根据用户的文本提示生成最长一分钟（截至202403）的视频。

Sora 封面视频

Sora能够生成具有多个角色、特定运动类型以及主题和背景的细节准确的复杂场景。该模型不仅能够准确实现用户在提示词中提到的事物，还能理解这些事物在物理世界存在规律。

目前模型还存在一些缺陷，它难以准确模拟复杂场景的物理特性，也无法理解具体场景的因果关系，例如一个人咬了一口饼干，但饼干并没有出现咬痕。它还会混淆左右，并难以描述随着时间的推移发生的事件，例如根据一个特定相机轨迹的视频。

Sora现阶段还没有对外发布产品，在发布之前还需要解决相关安全性问题。openai团队正在和专业测试团队（Red Team安全演练中的攻击者）合作，评估潜在的危害和风险。除此之外，正在开发帮助检测误导性信息的工具，例如检测判断视频是否是由Sora生成的，同时检测拒绝输入暴力，仇恨，性内容，名人的提示内容。

Sora现阶段还没有公布其模型技术实现的细节，只有官网发布的技术文档：Video generation models as world simulators

技术文档主要包含两个方面：

1、数据的表示方式，如何各种类型的视觉数据转换为统一表示

报告中聚焦的第一个问题，即数据的表示方式，如何将各种类型的视觉数据转化为统一表示。Sora模型的灵感来源于传统大语言模型。大语言模型的输入是Token，即文本的最小单位，一个单词，标点符号或数字，大语言模型结束一连串token是的输入，并尝试预测下有个最有可能的token。那么处理视频和图片等视觉数据的最小单元是什么，Sora使用的是Visual Patches。

1.1 技术路线

视频就是由一帧帧的画面组成的，那么对于如何生成一个视频，可以转为如何生成多帧的画面。而一个连贯的视频需要解决帧与帧之间的关系。解决这个问题有两种方案，第一种是找到帧与帧之间的关系，第二种是训练整个视频的时间序列。现在的AnimateDiff Web Online for Free模型及大部分开源模型采用的都是第一种方式，而Runway - Advancing creativity with artificial intelligence.和Sora即采用的是将整个视频作为一个整体输入，放入diffusion model中。第二种解决方式需要大量的提示词标记和大算力，这也是openai擅长的。

Sora团队首先整体上是将视频压缩到较低维度的空间向量表示，然后将表示分解为一个个时空分块（即时间窗口乘以图片分块的宽和高）Visual Patches；

这一步是以原始视频作为输入，输出一个在时间和空间上被压缩的潜在向量表示，Sora即在整个被压缩的潜在向量空间中进行训练，并生成视频。

Sora是一个基于Transformer的Diffusion Model。（模型的论文是Scalable Diffusion Models with Transformers）

Sora的输入和输出分别是：

文本提示（Text Prompt）和加了噪音的视频帧（Noisy Pathces）
清晰的视频帧

技术报告中提到，样本越精细，训练需要的算力越多，输出的效果就越好。

1.2 视频样本尺寸的处理

以往的生成视频模型，都会将视频的尺寸和时长进行裁剪到标准尺寸，例如256*256的4秒视频。

而Sora的技术报告中提到，使用原始尺寸的视频进行训练优化更多的好处。

首先就是采样更加灵活，Sora可以直接生成不同尺寸的视频，横屏，竖屏，使得Sora可以适配不同尺寸的设备屏幕生成不同分辨率的视频。同时也可以在生成高清视频之前，直接生成小尺寸的预览内容。

技术报告也对比拿原始尺寸视频和裁剪成正方形视频训练生成的模型，发现后者生成的视频有时主体会部分出现在画面中，感官不好。

1.3 语言理解和数据增强

Sora的模型训练需要大量配有文字说明的视频。

技术报告中的做法是借鉴DALL·E 3模型（openai文字生成图像模型DALL·E 3 system card）中使用的重标记技术。

1.首先训练一个能够生成详尽描述的标题模型，为训练集中的所有视频生成文字说明。

2.然后在详细描述的视频标题下进行训练，不仅能提升文字的准确行，也能提高视频的质量。

另外使用GTP模型，将用户简短Prompt扩展为更加详细的说明文字，随后输出到Sora生成视频。

2、对Sora的能力和缺陷定性评估

2.1 Sora提供的能力

Sora不仅能提供从文字生成视频的能力，也提供以图片和视频输入生成视频的能力。

2.1.1 让图片动起来

2.1.2 扩展视频

输入视频，向前或向后补充视频
输入视频，依据提示词，修改视频
输入多个视频，将其拼接在一起

2.1.3 生成图片

该模型可以生成各种尺寸的图像，分辨率高达2048x2048。

2.2 有趣的新兴能力

技术报告提到，当模型在大规模数据上训练后，模型表现出许多有趣的新兴能力，Sora能够模拟现实世界中人类、动物和环境的某些方面。

这个特点的出现，并不是因为有针对3D、物体等的归纳偏置。

归纳偏置（Inductive Bias）：根据人在现实问题中所观察到的共性规律，梳理出一些通用的准则，并以这些规则来约束算法模型，使之倾向于得到更加符合现实的结果。类似于贝叶斯学习中的“先验”。

纯粹是数据规模大产生的结果。也就是说，模型训练前并没有给它输入这些物理规则，然而模型在接受大规模数据的训练后，自然而然学习到了这些物理规律。

报告中的举例：

模拟相机的相位移动，随着相机的移动和旋转，人物和场景元素在三维空间中保持一致地移动
物体的长期连贯性和持续性，Sora可以模拟出视频主体，在暂时地被遮挡或者离开画面后，后续也能继续存在。并且也能保证主体，在多个镜头画面中，保持外形的一致性
Sora有时能够模拟以简单方式影响世界状态的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时能留下咬痕
Sora还能够模拟数字世界，比如生成MineCraft游戏的模拟视频。并且渲染的质量极高

2.3 不足

有时候没法模拟真实物理情况，例如玻璃杯掉在地上摔碎的情况，吃东西时候食物的状态，或者一些其它明显的不一致性、不连贯的情况

总结

报告指出：Sora今天的能力表明，开发基于物理和数字世界以及生活在其中的物体、动物和人的强大世界模拟器的一条十分可行的道路。

关注

23
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
Sora 技术文档解读

Sora是openai团队开发的是视频生成模型，可以根据用户的文本提示生成最长一分钟的视频。本文针对官方已放出的技术文档进行解读，了解Sora的能力和局限。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。