翻译-OpenAI官方介绍文档-Sora

Connie尧尧

于 2024-03-11 11:43:37 发布

阅读量56

点赞数

分类专栏： AIGC 文章标签：人工智能 ai AIGC

原文链接：https://openai.com/sora

版权

AIGC 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文本生成视频

Sora是一个AI模型，可以通过文本指令生成逼真的、创新的场景。

能力

我们正在训练AI理解和模拟运动中的物理世界，目标是训练模型以帮助人们解决需要现实世界交互的问题。
隆重介绍Sora，我们的文本生成视频模型。Sora可以生成长达1分钟的视频，同时保持视觉质量并遵循用户提示。
如今，Red Teamers可以使用Sora来评估关键领域的危害和风险。

（译者注：Red Team
源自西方军事术语，指军事演习中的扮演假想敌的敌军部队。后来，由于信息安全行业与军方的一些相似性，这个概念被引入到了安全行业，现在国际上一般以如下比较通用的定义来描述信息安全行业中的Red Team：基于情报和目标导向来模拟攻击者对企业实施入侵的专门的安全团队。）

我们也给许多的视觉艺术家、设计师和电影制作者授权了，以获取如何改进模型来对创意专业人士提供最大帮助的反馈。
我们很早就分享我们的研究进展，以便开始和OpenAI以外的人合作并且获取反馈，让公众了解即将出现的AI能力。
Sora可以生成有多个角色、特定类型的动作以及主题和背景的精确细节的复杂场景。该模型不仅能够理解用户在提示词中提出的内容，还理解这些事物在物理世界是如何存在的。
该模型对语言有着深刻的理解，这使得它可以精确地翻译提示词并生成表达生动情绪的、令人信服的角色。
当前的模型存在弱点，它可能难以准确的模拟复杂场景的物理效果，也可能不理解因果关系的具体实例。比如，一个人可能咬了一口饼干，但饼干却没有咬痕。该模型也可能弄错提示的空间细节，比如，混淆左和右，并且可能难以准确描述随着时间推移而发生的事情，比如跟随一个特定的相机轨迹。

安全

在OpenAI的产品使用Sora前，我们会采取几个重要的安全步骤。我们正在和红队一起工作，他们是在错误信息、仇恨内容、偏见等领域的专家，他们会对该模型进行对抗性测试。
我们也在构建帮助检测误导性内容的工具，比如检测分类器，可以辨别视频是什么时候由Sora生成的。如果我们将该模型部署到一款OpenAI的产品上，我们将来计划把C2PA 元数据包括进去。
除了我们开发新技术为部署做准备外，我们借用已有的安全方法，该方法是我们为我们使用DALLE3的产品开发的，也适用于Sora。
例如，在OpenAI的产品中，我们的文本分类器会检查和拒绝违反我们使用政策的文本输入提示词，比如要求极端暴力、性相关内容、仇恨图像、名人肖像或者是他人的IP地址。我们也开发了强大的图像分类器，用于检查每个生成的视频的每一帧，以帮助确保视频展示给用户前，是遵守我们的使用政策的。
我们会和全世界的政策制定制定者、教育工作者和艺术家合作，了解他们的担心并且识别这项新技术的积极使用案例。尽管有广泛的研究和测试，我们不能预测人们使用我们这项技术的所有的有益方式，也不能预测人们滥用它的所有方式。这就是为什么我们相信，随着时间的推移，从现实世界的使用中学习是创造和发布日益安全的AI系统的重要组成部分。

研究技术

Sora是一个扩散模型，它从一个看似静态噪声的视频开始生成视频，然后通过很多步骤去掉噪声逐渐将其转换。
Sora可以一次生成完整的视频，或者扩展生成视频以使其更长。通过一次性给该模型提供多帧的预见，我们已经解决了一个挑战性问题，即当主体暂时消失在视野时确保其保持不变。
和GPT模型类似，Sora使用变压器架构，解锁更强的扩展性能。
我们将视频和图像当作更小单位的数据的集合，称之为patch，每一个patch类似于GPT中的一个token。通过统一我们标识数据的方式，我们可以在比以前更广范围的可视数据上训练扩散变换器，包含不同的持续时间、分辨率和纵横比。
Sora建立在之前对DALL·E和GPT模型研究上，它使用DALL·E 3的重述技术，该激素涉及为视觉训练数据生成高度描述性标题。因此，该模型可以更忠实地遵循生成视频中用户的文本指令。
除了能从文本指令独立地生成一个视频外，该模型可以从一个已经存在的静止的图像生成一个视频，使用对图像细节的精确和细节的关注，将其制成动画。该模型也可以对现有视频进行扩展或者填充丢失的帧。可以从我们的技术报告学习更多。
Sora作为可以理解并模仿现实世界的模型的基础，我们相信它是可以达到AGI重要里程碑的一项能力。