Sora模型惊天问世！技术细节轰动全球！-CSDN博客

继推出ChatGPT后，就在前几天，OpenAI公司又推出了最新的逆天人工智能（AI）模型——Sora。目前官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。

我们邀请到美国Top10 CS博士，40余篇论文一作作者Paul老师带来——惊艳的文本生成视频模型Sora，带我们深入了解Sora背后所用到的创新及突破！

扫码参与课程（赠老师授课PPT）

免费领导师亲自整理100+篇大模型论文合集

导师推荐近3年热门大模型论文合集部分展示

课程讲师：Paul老师

-美国Top10 CS博士，某CCF-B类会议大模型主体Workshop的主席

-以一作/通讯等发表40余篇论文，20+个会议/期刊审稿人、PC等

-研究方向：AGI/大模型，CV，医学图像处理，AI for Science等AI交叉领域的应用和基础研究

-指导经验和风格：4年论文辅导经验，指导40余人（包括本硕博/已就业的，辅导的学生目前有取得副教授职称，也有取得GAMA offer的）

课程大纲：

1、目前主流视频生成模式

2、主流模式的缺点

3、sora的工作原理及优点

扫码参与课程（赠老师授课PPT）

免费领导师亲自整理100+篇大模型论文合集

Sora是OpenAI发布的一款文生视频工具，它能够根据用户输入的提示词、文本指令或静态图像，生成长达一分钟的视频，其中既能实现多角度镜头的自然切换，还包含复杂的场景和生动的角色表情，且故事的逻辑性和连贯性极佳。

简单来说，Sora是通过学习视频，来理解现实世界的动态变化，并用计算机视觉技术模拟这些变化，从而创造出新的视觉内容的工具引擎。它的出现不只是一个新的技术突破，而是一个世界模型，这意味着，多模态和机器人的进步。

Sora生成视频画面节选

视频生成建模是计算机领域的重要研究方向,现有的许多工作采用循环网络、GAN、自回归变换器等方法进行视频生成,但主要集中在短视频或固定大小视频上。具体的来说：

循环网络:利用LSTM/GRU等循环结构进行视频生成建模。这类方法可以捕捉视频的时序模式,但生成质量和样本效率较差。
生成对抗网络(GAN):采用生成器和判别器的对抗训练框架。GAN方法可以生成质量较高的样本,但训练不稳定,需要技巧设计。
自回归/自动回归模型:如PixelRNN/PixelCNN,采用序列建模的思想生成视频。这类方法可以控制生成过程,但计算开销大,难以并行。
扩散模型:最近兴起的一类生成模型,通过建模从简单分布到复杂数据分布的扩散过程,可以高效生成高质量样本。

然而,现有视频生成方法主要集中在特定类别的短视频和固定大小视频上,难以生成具有不同分辨率、宽高比和时间长度的通用视频数据。Sora采用大规模预训练和统一表示的策略,突破了这一限制,实现了一定程度上通用视频生成的效果。

OpenAI 认为，之前在大语言模型上的成功，得益于 Token（可以翻译成令牌、标记、词元都可，翻译为词元会更好理解一些），Token 可以优雅的把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是，他们创造了对应 Token 的 “ Patche ” 概念（块，如果 Token 翻译为词元理解的话，Patche 或许可以被我们翻译为 “ 图块 ” ）用于训练 Sora 这个视频模型。