Sora两大核心技术，都藏在这2本书里！

最新推荐文章于 2024-08-23 19:49:26 发布

CSDN 程序人生

最新推荐文章于 2024-08-23 19:49:26 发布

阅读量127

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzkxNjI3ODAwNw==&mid=2247570228&idx=2&sn=0aa9208596b58e5b5eb28df8a8364e17&chksm=c06dbe1ef4f0ef5fda5fc61d9407ebae83a9e752c728b9bc491b7f0c410474f6a2d58cc71361&scene=126&sessionid=0

版权

OpenAI 的新王炸，说话就能生成视频

2024 年 2 月 16 日凌晨，OpenAI 又发布王炸级产品——Sora，这是一款可以根据文本提示词直接生成视频的工具。其效果之炸裂，观者无不叹为观止。

只要使用自然语言描述情节、场景和要求，Sora 就能生成一分钟的视频内容。

图注：Sora生成的春节舞龙视频

大佬周鸿袆直言“Sora 意味着 AGI 实现将从 10 年缩短到 1 年”。他为什么会这么说？

首先，Sora 展现出了模拟真实物理世界的能力。从物体运动的轨迹到光影的变换，Sora 能够确定环境中每个对象的物理特性，并根据它们计算渲染视频。以至于 Nvidia 高级研究员 Jim Fan 认为 Sora 更像是一个“数据驱动的物理引擎”。

其次，Sora 可以生成长达一分钟的视频，并且保持情节的连贯以及画面的清晰度。对比同类型工具 Runway 或者 Pika 最多十几秒的生成能力，Sora 的实力是碾压式的。

另外，Sora 还具备超强的视频处理能力，支持向前或向后扩展视频，可以将多个视频平滑连接到一起。

Sora 为啥这么厉害？因为它是一个扩散模型（Diffusion Model），是在大量不同时长、分辨率和宽高比的视频及图像上训练而成的。《扩散模型：从原理到实战》一书对扩散模型的原理与应用有详尽的说明。

同时，Sora还采用了 Transformer 架构，也就是一种“扩散型 Transformer”。它通过预测干净补丁的方式生成视觉内容，再利用 Transformer 模型处理时空补丁。《GPT 图解：大模型是怎样构建的》一书提供了实现 Transformer 的完整代码示例，读者可以轻松理解 Transformer架构。

看来，扩散模型和 Transformer 是 Sora成功的关键，我们就来一探究竟吧。

原来这就是扩散模型

《扩散模型：从原理到实战》中解释说，扩散模型是一类基于扩散思想的深度学习生成模型。而扩散思想则来自物理学中的非平衡热力学分支，一个典型研究案例就是一滴墨水在水中的扩散过程。

非平衡热力学理论可以描述这滴墨水随时间推移的扩散过程中每一个“时间步”状态的概率分布。如果可以把这个过程反过来，就可以从简单的分布中逐步推断出复杂的分布。

公认的最早扩散模型 DDPM（Denoising Diffusion Probabilistic Model）的扩散原理就是由此而来。DDPM 的扩散过程分为前向过程和反向过程两部分。

前向过程是给数据添加噪声的过程，反向过程是“去噪”的过程，即从随机噪声中迭代恢复出清晰数据的过程。

在图像生成领域，DDPM 奠定了扩散模型的应用基础，随后涌现的众多扩散模型都是在此基础上进行了不同种类的改进。但在扩散模型发展早期，它生成图像的质量和稳定性还不如 GAN（Generative Adversarial Network，生成对抗网络）。

在 2021 年 5 月，OpenAI 出手发表了论文“Diffusion Models Beat GANs on Image Synthesis”，该论文介绍了在扩散过程中如何使用显式分类器引导，一举打败图像生成领域统治多年的 GAN，使得扩散模型成为新的霸主。当前一众热门的图像生成工具，诸如 Midjourney、DreamStudio、Adobe Firefly 等，都是基于扩散模型的。

可见，OpenAI 能有今日成就绝非一时侥幸，在 AIGC 大模型的发展之路上，OpenAI 的研究都走在了业界的最前沿。从文本问答 GPT 系列产品，到文生图 DALL-E 3，再到文生视频 Sora 的成功，这就是技术引导下水到渠成的结果。

需要指出的是，扩散只是一种思想，扩散模型也并非固定的深度网络结构。如果将扩散的思想融入其他领域，扩散模型同样能有出人意料的表现。

在宽广的 AI 赛道上，大家可以借鉴扩散思想，找到更多好机会。我们来继续了解扩散模型还能做成哪些事儿。

扩散模型能做成的事儿

在 AI 的多个应用领域，扩散模型都有用武之地，包括计算机视觉、时序数据预测、自然语言处理、AI基础科学等。我们对这些应用一一介绍，读者也可以结合自己的专业领域探索扩散模型的用途。

计算机视觉

扩散模型可以在图像处理任务中发挥重要作用，有如下三种场景。

图像分割与目标检测。
图像超分辨率。
图像修复、图像翻译和图像编辑。

时序数据预测

时序数据预测是根据历史观测数据，预测未来可能出现的数据。而基于扩散思想，就可以将时序数据预测视为生成任务，基于历史数据的基本条件生成未来数据。

时序数据预测可以在多种业务中应用，包括气温预测、股票价格走势预测、销售与产能预测等。

自然语言处理

基于扩散思想，只要将自然语言类的句子分词并转换为词向量后，就可以通过扩散方法来学习自然语言的语句生成，实现语言翻译、问答对话、搜索补全、情感分析、文章续写等功能。

目前这一领域的霸主还是 GPT 模型，但扩散模型在自然语言处理领域的发展还是相当值得期待的。

AI 基础科学

AI 基础科学也称 AI for Sicence，是以人工智能技术分析处理多维度、多模态、多场景下的模拟和真实数据，解决复杂推演计算问题，加快基础科学和应用科学的发现、验证、应用，打造下一代科学范式。

在基础科学中生成预测类的研究，就是扩散模型的擅长领域。例如，2021 年 DeepMind 研究的 AlphaFold 2 可以预测人类世界 98.5% 的蛋白质。

再显神威的Transformer

在 OpenAI 一战封神的 GPT 系列产品中，Transformer 架构是助其成功的头号功臣。而 Sora 的成功再次让 Transformer 大显神威，这说明 Transformer 并非只适用于文本大模型。

Transformer起源于 2017 年，谷歌大脑团队发布了论文“Attention is All You Need”，提出了这种结构。Transformer 的核心是自注意力机制，它能够为输入序列中的每个元素分配不同的权重，从而更好地捕捉序列内部的依赖关系。

Transformer 还摒弃了 RNN 和 LSTM 中的循环结构，采用全新的编码器-解码器结构，这种设计使得模型可以并行处理输入数据，进一步加速训练过程，提高计算效率。

相对于 Runway 和 Pika 在扩散模型中使用的 U-Net来说，Transformer架构的参数可拓展性强，即参数量增加，性能加速提升，同时支持任意分辨率、长宽比、时长的视频训练数据，不会因为压缩而导致训练数据质量下降。

OpenAI 利用 Transformer 的编码能力，配合扩散模型对视频进行训练，也就使得 Sora 生成视频的时长能够远超竞争对手。

Transformer 如此重要，它的技术底层是如何实现的？答案都在《GPT 图解：大模型是怎样构建的》这本书中，完整的代码示例让你一次性悟透 Transformer。

学习两本书掌握Sora核心技术

《扩散模型：从原理到实战》

本书内容基于 Jonathan Whitaker 和 Lewis Tunstall 在 Hugging Face 上开设的 Diffusion Model 课程，本书是 Hugging Face 的第一本中文图书。

Hugging Face 是为机器学习从业者提供的协作和交流平台，涵盖了机器学习各方面的知识。学习者可以在平台上开源自己的机器学习模型、数据集或者创建机器学习应用。

这本书由 Hugging Face 中国社区的本地化志愿者团队成员完成，作者团队在 AI 领域有着丰富的理论与实践经验，高质量地将在线课程转化为本书内容。

书中首先详细介绍了扩散模型的原理，以及扩散模型退化、采样、DDIM 反转等重要概念与方法。然后对 Hugging Face 平台进行了简单介绍。接着说明从零开始搭建扩散模型的完整过程。通过 Diffusers 实战，演示了生成美丽蝴蝶图像的方法。

此外还介绍了 Stable Diffusion、ControlNet 与音频扩散模型等内容。附录还提供由扩散模型生成的高质量图像集，以及 Hugging Face 社区的相关资源。

本书的最大特点就是注重实战，书中配备大量案例帮助读者快速熟悉扩散模型。同时作者们还精心设计编写了大量功能完整的代码，清晰的代码结构与注释可以帮助读者快速实现扩散模型生成精美图像。

读者想学会扩散模型最好的办法，就是在阅读本书的过程中搭建自己的开发环境，编写并运行书中提供的源代码。

另外，书中通过诸多图例手把手地教会读者使用 Diffusers 库训练扩散模型，学会使用 Stable Diffusion 和 ControlNET 生成图像。读懂这本书，读者能够做到从零开始搭建扩散模型，并完成退化、训练、采样过程。

《GPT 图解：大模型是怎样构建的》

《GPT 图解：大模型是怎样构建的》从 NLP 技术的发展脉络梳理，讲述了 N-Gram、词袋模型（BoW）、Word2Vec（W2V）、神经概率语言模型（NPLM）、循环神经网络（RNN）、Seq2Seq（S2S）、注意力机制、Transformer，从初代 GPT 到 ChatGPT 再到 GPT-4 等一系列突破性技术的诞生与演进。

本书最大的特点是通过两位虚拟人物“咖哥”和“小冰”的对话来展开技术讨论，将枯燥的技术细节化作轻松幽默的故事和缤纷多彩的图画，引领读者穿梭于不同时空，见证自然语言处理技术的传承、演进与蜕变。