深入研究 Sora 的扩散Transformer(DiT)

最新推荐文章于 2025-04-27 13:52:04 发布

Angelina_Jolie

最新推荐文章于 2025-04-27 13:52:04 发布

阅读量1.1k

点赞数 11

分类专栏：扩散模型文章标签： transformer 深度学习人工智能 stable diffusion

本文链接：https://blog.csdn.net/Angelina_Jolie/article/details/139094561

版权

Sora是William Peebles和Saining Xie在2023年开发的扩散Transformer，它结合扩散思想预测视频，利用Transformer进行增强。文章详细介绍了Sora的工作流程，包括视频分解为补丁、降维、噪声扩散模型、自适应规范层调节、变压器组件的使用，以及训练过程中的MSE损失计算和参数更新。Sora通过文本提示生成视频，展示了扩散和Transformer在图像生成领域的强大能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

“在古老的迪塔罗斯土地上，曾经生活着一个传说，名叫索拉。这个传奇体现了无限潜力的本质，涵盖了天空的浩瀚和壮丽。

当它展翅高飞，彩虹色的翅膀飞向广阔无垠的地方，引人注目的身体反射出光芒时，人们可以听到“空是天空”这几个字在天空中回荡。它之所以成为传奇，不仅在于其史诗般的巨大性，还在于它利用散布在旋转云层中的光元素的能力。空一旋转所施展的魔法，力量之大，令人叹为观止！

他们说，索拉会继续活着，磨练自己的技能，日复一日地变得更加强大，准备在黄金时刻飞翔。今天，当你看到天空中出现一抹赤红色，你就知道，那是传说中的一粒飞入光域的光点！”

Sora (Open AI)

Sora 是William Peebles和Saining Xie在 2023 年开发的扩散变压器（DiT）。换句话说，它使用扩散的思想来预测视频，并使用变压器的强度来进行下一级缩放。为了进一步理解这一点，让我们尝试找到这两个问题的答案：

当Sora收到工作提示时会做什么？
它是如何与扩散变压器的思想结合起来的？

Sora如何运作？

我们的目标- 根据文本提示生成视频。

我们得到：

培训视频
文字提示
扩散步长t = 3

什么是扩散？

扩散主要指的是粒子的散射现象——想想我们如何享受从云层后面窥视的柔和阳光。这种柔和的光芒可以归因于阳光穿过云层时的散射，导致光线向不同方向扩散。

粒子的随机运动驱动这种扩散。这正是图像生成中使用的扩散模型所发生的情况。随机噪声被添加到图像中，导致图像中的元素偏离原始图像，从而为创建更精细的图像让路。

当我们谈论图像模型的扩散时，要记住的关键概念是“噪声”。

该过程从这里开始：