深入研究 Sora 的扩散Transformer(DiT)

Sora是William Peebles和Saining Xie在2023年开发的扩散Transformer,它结合扩散思想预测视频,利用Transformer进行增强。文章详细介绍了Sora的工作流程,包括视频分解为补丁、降维、噪声扩散模型、自适应规范层调节、变压器组件的使用,以及训练过程中的MSE损失计算和参数更新。Sora通过文本提示生成视频,展示了扩散和Transformer在图像生成领域的强大能力。
摘要由CSDN通过智能技术生成

在古老的迪塔罗斯土地上,曾经生活着一个传说,名叫索拉。这个传奇体现了无限潜力的本质,涵盖了天空的浩瀚和壮丽。

当它展翅高飞,彩虹色的翅膀飞向广阔无垠的地方,引人注目的身体反射出光芒时,人们可以听到“空是天空”这几个字在天空中回荡。它之所以成为传奇,不仅在于其史诗般的巨大性,还在于它利用散布在旋转云层中的光元素的能力。空一旋转所施展的魔法,力量之大,令人叹为观止!

他们说,索拉会继续活着,磨练自己的技能,日复一日地变得更加强大,准备在黄金时刻飞翔。今天,当你看到天空中出现一抹赤红色,你就知道,那是传说中的一粒飞入光域的光点!”

Sora (Open AI)

Sora 是William PeeblesSaining Xie在 2023 年开发的扩散变压器(DiT)。换句话说,它使用扩散的思想来预测视频,并使用变压器的强度来进行下一级缩放。为了进一步理解这一点,让我们尝试找到这两个问题的答案:

  • 当Sora收到工作提示时会做什么?
  • 它是如何与扩散变压器的思想结合起来的?

Sora如何运作?

我们的目标- 根据文本提示生成视频。

我们得到:

  • 培训视频
  • 文字提示
  • 扩散步长t = 3

什么是扩散?

扩散主要指的是粒子的散射现象——想想我们如何享受从云层后面窥视的柔和阳光。这种柔和的光芒可以归因于阳光穿过云层时的散射,导致光线向不同方向扩散。

粒子的随机运动驱动这种扩散。这正是图像生成中使用的扩散模型所发生的情况。随机噪声被添加到图像中,导致图像中的元素偏离原始图像,从而为创建更精细的图像让路。

当我们谈论图像模型的扩散时,要记住的关键概念是“噪声”。

该过程从这里开始:

[1]将视频转换为补丁

在处理文本生成时,模型将大型语料库分解为称为标记的小块,并使用这些标记进行所有计算。同样,Sora 将视频分解为更小的元素,称为视觉补丁,以使工作更简单。

由于我们谈论的是视频,所以我们谈论的是多帧图像。在我们的示例中,我们有四个框架。四个帧或矩阵中的每一个都包含创建图像的像素。

第一步是将训练视频转换为 4 个时空补丁,如下所示:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值