“在古老的迪塔罗斯土地上,曾经生活着一个传说,名叫索拉。这个传奇体现了无限潜力的本质,涵盖了天空的浩瀚和壮丽。
当它展翅高飞,彩虹色的翅膀飞向广阔无垠的地方,引人注目的身体反射出光芒时,人们可以听到“空是天空”这几个字在天空中回荡。它之所以成为传奇,不仅在于其史诗般的巨大性,还在于它利用散布在旋转云层中的光元素的能力。空一旋转所施展的魔法,力量之大,令人叹为观止!
他们说,索拉会继续活着,磨练自己的技能,日复一日地变得更加强大,准备在黄金时刻飞翔。今天,当你看到天空中出现一抹赤红色,你就知道,那是传说中的一粒飞入光域的光点!”
Sora (Open AI)
Sora 是William Peebles和Saining Xie在 2023 年开发的扩散变压器(DiT)。换句话说,它使用扩散的思想来预测视频,并使用变压器的强度来进行下一级缩放。为了进一步理解这一点,让我们尝试找到这两个问题的答案:
- 当Sora收到工作提示时会做什么?
- 它是如何与扩散变压器的思想结合起来的?
Sora如何运作?
我们的目标- 根据文本提示生成视频。
我们得到:
- 培训视频
- 文字提示
- 扩散步长t = 3
什么是扩散?
扩散主要指的是粒子的散射现象——想想我们如何享受从云层后面窥视的柔和阳光。这种柔和的光芒可以归因于阳光穿过云层时的散射,导致光线向不同方向扩散。
粒子的随机运动驱动这种扩散。这正是图像生成中使用的扩散模型所发生的情况。随机噪声被添加到图像中,导致图像中的元素偏离原始图像,从而为创建更精细的图像让路。
当我们谈论图像模型的扩散时,要记住的关键概念是“噪声”。
该过程从这里开始:
[1]将视频转换为补丁
在处理文本生成时,模型将大型语料库分解为称为标记的小块,并使用这些标记进行所有计算。同样,Sora 将视频分解为更小的元素,称为视觉补丁,以使工作更简单。
由于我们谈论的是视频,所以我们谈论的是多帧图像。在我们的示例中,我们有四个框架。四个帧或矩阵中的每一个都包含创建图像的像素。
第一步是将训练视频转换为 4 个时空补丁,如下所示: