Sora背后的关键技术

WindyChanChan

已于 2024-04-17 21:34:25 修改

阅读量477

点赞数 10

分类专栏：自然语言处理文章标签：语言模型人工智能

于 2024-02-28 20:52:41 首次发布

本文链接：https://blog.csdn.net/u013308709/article/details/136331519

版权

5 篇文章 0 订阅

订阅专栏

Patch可以理解为Sora的基本单元，就像GPT-4的基本单元是Token。Token是文字的片段，Patch则是视频的片段。GPT-4被训练以处理一串Token，并预测出下一个Token。Sora遵循相同的逻辑，可以处理一系列的Patch，并预测出序列中的下一个Patch。
Sora通过Spacetime Patch将视频视为补丁序列，Sora保持了原始的宽高比和分辨率，类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要，使模型能够从更准确的表达中学习，从而赋予Sora近乎完美的准确性。由此，Sora能够有效地处理各种视觉数据，而无需调整大小或填充等预处理步骤。

Sora的另一个重大突破是其所使用的架构，传统的文本到视频模型通常是扩散模型（Diffusion Model），文本模型例如GPT-4则是Transformer模型，而Sora则采用了DiT架构，融合了前述两者的特性。
传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点，直到图片变成完全无结构的噪点图片，然后在生成图片时，逐步减少噪点，直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像，并在每一步预测出更清晰的图像。DiT架构结合时空Patch，让Sora能够在更多的数据上进行训练，输出质量也得到大幅提高。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

关注