Sora理解

最新推荐文章于 2024-06-15 23:43:01 发布

努力当总裁的郭琛予

最新推荐文章于 2024-06-15 23:43:01 发布

阅读量275

点赞数 3

文章标签： AIGC

本文链接：https://blog.csdn.net/nszzzzdr/article/details/136388696

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

在文字生成领域，GPT-2无疑是一个分水岭。2018年GPT-2的推出，标志着能够生成连贯、语法正确的文本段落的新时代。虽然性能一般，但它为后续的模型发展奠定了基础。
四年后，GPT-4已经能够执行串联思维这种复杂任务。

而今天，Sora已经也意味着这样的时刻。

Sora有两个超能力：
1、精准地理解人类指令；
2、执行复杂的人类指令。

在视觉领域的分水岭应该是图像检测人员将Transformer架构与视觉组件相结合，提出了视觉Transformer（ViT）和Swin Transformer。与此同时，扩散模型在图像与视频生成领域也取得了突破。

Sora是Diffusion Transformer，能够精准处理不同维度的数据。

时空压缩器会把原始视频转映射到潜空间中。
ViT 模型会对已经被分词的潜表征进行处理，并输出去除噪声后的潜表征。
类CLIP模型类根据用户的指令（已经通过大语言模型进行了增强）和潜视觉提示，引导扩散模型生成具有特定风格或主题的视频。在经过多次去噪处理之后，会得到生成视频的潜表征，然后通过相应的解码器映射回像素空间。

未完待更

关注