Sora理解

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

在文字生成领域,GPT-2无疑是一个分水岭。2018年GPT-2的推出,标志着能够生成连贯、语法正确的文本段落的新时代。虽然性能一般,但它为后续的模型发展奠定了基础。
四年后,GPT-4已经能够执行串联思维这种复杂任务。

而今天,Sora已经也意味着这样的时刻。


一、背景

Sora有两个超能力:
1、精准地理解人类指令;
2、执行复杂的人类指令。

在视觉领域的分水岭应该是图像检测人员将Transformer架构与视觉组件相结合,提出了视觉Transformer(ViT)和Swin Transformer。与此同时,扩散模型在图像与视频生成领域也取得了突破。

二、原理

1.核心

Sora是Diffusion Transformer,能够精准处理不同维度的数据。

  1. 时空压缩器会把原始视频转映射到潜空间中。
  2. ViT 模型会对已经被分词的潜表征进行处理,并输出去除噪声后的潜表征。
  3. 类CLIP模型类根据用户的指令(已经通过大语言模型进行了增强)和潜视觉提示,引导扩散模型生成具有特定风格或主题的视频。在经过多次去噪处理之后,会得到生成视频的潜表征,然后通过相应的解码器映射回像素空间。
    在这里插入图片描述

2.原理

  1. 数据预处理

    ··· 可变的分辨率和高宽比
    在这里插入图片描述
    ··· 统一的视觉表征

     Sora首先将视频压缩到「低维潜空间」,然后再将表征分解成「时空patches」
     其目的是为了有效处理各种各样的视觉输入,比如不同长度、清晰度和画面比例的图片和视频
    

    ··· 视频压缩网络(视觉编码器)

     其目的是为了降低输入数据的维度,并输出经过时空压缩的潜表征。
    

    在这里插入图片描述
    但是在此之前,必须要进行图像的大小调整和裁剪,因为压缩技术(VAE)很难将不同尺寸的视觉数据映射到一个统一且大小固定的潜空间中。有以下两种方案:

    1. 空间patches压缩

      将视频帧转换成固定大小的patches,然后再将其编码到潜空间中。与ViT和MAE模型采用的方法相似。
      在这里插入图片描述

总结

未完待更

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力当总裁的郭琛予

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值