Sora的打卡笔记1

Sora的打卡笔记1

技术报告原文链接: https://openai.com/research/vid

主要特征

Sora的几项显著能力([来自知乎博客]:Sora技术详解及影响分析 - 知乎 (zhihu.com)

  • 3D一致性。
  • 长程一致性和物体永久性。
  • 与世界互动。
  • 模拟数字世界。

Dit的使用

Dit论文2212.09748.pdf (arxiv.org)
在这里插入图片描述
Denoising Diffusion Probabilistic Models (DDPMs):通过逐步添加噪声来模拟数据分布,然后学习逆向过程去除噪声,以生成新的数据。DiT是DDPM在图像生成中的应用。

Latent Diffusion Models (LDMs):使用变分自编码器将图像压缩到低维表示,然后在低维空间中训练DDPM。这样可以降低计算成本,并使DiT成为基于Transformer的DDPM的适用框架。

在Sora的技术报告中,明确提出视频相关的基础架构是基于DIT的 Diffusion + Transformer 进行,同时保留了Patch的编码方式。Transformer系列的架构在语言模型中已经被证明非常有效,而在有时序特征表达的视频生成模型中,transformer确实也有强大的需求。

简单来说就是tansformer+ddpm,核心就是用tansformer的结构替换掉stable diffusion中的unet结构,来预测噪声实现去噪。这个替换可以带来以下优势。

  • 随着数据规模或者训练时间的增强,模型表现的效果越好(大力出奇迹的前置条件)
  • 实现表明,模型越大,patches越小,效果越好

SORA的不足最强文生视频模型 SORA 超详细解读 - 知乎 (zhihu.com)

_source=wechat_session&s_r=0)

它经常会产生一些与我们对物理常识的理解不一致的幻觉。目前,它对物体间互动的理解尚不到位

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值