几篇视频生成的背景文章

本文总结了几篇视频生成的背景文章,以便后续学习查阅。

ViT

Transformer在视觉领域的应用。图片可以打成块(Patch)输入Transformer,这相当于NLP中的Token

[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (arxiv.org)

ViViT

可以处理视频数据。视频是图像序列,既有空间信息,又有时间信息,需要做时空联合建模。视频也可以被打成Patch,这个Patch包含时间信息。

[2103.15691] ViViT: A Video Vision Transformer (arxiv.org)

NaViT

多个patches打包成一个单一序列实现可变分辨率,降低计算量

[2307.06304] Patch n’ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution (arxiv.org)

DDPM

Diffusion Model。通过预测去除噪声来实现图像生成。

[2006.11239] Denoising Diffusion Probabilistic Models (arxiv.org)

DiT

利用Transformer探索扩散模型

[2203.02378] DiT: Self-supervised Pre-training for Document Image Transformer (arxiv.org)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值