本文总结了几篇视频生成的背景文章,以便后续学习查阅。
ViT
Transformer在视觉领域的应用。图片可以打成块(Patch)输入Transformer,这相当于NLP中的Token
[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (arxiv.org)
ViViT
可以处理视频数据。视频是图像序列,既有空间信息,又有时间信息,需要做时空联合建模。视频也可以被打成Patch,这个Patch包含时间信息。
[2103.15691] ViViT: A Video Vision Transformer (arxiv.org)
NaViT
多个patches打包成一个单一序列实现可变分辨率,降低计算量
DDPM
Diffusion Model。通过预测去除噪声来实现图像生成。
[2006.11239] Denoising Diffusion Probabilistic Models (arxiv.org)
DiT
利用Transformer探索扩散模型
[2203.02378] DiT: Self-supervised Pre-training for Document Image Transformer (arxiv.org)