(CVPR-2023)Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models (VideoLDM)
arxiv: 2304.08818 (arxiv.org)
非官方的github repo: srpkdyy/VideoLDM: Unofficial PyTorch implementation of the VideoLDM. (github.com)
简介
为什么要在2024年回顾一篇2023年的论文?
-
2023年,我们见证了人工智能生成内容(AIGC)的兴起,无论是能够将文本转换为图像的Stable Diffusion技术,还是文生视频的Sora技术,它们都极大地激发了人们的创意思维,提高了工作效率。
-
Sora技术的表现非常出色,但任何技术的发展都有其起点。我认为,文生视频技术的灵感很可能来自‘Align Your Latent’这一概念。现有大部分的视频生成模型算法,都可以在这篇文章中找到起源。
-
目前最强的开源视频模型(2024.04)Stable Video Diffusion,也是由本论文的第一第二作者完成。
视频怎么生成?Align Your Latent就行
-
我们将论文题目直接翻译:“调整你的潜在空间:使用潜在扩散模型进行高分辨率视频合成”。
-
作者开门见山,视频怎么生成?对齐图像的潜在空间特征就行!如果图像模型生成的图像之间在时序上对齐,那就可以生成一个连贯的视频!这也是现有几乎所有的视频生成模型的思路。
高质量的视频生成模型
这篇论文,验证了文生视频最朴素思路的可行性。这个朴素的思路为:
-
将图像模型改造成视频模型
-
借助自回归的方法,生成长视频
-
后处理:插帧和超分<