文生视频溯源系列-Align Your Latent

(CVPR-2023)Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models (VideoLDM)

arxiv: 2304.08818 (arxiv.org)

非官方的github repo: srpkdyy/VideoLDM: Unofficial PyTorch implementation of the VideoLDM. (github.com)

简介

为什么要在2024年回顾一篇2023年的论文?

  • 2023年,我们见证了人工智能生成内容(AIGC)的兴起,无论是能够将文本转换为图像的Stable Diffusion技术,还是文生视频的Sora技术,它们都极大地激发了人们的创意思维,提高了工作效率。

  • Sora技术的表现非常出色,但任何技术的发展都有其起点。我认为,文生视频技术的灵感很可能来自‘Align Your Latent’这一概念。现有大部分的视频生成模型算法,都可以在这篇文章中找到起源。

  • 目前最强的开源视频模型(2024.04)Stable Video Diffusion,也是由本论文的第一第二作者完成。

视频怎么生成?Align Your Latent就行

  • 我们将论文题目直接翻译:“调整你的潜在空间:使用潜在扩散模型进行高分辨率视频合成”。

  • 作者开门见山,视频怎么生成?对齐图像的潜在空间特征就行!如果图像模型生成的图像之间在时序上对齐,那就可以生成一个连贯的视频!这也是现有几乎所有的视频生成模型的思路。

高质量的视频生成模型

这篇论文,验证了文生视频最朴素思路的可行性。这个朴素的思路为:

  • 将图像模型改造成视频模型

  • 借助自回归的方法,生成长视频

  • 后处理:插帧和超分<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值