文生视频溯源系列-Align Your Latent

AI-Seeker

已于 2024-05-12 20:41:42 修改

阅读量805

点赞数 27

分类专栏： AI 顶会论文分享 AIGC 文章标签：音视频

于 2024-05-12 20:41:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/l1498487239/article/details/138766473

版权

（CVPR-2023）Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models （VideoLDM）

arxiv: 2304.08818 (arxiv.org)

非官方的github repo: srpkdyy/VideoLDM: Unofficial PyTorch implementation of the VideoLDM. (github.com)

简介

为什么要在2024年回顾一篇2023年的论文？

2023年，我们见证了人工智能生成内容（AIGC）的兴起，无论是能够将文本转换为图像的Stable Diffusion技术，还是文生视频的Sora技术，它们都极大地激发了人们的创意思维，提高了工作效率。
Sora技术的表现非常出色，但任何技术的发展都有其起点。我认为，文生视频技术的灵感很可能来自‘Align Your Latent’这一概念。现有大部分的视频生成模型算法，都可以在这篇文章中找到起源。
目前最强的开源视频模型（2024.04）Stable Video Diffusion，也是由本论文的第一第二作者完成。

视频怎么生成？Align Your Latent就行

我们将论文题目直接翻译：“调整你的潜在空间：使用潜在扩散模型进行高分辨率视频合成”。
作者开门见山，视频怎么生成？对齐图像的潜在空间特征就行！如果图像模型生成的图像之间在时序上对齐，那就可以生成一个连贯的视频！这也是现有几乎所有的视频生成模型的思路。

高质量的视频生成模型

这篇论文，验证了文生视频最朴素思路的可行性。这个朴素的思路为：

将图像模型改造成视频模型
借助自回归的方法，生成长视频
后处理：插帧和超分<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。