Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Abstract

首先在图像数据集上训练LDM,同时将时间维度引入latent space,并对编码的图像序列进行微调,从而健图像生成器转变为视频生成器。
project web:https://nv-tlabs.github.io/VideoLDM/
motivation: 高分辨率真实单词驾驶数据视频合成;创意内容生成的文本引导视频合成
在LDMs基础上提出,将LDM扩展到高分辨率视频生成。
通过将时间维度引入潜在空间,在编码的图像序列上训练这些时间层,同时固定预先训练的空间层。
在这里插入图片描述
引入时间微调前,生成视频中的图片是独立的,引入微调之后生成的图片便是视频序列。

通过微调解码器实现空间中时间的一致性在这里插入图片描述

contribution:

  1. 提出一种有效的方法基于LDM实现高分辨率、长期一直的视频生成模型,在预训练的diffusion model中插入时间层将其转化为视频生成器。
  2. 对超分辨率diffusion和时间进行微调
  3. 在真实驾驶场景视频上实现了最先进的高分辨率视频合成性能

Method

Turning Latent Image into Video Generators

通过引入额外的时间神经网络层,与现有的空间层交错,学习时间一致额方式对齐各个帧。
在这里插入图片描述
左图中,将帧对齐到时间一致序列的时间层,将与训练的LDM变为视频生成器。右图中,模型θ将输入的序列解释为一批图像,利用时间层将图像整形为视频格式。(类残差设计)
在这里插入图片描述
简而言之,空间层是对每个视频帧独立处理,而时间层是在整个时间维度T中处理整个视频。

长视频生成

上述方法对于短视频的生成时有效的,但是对于超长视频生成却无能为力。

Framework:

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值