Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

最新推荐文章于 2024-05-16 10:30:53 发布

Lcx559

最新推荐文章于 2024-05-16 10:30:53 发布

阅读量859

点赞数 1

文章标签：人工智能 python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lcx559/article/details/131386992

版权

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

Abstract

首先在图像数据集上训练LDM，同时将时间维度引入latent space，并对编码的图像序列进行微调，从而健图像生成器转变为视频生成器。
project web：https://nv-tlabs.github.io/VideoLDM/
motivation： 高分辨率真实单词驾驶数据视频合成；创意内容生成的文本引导视频合成
在LDMs基础上提出，将LDM扩展到高分辨率视频生成。
通过将时间维度引入潜在空间，在编码的图像序列上训练这些时间层，同时固定预先训练的空间层。
在这里插入图片描述
引入时间微调前，生成视频中的图片是独立的，引入微调之后生成的图片便是视频序列。

通过微调解码器实现空间中时间的一致性在这里插入图片描述

contribution：

提出一种有效的方法基于LDM实现高分辨率、长期一直的视频生成模型，在预训练的diffusion model中插入时间层将其转化为视频生成器。
对超分辨率diffusion和时间进行微调
在真实驾驶场景视频上实现了最先进的高分辨率视频合成性能

Method

Turning Latent Image into Video Generators

通过引入额外的时间神经网络层，与现有的空间层交错，学习时间一致额方式对齐各个帧。
在这里插入图片描述
左图中，将帧对齐到时间一致序列的时间层，将与训练的LDM变为视频生成器。右图中，模型θ将输入的序列解释为一批图像，利用时间层将图像整形为视频格式。（类残差设计）

简而言之，空间层是对每个视频帧独立处理，而时间层是在整个时间维度T中处理整个视频。

长视频生成

上述方法对于短视频的生成时有效的，但是对于超长视频生成却无能为力。

Framework：

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

首先在图像数据集上训练LDM，同时将时间维度引入latent space，并对编码的图像序列进行微调，从而健图像生成器转变为视频生成器。高分辨率真实单词驾驶数据视频合成；创意内容生成的文本引导视频合成在LDMs基础上提出，将LDM扩展到高分辨率视频生成。通过将时间维度引入潜在空间，在编码的图像序列上训练这些时间层，同时固定预先训练的空间层。引入时间微调前，生成视频中的图片是独立的，引入微调之后生成的图片便是视频序列。通过微调解码器实现空间中时间的一致性。
复制链接

扫一扫

Lcx559 CSDN认证博客专家 CSDN认证企业博客

码龄3年

26: 原创

149万+: 周排名

22万+: 总排名

1万+: 访问

: 等级

273: 积分

0: 粉丝

10: 获赞

9: 评论

27: 收藏

私信

关注

热门文章

最新评论

PCT: Point Cloud Transformer论文阅读及理解
沙树林: 我复现的时候为什么在取点的那个sample_and_group中最后new_points = torch.cat((grouped_points_norm, new_points), dim=-1)的时候，维度不对呢？代码中是最后一维进行连接，而我是倒数第二维才能连接
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models
CSDN-Ada助手: 恭喜您撰写了第20篇博客！标题“Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models”听起来非常专业和引人入胜。您在深入探讨高分辨率视频合成和潜在扩散模型方面的研究上取得了显著进展，这真是令人印象深刻。在我看来，您在博客上的连续创作表明了您对这个领域的热情和扎实的研究能力。接下来，我希望能看到您在这个主题上扩展更多内容，例如探索不同的应用场景、与其他相关技术的比较或者是实验结果的进一步分析，以加深我们对高分辨率视频合成的理解。虽然我知道这需要大量的努力和时间，但我相信您的深入研究将为我们带来更多有价值的见解。请继续保持谦虚的态度，您的博客是我学习和了解最新研究进展的重要来源。期待您未来的创作，愿您在接下来的旅程中继续取得成功！
PCT: Point Cloud Transformer论文阅读及理解
小猿先森: Wv is ignored since it is a weight matrix of the Linear layer. I is an identity matrix comparable to the diagonal degree matrix D of the Laplacian matrix and A is the attention matrix comparable to the adjacency matrix E.
PCT: Point Cloud Transformer论文阅读及理解
小猿先森: 文中： Wi因为时Laplace层的权重矩阵，因此被忽视？（这里有点不懂，评论区有大佬帮忙解释一下吗）请问一下为啥呢？
GOOD: A global orthographic object descriptor for 3D object recognition and manipulation论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。