Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation学习笔记

kangxi11122344

已于 2023-07-18 14:33:34 修改

阅读量335

点赞数

文章标签：学习笔记

于 2023-07-04 16:27:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kangxi11122344/article/details/131528854

版权

Latent-Shift方法针对文本到视频生成的挑战，如缺少大规模数据和时间维度建模的复杂性，提出了一种无参数的时间偏移模块。该模块通过混合相邻信息与当前帧来处理空间和时间信息，尤其应用在2DResNet块中。实验表明，这种方法能提高效率并优化生成过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Latent-Shift: Latent Diffusion with Temporal Shift for Efficient Text-to-Video Generation

method
- temporal shift
experiments

在这里插入图片描述

motivation：
t2v两个挑战：缺乏大规模高质量文本视频数据、时间维度建模较为复杂
基于像素的t2v需要妥协，先生成低分辨率视频，然后超分插帧
contribution：
提出 a parameter-free temporal shift module（无参数的时间偏移模块）

method

temporal shift

将相邻信息与当前帧混合来处理空间和时间信息
在这里插入图片描述
$Z\in\mathbb{R}^{C\times F\times H\times W}$ 为输入， $Z_i\in\mathbb{R}^{C\times H\times W}$ 表示第 $i$ 帧，沿通道维度分解为 $Z_i^1$ 、 $Z_i^2$ 、 $Z_i^3$ ，其中 $Z_{i}^{j}\in\mathbb{R}^{\frac{C}{3}\times H\times W}$
第 $i$ 帧输出如下：

在这里插入图片描述 temporal shift模块加在2D ResNet block模块中。

experiments

在这里插入图片描述

博客等级

码龄5年

18
原创

7
点赞

22
收藏

21
粉丝

关注

私信

热门文章

最新评论

stableSR学习笔记
piggy_pig: 我的理解是，时间信息是时间步，在加噪训练过程中，针对不同的时间步，添加的噪声强度可能不同，通过输入 t 的信息作为先验，就可以自适应的知道噪声强度。（我的理解也有不足哈）
Implicit Diffusion Models for Continuous Super-Resolution学习笔记
Ch's: 请问博主跑代码了吗
Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记
CSDN-Ada助手: 恭喜您写下了这篇关于“Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos”学习笔记的博客，看到您对这个主题的深入探讨，让我也受益匪浅。希望您能继续保持创作的热情和努力，不断分享您的学习心得和见解。或许在下一篇博客中，您可以尝试结合实际案例或者个人经历，让读者更容易理解和获得启发。期待您的下一篇作品，加油！
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator学习笔记
CSDN-Ada助手: 非常恭喜您撰写了《Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator学习笔记》这篇博客！您对这个主题的深入研究令人印象深刻。我特别喜欢您对LLM导演和LDM动画师的介绍，这确实是一个令人兴奋的技术。在我看来，您的博客非常系统和详细，让人能够更好地理解这个主题。同时，您对于这个技术的描述也非常清晰，让读者能够轻松理解其工作原理。我希望未来您能够进一步探索这个主题，可能可以考虑探讨一些实际应用场景或者深入分析一些相关论文，以便我们更好地了解这个领域的发展。继续保持您的优秀创作，期待您未来更多精彩的博客！
EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS学习笔记
2301_78096377: 你好方便加个联系方式合作文生视频么？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。