VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记

最新推荐文章于 2024-07-19 15:16:23 发布

kangxi11122344

最新推荐文章于 2024-07-19 15:16:23 发布

阅读量170

点赞数

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kangxi11122344/article/details/131647052

版权

VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记

method
experiments

在这里插入图片描述

motivation:
1、文本驱动的扩散模型的简单的逐帧应用会导致闪烁的视频结果，缺乏运动信息和3D形状理解，效果较差
2、为了解决这一问题，引入diverse spatiotemporal attention mechanisms （时空注意力机制），存在问题：占用大量的内存资源、只专注于少量的帧，无法对长期依赖性进行建模，随时间推移不够可靠。
contribution：
1、将atlas-based（基于图谱）和预训练的文本到图像扩散模型相结合，提供了一种无需训练且高效的编辑方法
2、利用现成的全景分割器和边缘检测器，并将其用于基于条件扩散的图谱编辑

method

framework

视频输入Neural Layered Atlas (NLA) 网络获得2D图谱
选择想要编辑的对象对应的图谱，执行编辑diffusion pipeline
编辑图谱通过双线性插值映射回帧（只有想要编辑对象的帧）
在原始帧上合成帧编辑层，获得想要的编辑视频

NLA

Neural Layered Atlases (NLA)：神经分层图谱
将视频分解为一组2D图谱在这里插入图片描述
对图谱图像执行基于文本的zero-shot编辑

Semantic Atlas Editing with VIDEDIT

在这里插入图片描述
step1：利用全景分割器和边缘提取器得到mask和HED图
step2-step3:类似blended diffusion编辑区域用去噪得到的，未编辑区域用原图加噪得到的

experiments

在这里插入图片描述

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记

将atlas-based（基于图谱）和预训练的文本到图像扩散模型相结合，提供了一种无需训练且高效的编辑方法
复制链接

扫一扫

kangxi11122344 CSDN认证博客专家 CSDN认证企业博客

码龄4年

18: 原创

131万+: 周排名

23万+: 总排名

1万+: 访问

: 等级

200: 积分

19: 粉丝

4: 获赞

13: 评论

14: 收藏

私信

关注

热门文章

最新评论

stableSR学习笔记
piggy_pig: 我的理解是，时间信息是时间步，在加噪训练过程中，针对不同的时间步，添加的噪声强度可能不同，通过输入 t 的信息作为先验，就可以自适应的知道噪声强度。（我的理解也有不足哈）
Implicit Diffusion Models for Continuous Super-Resolution学习笔记
Ch's: 请问博主跑代码了吗
Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos学习笔记
CSDN-Ada助手: 恭喜您写下了这篇关于“Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos”学习笔记的博客，看到您对这个主题的深入探讨，让我也受益匪浅。希望您能继续保持创作的热情和努力，不断分享您的学习心得和见解。或许在下一篇博客中，您可以尝试结合实际案例或者个人经历，让读者更容易理解和获得启发。期待您的下一篇作品，加油！
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator学习笔记
CSDN-Ada助手: 非常恭喜您撰写了《Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator学习笔记》这篇博客！您对这个主题的深入研究令人印象深刻。我特别喜欢您对LLM导演和LDM动画师的介绍，这确实是一个令人兴奋的技术。在我看来，您的博客非常系统和详细，让人能够更好地理解这个主题。同时，您对于这个技术的描述也非常清晰，让读者能够轻松理解其工作原理。我希望未来您能够进一步探索这个主题，可能可以考虑探讨一些实际应用场景或者深入分析一些相关论文，以便我们更好地了解这个领域的发展。继续保持您的优秀创作，期待您未来更多精彩的博客！
EMPOWERING DYNAMICS-AWARE TEXT-TO-VIDEODIFFUSION WITH LARGE LANGUAGE MODELS学习笔记
2301_78096377: 你好方便加个联系方式合作文生视频么？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。