VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记

VidEdit: Zero-shot and Spatially Aware Text-driven Video Editing学习笔记


在这里插入图片描述
motivation:
1、文本驱动的扩散模型的简单的逐帧应用会导致闪烁的视频结果,缺乏运动信息和3D形状理解,效果较差
2、为了解决这一问题,引入diverse spatiotemporal attention mechanisms (时空注意力机制),存在问题:占用大量的内存资源、只专注于少量的帧,无法对长期依赖性进行建模,随时间推移不够可靠。
contribution:
1、将atlas-based(基于图谱)和预训练的文本到图像扩散模型相结合,提供了一种无需训练且高效的编辑方法
2、利用现成的全景分割器和边缘检测器,并将其用于基于条件扩散的图谱编辑

method

framework

的视频输入Neural Layered Atlas (NLA) 网络获得2D图谱
选择想要编辑的对象对应的图谱,执行编辑diffusion pipeline
编辑图谱通过双线性插值映射回帧(只有想要编辑对象的帧)
在原始帧上合成帧编辑层,获得想要的编辑视频

NLA

Neural Layered Atlases (NLA):神经分层图谱
将视频分解为一组2D图谱在这里插入图片描述
对图谱图像执行基于文本的zero-shot编辑

Semantic Atlas Editing with VIDEDIT

在这里插入图片描述
step1:利用全景分割器和边缘提取器得到mask和HED图
step2-step3:类似blended diffusion编辑区域用去噪得到的,未编辑区域用原图加噪得到的

experiments

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值