vid2vid-zero学习笔记

Zero-Shot Video Editing Using Off-The-Shelf Image Diffusion Models(基于现成图像扩散模型的zero-shot视频编辑)


motivation: 解决逐帧编辑图像编辑有严重闪烁效果以及视频训练占用大量资源的问题
编辑效果示意图
contribution: 直接使用预先训练的文本到图像扩散模型的zero-shot视频编辑方法,无需任何训练

method

包含三个组件:
video inversion module(视频反转模块):用于文本到视频对齐
spatial regularization module(空间正则化模块):用于video-to-video保真度
cross-frame modeling module(跨帧建模模块):用于时间一致性
在这里插入图片描述

video inversion module(视频反转模块)

DDIM Inversion+Null-text Optimization(解决latent noise 无法与用户提供的文本描述c对齐的问题)

Null-text Optimization:解决latent noise 无法与用户提供的文本描述c对齐的问题
做法:优化一个null-text embedding
min ⁡ ∅ t ∥ X t − 1 i n v − f θ ( X ‾ t , t , c ; ∅ t ) ∥ 2 2 , (1) \min_{\varnothing_{t}}\left\|X_{t-1}^{\mathrm{inv}}-f_{\theta}\left(\overline{X}_{t},t,c;\varnothing_{t}\right)\right\|_{2}^{2},\quad\text{(1)} tmin Xt1invfθ(Xt,t,c;t) 22,(1)
f θ f_{\theta} fθ 表示DDIM采样, X ‾ t \overline{X}_{t} Xt表示采样的latent code
为不同的视频帧共享相同的null-text embedding,以保持视频帧之间的一致信息

cross-frame modeling module(跨帧建模模块)

在这里插入图片描述


Q   =   W Q x i Q~=~W^{Q}x_{i} Q = WQxi
K   =   W K x 1 : T K~=~W^{K}x_{1:T} K = WKx1:T
V   =   W V x 1 : T V~=~W^{V}x_{1:T} V = WVx1:T

spatial regularization module(空间正则化模块)

作用:保持对原始输入视频的保真度
重建过程中生成的cross-attention maps包含原始视频的空间信息
使用cross-attention maps作为空间正则化,并将其注入模型,迫使模型专注于与提示相关的区域。
z ^ t = ϵ ^ θ ( X ^ t , t , c ^ ; ∅ t , M t ) , ( 2 ) \hat{z}_t=\hat{\epsilon}_\theta\left(\hat{X}_t,t,\hat{c};\emptyset_t,M_t\right),\quad\quad\quad(2) z^t=ϵ^θ(X^t,t,c^;t,Mt),(2)

experiments

ablation

不同模块的作用
在这里插入图片描述
没有提出的temporal建模,前景汽车和背景山随着时间的推移都变得不一致
没有spatial attention guidance(空间注意力引导),编辑后的视频不够忠于原视频(车的颜色和树)
在没有null-text inversion的情况下,背景山和树变得模糊,因为优化的null-text embedding包含与输入视频对齐的细粒度细节

不同temporal attention
在这里插入图片描述
在这里插入图片描述
ours:dense spatial-temporal attention(密集时空注意力模块)
第一行:对应(b)前几帧视频变形,SC-Attention过分强调视频的前一帧,前几个视频帧中的编辑错误传播到后续帧,导致严重的伪影。
第二行:对应(c),只关注时间建模,忽视了其他空间位置。

limitations

直接使用图像扩散模型的预训练权重,因为现成的图像扩散模型没有在任何视频数据上进行训练,缺乏时间和运动先验,不能直接用于编辑视频中的动作,这反映在无法有效编辑prompt中的动词

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值