FateZero: Fusing Attentions for Zero-shot Text-based Video Editing学习笔记

kangxi11122344

已于 2023-06-21 17:09:00 修改

阅读量499

点赞数

文章标签：机器学习人工智能 python

于 2023-06-17 20:59:46 首次发布

本文链接：https://blog.csdn.net/kangxi11122344/article/details/131260721

版权

FateZero: Fusing Attentions for Zero-shot Text-based Video Editing

DDIM Inversion
FateZero Video Editing
Shape-Aware Video Editing(形状感知视频编辑)
ablation study

motivation： 使用预训练的t2i模型实现zero-shot 、text-based 视频编辑
contribution： 在attention上修改
在反转过程中的每一步，存储self-attention与cross-attention maps（目的：能够在随后的ddim pipeline的去噪步骤中替换它们）；
将自我注意块改造为时空注意块，目的：使外观更加一致
Attention blended block
归纳总结：

做的什么任务，要达到什么目的，输入是什么，输出是什么？
zero-shot text-based video editing，输入为原视频（及源prompt），编辑prompt，输出编辑后的图像
通过什么方式实现的编辑或者生成，了解不同的方式有什么特点

DDIM Inversion

DDIM：
$z_{t-1}=\sqrt{\alpha_{t-1}}\frac{z_{t}-\sqrt{1-\alpha_{t}}\varepsilon_{\theta}}{\sqrt{\alpha_{t}}}+\sqrt{1-\alpha_{t-1}}\varepsilon_{\theta},\quad(2)$
DDIM Inversion:
$\hat z_t=\sqrt{\alpha_t}\frac{\hat z_{t-1}-\sqrt{1-\alpha_{t-1}}\varepsilon_\theta}{\sqrt{\alpha_{t-1}}}+\sqrt{1-\alpha_t}\varepsilon_\theta.\quad(3)$
在这里插入图片描述

之前的工作：edit attention与DDIM重建过程中的attention融合
fatezero：edit attention与DDIM inversion过程中存储的attention融合

FateZero Video Editing

Inversion Attention Fusion

在这里插入图片描述
baseline是什么？ style and attribute editing（stable diffusion v1.4），shape editing（Tune a video）
如何fusion？
an adaptive spatial mask 如何获得？
首先将源视频编码的 $z_{0}$ 输入DDIM inversion pipeline，得到 $z_{T}$ ，条件为 $p_{src}$ （源视频prompt）
将 $z_{T}$ 逐步去噪，得到 $\hat{z}_0$ ，以 $p_{edit}$ 为条件

在DDIM inversion过程中，存储self-attention map $s_t^{src}$ 与 cross attention map $c_t^{src}$

在去噪过程中，未编辑部分的cross attention部分 $c_t^{edit}$ 用原始cross attention $c_t^{src}$ 替换（未编辑的部分保持原始的attention）用一种 an adaptive spatial mask（自适应的空间掩码，由 $c_t^{src}$ 获得）融合 $s_t^{src}$ 与 $s_t^{edit}$

Attention Map Blended

在这里插入图片描述
去掉修改后的self-attention：直接用 $s^{src}$ 替换 $s^{edit}$
保留修改后的self-attention：保留 $s^{edit}$
blended self-attention：
$\begin{gathered} M_t =\mathrm{~HEVISIDETEP}(c_t^{src},\tau), (6) \\ s_{t}^{\mathrm{fused}} =M_t\odot s_t^{\mathrm{sdit}}+(1-M_t)\odot s_t^{\mathrm{src}}. (7) \end{gathered}$
mask由cross attention得到：对edit word的cross attention进行阈值处理
原因：cross attention提供图像的语义层

Spatial-Temporal Self-Attention

解决视频帧间不一致现象
将self-attention改为Spatial-Temporal Self-Attention（时空自注意力）
$z_{i}$ 的Attention层实现为
$Q=W^Q\mathbf{z}^i,K=W^K\left[\mathbf{z}^i;\mathbf{z}^{\mathbf{w}}\right],V=W^V\left[\mathbf{z}^i;\mathbf{z}^{\mathbf{w}}\right],(8)$
$[\cdot]$ 指的是连接操作，只需要对中间帧进行warp操作（ $\mathbf{z}^{\mathrm{w}}=z^{\mathrm{Round}[\frac{n}{2}]}$ ）就足够进行属性和样式编辑

Shape-Aware Video Editing(形状感知视频编辑)

改变视频中特定物体的形状更具挑战性

ablation study

在这里插入图片描述
没有self-attention的融合，难以保留原视频的一些细节
没有spatial mask原始吉普车的结构会影响生成的保时捷汽车

kangxi11122344

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing学习笔记

使用预训练的t2i模型实现zero-shot 、text-based 视频编辑
复制链接

扫一扫