ControlVideo学习笔记

最新推荐文章于 2024-09-12 08:54:42 发布

kangxi11122344

最新推荐文章于 2024-09-12 08:54:42 发布

阅读量663

点赞数

文章标签：学习笔记深度学习

本文链接：https://blog.csdn.net/kangxi11122344/article/details/131230709

版权

ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing（为one shot文本到图像编辑添加条件控制）

训练采样框架
key Components（关键组件）

视频编辑任务：编辑后的视频应忠实地保留源视频的内容，保持生成帧之间的时间一致性，并与目标提示保持一致。
在这里插入图片描述

motivation： 现有的方法仍然难以忠实和充分地控制输出，同时保持时间一致性
contribution：
ControlVideo将Canny边缘图、HED边界和所有帧的深度图等视觉条件作为附加输入，从而放大源视频的指导。
微调diffusion model和ControlNet中的attention模块，增强忠实度和时间一致性。（self-attention转换为key-frame attention，将所有帧与选定帧对齐。temporal-attention模块作为扩散模型中的额外分支，随后是零卷积层，以在fine-tuning之前保留输出。）
系统性的研究

训练采样框架

视频编辑任务：给定原始视频帧 $X_{0}=\{x_0^i\}_{i=1}^N$ ， $N$ 表示视频帧数，源prompt $p_{s}$ ，目标prompt $p_{t}$ ，目标是生成视频 $Y_{0}=\{y_0^i\}_{i=1}^N$ ，与目标prompt $p_{t}$ 对齐，同时忠实的保留原视频 $X_{0}$ 的内容，并且保持所生成的帧之间的时间一致性。
finetune目标：
$\min\limits_{\phi}\mathbb{E}_{t,\epsilon\sim\mathcal{N}(\mathbf{0},\mathbf{I})}||\epsilon-\epsilon_\phi(X_t,p_s,c,t)||^2.$
推理starting from $Y_T=X_T$ ，使用目标prompt $p_{t}$ 。

key Components（关键组件）

在ResNet中对2D卷积层进行膨胀来采用伪3D卷积层来处理视频输入，用1×3×3的核替换3×3核。

Adding Controls（添加控件）

添加额外的视觉条件，利用ControlNet处理视觉条件，不同控制类型包含不同程度源视频信息，可加权求和不同控制特征灵活组合多个控制，利用不同控制类型的优势

Key-frame Attention（关键帧Attention，重点）

解决的问题：T2I扩散模型中使用的空间自注意机制单独更新每一帧，导致时间不一致的视频输出。
解决方式：利用关键帧在整个视频中传播编辑以及视频编辑的最新进展。将stable diffusion和ControlNet中原有的spatial self-attention转化为key-frame attention，将所有帧向选定的帧对齐。
$v^i$ 表示第 $i$ 帧， $k\in[1,N]$ 表示选定的关键帧，key frame attention定义如下：
$Q=W^Q v^i,K=W^K v^k,V=W^V v^k,$
$W^Q,W^K,W^V$ 表示投影层，使用不同的关键帧选择没有显著差异，采用原始的spatial self-attention权重作为初始化。

Temporal Attention（时间注意力）

为了提高编辑视频的忠实性和时间一致性，我们在扩散模型中加入了Temporal Attention模块作为额外的分支。
使用原始的spatial self-attention权重作为初始化。
在主要的UNet中结合了Temporal Attention和key-frame attention，除了UNet的中间块。

kangxi11122344

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫