REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION学习笔记

最新推荐文章于 2024-07-19 15:16:23 发布

kangxi11122344

最新推荐文章于 2024-07-19 15:16:23 发布

阅读量69

点赞数

文章标签：学习笔记

本文链接：https://blog.csdn.net/kangxi11122344/article/details/132948922

版权

REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION）学习笔记

method
- 视频数据
- 长视频生成
experiment

motivation：
由于计算和内存资源的限制，将LDM用于t2v任务挑战性较大
单个LDM通常只能生成非常有限的视频帧数，且需要额外的训练成本和帧级抖动
contribution：
Reuse and Diffuse（重用和扩散），根据LDM已经生成的帧生成更多的帧（以具有少量帧的初始视频片段为条件，通过重用原始潜在特征并遵循先前的扩散过程来迭代生成额外的帧。）
对autoencoder插入时间层进行finetuning实现时间一致性
还提出了一套策略，用于组合视频文本数据

method

stable diffusion在t2i任务中表现较好，视频合成任务会加载预训练的LDM（Variational Auto-Encoder (VAE)和U-Net）
通过注入图中虚线框标记的temporal layer（时间层）来适应原始的U-Net，进行图像扩散到视频合成的转变。
在这里插入图片描述
temporal layer分为Temp-Conv（3D卷积层）、Temp-Attn（temporal attention layers）
除了这两个层，其他大多数网络层都使用stable diffusion的预训练模型权重进行初始化
Temp-Conv 和 Temp-Attn 的参数随机初始化

2D ResNet膨胀为3D ResNet
网络层中只有一部分是可训练的，以实现有效的训练，之前的工作，使用图像数据分别微调空间层和视频数据来训练时间层
本工作，以端到端的方式使用纯视频数据进行训练，因为图像数据被转换为伪视频，显示出与原始视频数据相似的时间一致性

视频数据

在这里插入图片描述
图像-文本数据通过随机缩放和平移来生成多个图像，并进一步组合成伪视频。
短视频的数据集（Kinetics-700），根据每个视频的分类标签给出合适的文本caption。
包含多个场景的长视频（VideoLT），segment-then-caption strategy，先分段在加字幕（Mini-GPT4）。

长视频生成

在这里插入图片描述
FNR：为了生成平滑的视频，迭代地重用初始噪声，但每次以相反的顺序。
PNS：为了减轻视频内容循环程度，
$\mathbf{z}_T^{i,j}=\begin{cases}\mathbf{z}_T^{i-1,N-j-1}&\text{if}\text{ }j<M\\\frac{\alpha}{\sqrt{1+\alpha^2}}\mathbf{z}_T^{i-1,N-j-1}+\epsilon^{i,j}&\text{otherwise}\end{cases},\epsilon^{i,j}\sim\mathcal{N}(0,\frac{1}{1+\alpha^2}\mathbf{I}),\alpha\geq0$
M帧为参考帧，在参考帧之外加额外的随机噪声， $\alpha$ 越小，随机噪声占的比率越大
DSG：提高帧之间的连续性，主要是视频clip之间的连续性， $\mathbf{z}_0^{i,N-1}$ 和 $\mathbf{z}_0^{i+1,0}$ ，
$\mathbf{z}_{t-1}^{i,j}=\begin{cases}\mathbf{z}_{t-1}^{i-1,N-j-1}&\text{if}\text{ }t>(1-\beta)T+\frac{\beta Tj}{M}\\\text{DDIM}(\mathbf{z}_t^{i,j},t)&\text{otherwise}\end{cases},\quad\beta\in[0,1]$
前几帧重用上一视频clip的latent futures, $\beta$ 越小，重用程度越小

experiment

由静态图像的随机缩放和平移产生的伪视频有助于提高时间一致性但损害视觉外观

在这里插入图片描述
使用伪视频微调和不使用伪视频微调
与使用静态图像仅训练空间层相比，由静态图像的随机缩放和平移产生的伪视频有助于提高时间一致性但损害视觉外观。

对M（参考帧数量）、 $\alpha$ 、 $\beta$ 消融实验
越大，重用的越多，量化指标较高，视频循环严重

kangxi11122344

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION学习笔记

Reuse and Diffuse（重用和扩散），根据LDM已经生成的帧生成更多的帧（以具有少量帧的初始视频片段为条件，通过重用原始潜在特征并遵循先前的扩散过程来迭代生成额外的帧。）
复制链接

扫一扫