【AIGC-文本/图片生成视频系列-10】SparseCtrl：在文本生成视频的扩散模型中添加稀疏控制

AI杰克王

已于 2024-01-16 14:12:55 修改

阅读量2.2k

点赞数 23

分类专栏： AIGC中的Diffusion Models 文章标签： AIGC 深度学习计算机视觉

于 2024-01-16 12:57:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_19868271/article/details/135621964

版权

AIGC中的Diffusion Models 专栏收录该内容

9 篇文章

订阅专栏

目录

一. 项目概述

二. 方法详解

三. 应用结果

四.个人思考

由于扩散模型生成空间的不确定性，仅仅通过文本生成视频时，会导致模糊的视频帧生成。

今天解析的SparseCtrl，是一种有效解决上述问题的方案，通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。

一. 项目概述与贡献

已有解决方案：

目前学术界利用密集结构信号（例如每帧深度/边缘序列）来增强可控性，但其收集相应地增加了推理负担。

提出的SparseCtrl:

实现对时间稀疏信号的灵活结构控制，仅需要一个或几个输入。
它包含一个额外的条件编码器来处理这些稀疏信号，同时保持预训练的 T2V 模型不变。
所提出的方法与各种模式兼容，包括草图、深度和 RGB 图像，为视频生成提供更实用的控制，并促进故事板、深度渲染、关键帧动画和插值等应用。
大量实验证明了 SparseCtrl 在原始和个性化 T2V 生成器上的泛化能力。

二. 方法详解

（a）SparseCtrl管线概述。（b）vanilla ControlNet（左）, SparseCtrl的稀疏条件编码器（右）之间的比较

在SparseCtrl管线中，主要由两部分网络结构组成：

预训练的T2V主干网络，处于冻结状态；
附加的稀疏编码器。

这里需要着重解析的是Sparse Encoder, 和原生的ControlNet只考虑单帧的情况不同，Sparse Encoder 考虑了输入的稀疏性和时序性，加入了T2V时间层（这里的时间层就是带有位置编码的时序attention）。由此，稀疏条件编码器可以使条件信号从帧传播到帧，保证了生产视频的一致性。

原生的ControlNet和Sparse encoder中的差别在于：

原生ControlNet不仅拷贝了Unet 的编码器，还拷贝了输入的噪声样本。输入的条件和输入的噪声样本进行sum 操作后再进入ControlNet网络。这样的设计保证了模型训练的稳定以及加速收敛。
在Sparse Ctrl中，如果沿用原生ControlNet的设置，那么对于无条件帧而言，Sparse encoder的输入变为仅噪声样本。但这可能会鼓励Sparse encoder忽略条件输入并在训练过程中依赖噪声样本zt，这与我们可控性增强的目标相矛盾。因此SparseCtrl提出的稀疏编码器消除了噪声样本输入，只接受条件和掩码图的组合输入。

三. 应用结果

SparseCtrl可以应用于图像动画，关键帧插值，视频插值，视频预测，深度图引导生成，素描生成视频，故事板生成等领域。

四.个人思考

总体而言，SparseCtrl还是给人带来很多启发的。只用稀疏的控制信号就可以实现以往连续控制信号才可以做到的事，生成效果不错的同时也比较符合现实应用。毕竟为了生成一个视频，我们不可能都预先准备好逐帧的控制信号图，这个太不现实。依靠一两帧控制图就可以生成视频比较符合现实操作环境。

关注公众号【AI杰克王】

1. 回复“资源”，获取AIGC 博客教程，顶级大学PPT知识干货；

2. 回复“星球”，获取AIGC 免费知识星球入口，有前沿资深算法工程师分享讨论。

欢迎加入AI杰克王的免费知识星球，海量干货等着你，一起探讨学习AIGC!

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。