SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

最新推荐文章于 2024-05-21 12:24:19 发布

错了硬改丶

最新推荐文章于 2024-05-21 12:24:19 发布

阅读量1.6k

点赞数 33

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/rlyhh/article/details/136902320

版权

摘要

在文本生成视频任务中，仅依靠文本提示会因为空间不确定性导致帧的组合不明确。因此提出了SparseCtrl以实现具有时间稀疏信号的灵活结构控制，只需要一个或几个输入。如图，它包含一个额外的条件编码器来处理稀疏信号，同时保持预训练的T2V模型不变。

1 介绍

虽然T2I和T2V的发展很迅速，但是文本提示本质上的抽象的表达，很难准确的定义其复杂的语义，例如空间布局、姿势和形状。在本文中，我们介绍了 SparseCtrl，这是一种有效的方法，旨在通过带有附加编码器的时间稀疏条件图来控制文本到视频的生成。它在保留原始生成器的完整性的同时实现了辅助编码器。为了实现这一点，我们设计了一个条件编码器，配备了时间感知层，将稀疏条件信号从条件关键帧传播到无条件帧。

2 相关工作

略

3. SparseCtrl

为了增强具有时间稀疏信号的预训练文本到视频(T2V)模型的可控性，我们引入附加的稀疏编码器来控制视频生成过程，而不影响原始的T2V生成器。

3.1. 文本到视频扩散模型

略

3.2. 稀疏条件编码器

为了实现高效的稀疏控制，我们引入了一个附加编码器，能够接受稀疏条件映射作为输入，我们称之为稀疏条件编码器。

帧编码器的有限可控性

作者提出了一种简单的解决方案，即使用一个类似于 ControlNet 的编码器来合并稀疏条件信号。作者构建了一个逐帧编码器，通过在时间维度上复制它，并通过辅助结构将条件添加到所需的关键帧中来实现这一目标。对于没有直接条件的帧，他们将零图像输入到编码器中，并通过额外的掩码通道指示无条件状态。然而，实验结果表明，在某些情况下，当与稀疏输入条件一起使用时，这种帧条件无法保持时间一致性。例如，在只有第一帧作为条件的图像动画场景中，只有关键帧对条件做出反应，导致条件帧和非条件帧之间出现突然的内容变化。总结：尽管作者采取了一种简单的方法来合并稀疏条件信号，但在某些情况下，这种方法无法在所有帧之间保持一致性。特别是在只有部分帧作为条件的情况下，可能会导致生成的帧之间出现不连贯或突然的内容变化。这表明帧编码器的控制能力是有限的，需要进一步研究和改进来解决这个问题。

条件跨帧传播

作者认为该问题的出现是因为T2V（文本到视频）主干（即编码器）难以推断非条件帧的中间条件状态。为了解决这个问题，他们建议在稀疏条件编码器中添加时间层，以允许条件信号在帧之间传播。作者提到使用位置编码的时间注意力作为时间层的一种可能实现方式。直观地说，不同帧之间在外观和结构上可能存在相似之处，尽管不完全相同。因此，通过引入时间层，可以将这种隐式信息从条件关键帧传播到非条件帧，以增强生成结果的一致性。时间层可以帮助模型理解帧之间的时间关系，从而更好地维持生成的视频中的连贯性和一致性。

由人工噪音造成的质量下降

作者发现简单地应用控制网在场景中复制带有噪声的样本输入是不适当的。具体而言，作者指出原始的ControlNet不仅复制了UNet编码器，还复制了带噪声的样本输入zt。换句话说，ControlNet编码器的输入是条件（在零初始化层之后）和噪声样本之间的和。这种设计稳定了训练过程，加速了模型在原场景下的收敛。

然而，在作者设置的无条件帧中，稀疏编码器的信息输入变成了只有噪声样本。这可能会导致稀疏编码器在训练过程中忽略条件映射并依赖于噪声样本zt，这与增强可控性的目标相矛盾。因此，作者提出的稀疏编码器消除了带噪声的样本输入，只接受拼接后的条件映射[cs, m]作为输入。这种简单而有效的方法消除了他们在实验中观察到的质量下降现象。

通过屏蔽统一稀疏性

为了统一单一模型的不同稀疏性，作者使用零图像作为无条件帧的输入占位符，并将二进制掩码序列连接到输入条件中。这种做法在视频重建和预测的任务中是常见的。具体来说，根据图2 (a)所示，除了每帧的条件信号cs之外，作者将二进制掩码m∈{0,1}h×w沿着信道方向连接到输入中，形成稀疏编码器的输入。这里的掩码序列用于指示每个帧是有条件帧还是无条件帧。当设置m = 0时，表示当前帧是无条件帧，反之亦然。

3.3. 多种模式和应用

在本文中，我们用三种模式实现SparseCtrl:草图、深度图和RGB图像。值得注意的是，我们的方法可能与其他模式兼容，例如骨架和边缘地图，我们将其留给未来的发展。

Sketch-to-video生成

使用 SparseCtrl，用户可以提供任意数量的草图来塑造视频内容。

深度引导生成

将深度条件与预训练的 T2V 相结合，可以实现深度引导的生成。因此，用户可以通过直接从引擎或 3D 表示导出稀疏深度图或使用深度作为中间表示进行视频翻译来渲染视频。

图像动画和过渡视频预测和插值

在RGB视频的背景下，许多任务可以统一为一个具有RGB图像条件的视频生成问题。在该方案中，图像动画对应于以第一帧为条件的视频生成;过渡由第一帧和最后帧决定;视频预测以少量的开始帧为条件;插值以均匀稀疏的关键帧为条件