DisCo: Disentangled Control for Referring Human Dance Generation in Real World
论文链接
- 🌟DisCo: Disentangled Control for Referring Human Dance Generation in Real World
arxiv
Github
项目网站 - 🌟[更多Video Generation论文 由CMU(卡内基梅隆大学)团队收集和维护,论文很全,非常推荐!!!🌟
Abstract
生成式人工智能在计算机视觉领域取得了重大进展,特别是在基于文本描述的图像/视频合成方面。尽管取得了进展,但在生成以人为中心的内容,如舞蹈合成方面仍然具有挑战性。现有的舞蹈合成方法在合成内容与真实世界舞蹈场景之间存在差距。在本文中,我们定义了一个新的问题设置:基于参考的人类舞蹈生成,重点关注具有三个重要属性的真实世界舞蹈场景:
(i) 保真度:合成应该保留参考图像中人物主体和背景的外观,并精确地遵循目标姿势;
(ii) 通用性:模型应该适用于未见过的人物主体、背景和姿势;
(iii) 组合性:它应该允许从不同来源组合已见/未见的人物主体、背景和姿势。为了解决这些挑战,我们引入了一种新颖的方法,DisCo,它包括一种新颖的模型架构,通过解耦控制来提高舞蹈合成的保真度和组合性,以及一种有效的人类属性预训练,以实现对未见人类的更好泛化能力。大量的定性和定量结果表明,DisCo能够生成具有多样外观和灵活动作的高质量人类舞蹈图像和视频。
模型结构
Contributions
我们定义了一个新的问题设置,即参考人类舞蹈来生成真实世界舞蹈内容,以促进其在用户特定短视频制作中的潜在应用。
为了解决这个问题,我们提出了DISCO框架,包括:(i) 一种新颖的模型架构,用于解耦控制,以确保生成过程中的保真度和组合性;(ii) 人类属性预训练,以提高对未见人类的泛化能力。
我们进行了各种评估和应用来证明DISCO的有效性,包括人类图像编辑和人类舞蹈视频合成。
Method
解耦控制(Disentangled Control)
具有解耦控制的模型架构:我们提出了一种将条件与交叉注意力(cross-attention)和控制网络(ControlNet)有机整合的方法。具体而言,我们用人类主体的CLIP图像嵌入替换了T2I扩散模型中的文本条件,这通过U-Net的交叉注意力模块进行整合;而背景和人体姿势条件则分别输入到两个独立的控制网络分支中。通过解耦控制,DisCo不仅可以在人物前景和背景上实现保真度,还可以实现人物主体、背景和舞蹈动作的任意组合性。
- cross-attention and ControlNet. 用于集成各种条件
- 将T2I 扩散模型的文本条件换成人物图像嵌入
- 人物图像嵌入作为条件放入U-net的交叉注意力模块
- 背景和人物动作的编码放入ControlNet
- 原图做diffusion,三个条件控制
人类属性预训练(Human Attribute Pre-training)
人类属性预训练:我们设计了一个代理任务,模型在单独的前景和背景区域上进行条件控制,并必须重建完整的图像。通过这种方式,在预训练阶段,模型学会更好地对复杂的人脸和服装进行编码和解码,并将姿势控制的学习留给人类舞蹈合成的微调阶段。最重要的是,在没有成对的人类图像用于姿势控制的约束下,我们可以利用大规模的人类图像集合来学习多样的人类属性,从而极大地提高DISCO对未见人类的泛化能力。
- 这样就不需要大量的人类舞蹈视频去训练,只需要人类的图片,后者的数据更多更容易获取
补充:Controlnet
ControlNet中,就是将模型原始的神经网络锁定,设为locked copy,然后将原始网络的模型复制一份,称之为trainable copy,在其上进行操作施加控制条件。然后将施加控制条件之后的结果和原来模型的结果相加获得最终的输出。其中zero convolution,也就是零卷积层Z是初始化weight和bias为0。
将控制条件通过零卷积之后,与原始输入相加,相加之后进入ControlNet的复制神经网络块中,将网络输出再做一次零卷积之后与原始网络的输出相加。
也就是说ControlNet未经训练的时候,输出为0,那加到原始网络上的数字也是0。这样对原始网络是没有任何影响的,就能确保原网络的性能得以完整保存。之后ControlNet训练也只是在原始网络上进行优化,这样可以认为和微调网络是一样的。
以Stable Diffusion为例子,如何使用ControlNet对大型网络进行控制。下图可以看到控制Stable Diffusion的过程就是将Encoder复制训练,decoder部分进行skip connection。