Text2Performer: Text-Driven Human Video Generation

摘要

此研究主要是关于人类的的视频生成任务,主要关注人类的外观和运动。与一般的视频生成任务相比,此任务需要在人类运动的同时保持整体人物整体的外观。Text2performer主要有两个新颖的设计:1.分解人体的表征 2基于扩散的运动采样器。此外,为了方便文本驱动的人类视频生成任务,作者提供了一个Fashion-Text2Video数据集,其中包含手动注释的动作标签和文本描述。

1 介绍

现有的文本驱动任务大多需要依赖数量庞大的数据集来训练,虽然显示出的性能优越,但是在应用于某些特定任务时无法生成合理的结果。文本驱动的人类视频生成有几个挑战:1人体结构是铰接式的。2在执行复杂运动时,人体的外观应该保持不变。为了对复杂的人体运动进行建模,提出了一种新的连续VQ扩散器来对一系列有意义的姿态表示进行采样。

2 相关工作

3. Text2Performer

如图 3 所示,Text2Performer 通过将文本作为输入(外观为 ta,运动为 tm)来合成所需的人类视频。为了确保一致的人类表示,作者将VQ空间分解为外观表示fa和姿态表示fp,如图4所示。通过分解后的VQ空间,根据ta对人体外观特征ˆfa和样本姿态特征ˆf 0p进行采样。

图4展示的是分解的VQ-Space的管道两个不同的帧I0和Ik分别作为身份帧和姿势帧来提供外观和姿势特征。将数据增强应用于Ik以消除其外观信息,以避免信息泄漏。构建了两个码本来存储姿态特征和外观特征。最后将量化的特征输入到解码器中,重建姿态帧Ik。我们使用它的第一帧 I0 作为外观信息,另一个随机采样的帧 Ik 用于姿势信息。I0 和 Ik 分别被发送到两个编码器 Ea 和 Ep。两个分支共享编码器 Es。为了防止Ik泄露外观信息,在位姿分支之前将数据增强(如颜色抖动和高斯模糊)应用于Ik。fa和fp得到为

在获得fa和fp后,构建了两个码本Ca和Cp来存储外观和姿态嵌入。给定码本C的量化特征ˆf由下式得到

利用量化的ˆfa和ˆfp,然后将它们输入到解码器D中,重建目标位姿帧ˆIk:

其中[·]是连接操作,Dp对ˆfp进行上采样,使其具有与ˆfa相同的分辨率。整个网络(包括编码器、解码器和码本)使用:

其中 sg(·) 是停止梯度操作。使用分解后的VQ空间,训练一个额外的采样器对ˆfa和ˆf 0p进行采样。该采样器的设计与以前的方法相同。

3.2 连续VQ-Diffuser

采用基于diffusion transfomer对运动进行采样,一系列姿态嵌入ˆFp ={ˆf 1p,ˆf 2p。.., ^fnp } 从学习的姿势码本 Cp 中。与以固定顺序进行预测的自回归模型不同,基于diffusion transfomer并行预测多个码本索引。码本索引的预测从 F0p 开始,即完全掩码的 Fm p。时间步 t 的预测表示如下:

3.2.1连续空间采样

在连续的VQ扩散器Sθ中,我们建议在连续嵌入空间中训练非因果变压器,如图5(C)所示。Sθ直接预测连续姿势嵌入{̄fkp}。Sθ经过训练,可以根据运动描述tm和初始姿态特征ˆf 0p,从掩模位姿序列FM p预测完整的连续̄Fp:

为了利用存储在Cp中的丰富嵌入来约束预测空间,我们从Cp中检索预测的连续̄Fp最近的嵌入,以获得最终的ˆFp:

3.2.2运动感知掩蔽策略

为了生成合理的视频,采样的动作序列 ^Fp 应该在时间和空间上都是合理的。为了使连续的VQ扩散器Sθ正确地以tm为条件,并为每一帧生成合理的人体姿势,我们设计了一种运动感知掩蔽策略,以在空间和时间上仔细掩蔽Fp。

在时间维度上,Sθ首先基于tm和p预测第一帧和最后一帧的位姿嵌入。然后根据给定的条件将预测扩散到中间帧和先前已被屏蔽的帧。因此,在训练过程中,如果第一帧和最后一帧被屏蔽,我们将屏蔽所有帧,以防止中间帧在两端提供帮助帧预测的信息。更高的概率被分配到屏蔽所有帧,以帮助Sθ在最具挑战性的两端更好地学习预测。

  • 45
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值