Text2Performer: Text-Driven Human Video Generation

最新推荐文章于 2024-08-22 07:51:42 发布

错了硬改丶

最新推荐文章于 2024-08-22 07:51:42 发布

阅读量1.3k

点赞数 45

文章标签：人工智能

本文链接：https://blog.csdn.net/rlyhh/article/details/136867805

版权

摘要

此研究主要是关于人类的的视频生成任务，主要关注人类的外观和运动。与一般的视频生成任务相比，此任务需要在人类运动的同时保持整体人物整体的外观。Text2performer主要有两个新颖的设计：1.分解人体的表征 2基于扩散的运动采样器。此外，为了方便文本驱动的人类视频生成任务，作者提供了一个Fashion-Text2Video数据集，其中包含手动注释的动作标签和文本描述。

1 介绍

现有的文本驱动任务大多需要依赖数量庞大的数据集来训练，虽然显示出的性能优越，但是在应用于某些特定任务时无法生成合理的结果。文本驱动的人类视频生成有几个挑战：1人体结构是铰接式的。2在执行复杂运动时，人体的外观应该保持不变。为了对复杂的人体运动进行建模，提出了一种新的连续VQ扩散器来对一系列有意义的姿态表示进行采样。

2 相关工作

略

3. Text2Performer

如图 3 所示，Text2Performer 通过将文本作为输入（外观为 ta，运动为 tm）来合成所需的人类视频。为了确保一致的人类表示，作者将VQ空间分解为外观表示fa和姿态表示fp，如图4所示。通过分解后的VQ空间，根据ta对人体外观特征ˆfa和样本姿态特征ˆf 0p进行采样。

图4展示的是分解的VQ-Space的管道两个不同的帧I0和Ik分别作为身份帧和姿势帧来提供外观和姿势特征。将数据增强应用于Ik以消除其外观信息，以避免信息泄漏。构建了两个码本来存储姿态特征和外观特征。最后将量化的特征输入到解码器中，重建姿态帧Ik。我们使用它的第一帧 I0 作为外观信息，另一个随机采样的帧 Ik 用于姿势信息。I0 和 Ik 分别被发送到两个编码器 Ea 和 Ep。两个分支共享编码器 Es。为了防止Ik泄露外观信息，在位姿分支之前将数据增强(如颜色抖动和高斯模糊)应用于Ik。fa和fp得到为

在获得fa和fp后，构建了两个码本Ca和Cp来存储外观和姿态嵌入。给定码本C的量化特征ˆf由下式得到

利用量化的ˆfa和ˆfp，然后将它们输入到解码器D中，重建目标位姿帧ˆIk:

其中[·]是连接操作，Dp对ˆfp进行上采样，使其具有与ˆfa相同的分辨率。整个网络（包括编码器、解码器和码本）使用：

其中 sg(·) 是停止梯度操作。使用分解后的VQ空间，训练一个额外的采样器对ˆfa和ˆf 0p进行采样。该采样器的设计与以前的方法相同。

3.2 连续VQ-Diffuser

采用基于diffusion transfomer对运动进行采样，一系列姿态嵌入ˆFp ={ˆf 1p，ˆf 2p。.., ^fnp } 从学习的姿势码本 Cp 中。与以固定顺序进行预测的自回归模型不同，基于diffusion transfomer并行预测多个码本索引。码本索引的预测从 F0p 开始，即完全掩码的 Fm p。时间步 t 的预测表示如下：

3.2.1连续空间采样

在连续的VQ扩散器Sθ中，我们建议在连续嵌入空间中训练非因果变压器，如图5(C)所示。Sθ直接预测连续姿势嵌入{̄fkp}。Sθ经过训练，可以根据运动描述tm和初始姿态特征ˆf 0p，从掩模位姿序列FM p预测完整的连续̄Fp:

为了利用存储在Cp中的丰富嵌入来约束预测空间，我们从Cp中检索预测的连续̄Fp最近的嵌入，以获得最终的ˆFp：

3.2.2运动感知掩蔽策略

为了生成合理的视频，采样的动作序列 ^Fp 应该在时间和空间上都是合理的。为了使连续的VQ扩散器Sθ正确地以tm为条件，并为每一帧生成合理的人体姿势，我们设计了一种运动感知掩蔽策略，以在空间和时间上仔细掩蔽Fp。

在时间维度上，Sθ首先基于tm和p预测第一帧和最后一帧的位姿嵌入。然后根据给定的条件将预测扩散到中间帧和先前已被屏蔽的帧。因此，在训练过程中，如果第一帧和最后一帧被屏蔽，我们将屏蔽所有帧，以防止中间帧在两端提供帮助帧预测的信息。更高的概率被分配到屏蔽所有帧，以帮助Sθ在最具挑战性的两端更好地学习预测。

错了硬改丶

关注

45
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Text2Performer: Text-Driven Human Video Generation

现有的文本驱动任务大多需要依赖数量庞大的数据集来训练，虽然显示出的性能优越，但是在应用于某些特定任务时无法生成合理的结果。文本驱动的人类视频生成有几个挑战：1人体结构是铰接式的。2在执行复杂运动时，人体的外观应该保持不变。为了对复杂的人体运动进行建模，提出了一种新的连续VQ扩散器来对一系列有意义的姿态表示进行采样。
复制链接

扫一扫