本文提出了OmniHuman,一个基于扩散Transformer的框架,通过在训练阶段混合与运动相关的条件来扩展数据规模。
为此,引入了两种针对这些混合条件的训练原则,并提出了相应的模型架构和推理策略
基于Diffusion Transformer-based (DiT) video diffusion models是大规模训练一些以视频-文本对数据,存在现有的通病:它们通常在高度过滤的数据集上进行训练以简化学习过程,限制了其适用场景。例如,大多数现有的端到端音频条件模型仅限于面部或肖像动画 (类似于某里的EMO V1),而大多数姿势条件模型只能处理从正面视角拍摄的全身图像,且背景静态。
以音频条件模型为例:训练数据集需要高度过滤
- 音频主要与面部表情相关,与身体姿势、背景运动、摄像机移动或光照变化几乎没有关联。因此,原始训练数据必须经过过滤和裁剪,以尽量减少这些无关因素的影响
- 音频条件模型通常还需要基于唇同步准确性进行进一步的数据清理
本文训练
在本文中,我们解决了扩展人体动画数据和模型的挑战。我们的关键见解是,在训练过程中引入多种条件信号(如文本、音频和姿势&#