某节的OmniHuman-1 paper 阅读

        本文提出了OmniHuman,一个基于扩散Transformer的框架,通过在训练阶段混合与运动相关的条件来扩展数据规模。

为此,引入了两种针对这些混合条件的训练原则,并提出了相应的模型架构和推理策略

        基于Diffusion Transformer-based (DiT) video diffusion models是大规模训练一些以视频-文本对,存在现有的通病:它们通常在高度过滤的数据集上进行训练以简化学习过程,限制了其适用场景。例如,大多数现有的端到端音频条件模型仅限于面部或肖像动画 (类似于某里的EMO V1),而大多数姿势条件模型只能处理从正面视角拍摄的全身图像,且背景静态。

以音频条件模型为例:训练数据集需要高度过滤

  1. 音频主要与面部表情相关,与身体姿势、背景运动、摄像机移动或光照变化几乎没有关联。因此,原始训练数据必须经过过滤和裁剪,以尽量减少这些无关因素的影响
  2. 音频条件模型通常还需要基于唇同步准确性进行进一步的数据清理


本文训练

在本文中,我们解决了扩展人体动画数据和模型的挑战。我们的关键见解是,在训练过程中引入多种条件信号(如文本、音频和姿势&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值