某节的OmniHuman-1 paper 阅读

Be a loity

已于 2025-02-20 19:33:03 修改

阅读量291

点赞数 4

文章标签：视频音视频

于 2025-02-18 16:44:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42590734/article/details/145709445

版权

本文提出了OmniHuman，一个基于扩散Transformer的框架，通过在训练阶段混合与运动相关的条件来扩展数据规模。

为此，引入了两种针对这些混合条件的训练原则，并提出了相应的模型架构和推理策略

基于Diffusion Transformer-based (DiT) video diffusion models是大规模训练一些以视频-文本对数据，存在现有的通病：它们通常在高度过滤的数据集上进行训练以简化学习过程，限制了其适用场景。例如，大多数现有的端到端音频条件模型仅限于面部或肖像动画（类似于某里的EMO V1），而大多数姿势条件模型只能处理从正面视角拍摄的全身图像，且背景静态。

以音频条件模型为例：训练数据集需要高度过滤

音频主要与面部表情相关，与身体姿势、背景运动、摄像机移动或光照变化几乎没有关联。因此，原始训练数据必须经过过滤和裁剪，以尽量减少这些无关因素的影响
音频条件模型通常还需要基于唇同步准确性进行进一步的数据清理

本文训练

在本文中，我们解决了扩展人体动画数据和模型的挑战。我们的关键见解是，在训练过程中引入多种条件信号（如文本、音频和姿势&#

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。