畅游Diffusion数字人(15):详细解读字节跳动最新论文——音频+姿态控制人类视频生成OmniHuman-1

Diffusion models代码解读:入门与实战

前言:昨晚字节跳动刚发布了一篇音频+姿态控制人类视频生成OmniHuman-1的论文,效果非常炸裂,并且是基于最新的MM-DiT架构,今天博主详细解读一下这一技术。

目录

贡献概述

方法详解

音频条件注入

Pose条件注入

参考图片条件注入

训练策略

训练数据

论文

个人感悟


贡献概述

端到端的人类动画,例如基于音频的对话人类生成,在最近几年经历了显著的进展。然而,现有方法在扩展为大型通用视频生成模型方面仍然面临挑战,限制了它们在实际应用中的潜力。本文提出了 OmniHuman,一个基于扩散变换器的框架,通过将与运动相关的条件混合到训练阶段来扩展数据。为此,我们引入了这两种混合条件的训练原则,以及相应的模型架

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

沉迷单车的追风少年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值