GENMO - 通用人体运动模型

最新推荐文章于 2025-05-23 09:16:47 发布

编程乐园

最新推荐文章于 2025-05-23 09:16:47 发布

阅读量269

点赞数 3

分类专栏： # AI 开源项目文章标签： python ai GENMO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovechris00/article/details/147747905

版权

AI 开源项目专栏收录该内容

214 篇文章

订阅专栏

GENMO Logo

文章目录

一、关于 GENMO

1、项目概览

GENMO是首个将人体运动生成（如文本/音频驱动动作）与运动估计（如视频重建动作）统一在单一框架的通用模型。其核心创新在于：
1、通过约束扩散生成框架将运动估计重构为条件生成任务（论文摘要）
2、支持视频、关键点、文本、音频和3D关键帧等多模态混合条件输入（主页Teaser描述）
3、采用估计引导的训练目标，利用野外视频数据增强生成多样性（论文摘要）

2、相关链接资源

官网：https://research.nvidia.com/labs/dair/genmo/
论文：http://arxiv.org/abs/2505.01425
演示视频：https://youtu.be/b2lCM3kLZPI
发布机构：NVIDIA

3、功能特性

1、多任务统一建模
集成运动生成与运动估计任务，支持视频/文本/音频/3D关键帧混合条件输入

2、创新架构设计

基于约束扩散的回归框架
可变时长运动处理能力
估计引导的训练目标

3、协同增强效应

生成先验提升遮挡等挑战场景下的运动估计
真实视频数据增强生成多样性

二、技术摘要

GENMO 示意图

传统方法将运动生成（从文本/音频等创建运动）与运动估计（从视频重建运动）分离为独立任务。GENMO通过将运动估计重构为约束条件下的运动生成，实现：

精确的全局运动估计
多样化的运动生成
混合多模态条件控制

三、核心能力

1、混合条件运动生成

视频→文本→视频的连续条件切换
支持3D关键帧中途干预
音乐驱动舞蹈生成

2、多文本序列控制

可编辑时间区间实现分段文本控制

3、野外运动估计

4、任意时长生成

5、音乐驱动生成

四、参考文献

项目模板基于GLAMR
NVIDIA 隐私政策

伊织 xAI 2025-05-06（二）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

编程乐园 请我喝杯伯爵奶茶~！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。