一、关于 GENMO
1、项目概览
GENMO是首个将人体运动生成(如文本/音频驱动动作)与运动估计(如视频重建动作)统一在单一框架的通用模型。其核心创新在于:
1、通过约束扩散生成框架将运动估计重构为条件生成任务(论文摘要)
2、支持视频、关键点、文本、音频和3D关键帧等多模态混合条件输入(主页Teaser描述)
3、采用估计引导的训练目标,利用野外视频数据增强生成多样性(论文摘要)
2、相关链接资源
- 官网:https://research.nvidia.com/labs/dair/genmo/
- 论文:http://arxiv.org/abs/2505.01425
- 演示视频:https://youtu.be/b2lCM3kLZPI
- 发布机构:NVIDIA
3、功能特性
1、多任务统一建模
集成运动生成与运动估计任务,支持视频/文本/音频/3D关键帧混合条件输入
2、创新架构设计
- 基于约束扩散的回归框架
- 可变时长运动处理能力
- 估计引导的训练目标
3、协同增强效应
- 生成先验提升遮挡等挑战场景下的运动估计
- 真实视频数据增强生成多样性
二、技术摘要
传统方法将运动生成(从文本/音频等创建运动)与运动估计(从视频重建运动)分离为独立任务。GENMO通过将运动估计重构为约束条件下的运动生成,实现:
- 精确的全局运动估计
- 多样化的运动生成
- 混合多模态条件控制
三、核心能力
1、混合条件运动生成
- 视频→文本→视频的连续条件切换
- 支持3D关键帧中途干预
- 音乐驱动舞蹈生成
2、多文本序列控制
可编辑时间区间实现分段文本控制
3、野外运动估计
4、任意时长生成
5、音乐驱动生成
四、参考文献
伊织 xAI 2025-05-06(二)