1、定位:一个开源的、高质量的虚拟人类视频生成解决方案,我看项目团队还计划推出MuseTalk,一个实时的高质量唇同步模型,可以与MuseV结合使用,形成一个完整的虚拟人类生成解决方案。
2、技术框架概述: 一个基于扩散模型的虚拟人类视频生成框架,它利用视觉条件并行去噪技术(Visual Conditioned Parallel Denoising)来支持无限长度的视频生成(这个我还在测试)
3、核心功能:
(1)提供了基于人类数据集训练的虚拟人类视频生成的检查点。
(2)支持Image2Video、Text2Image2Video、Video2Video等多种生成方式。
(3)与Stable Diffusion生态系统兼容,包括base_model、lora、controlnet等。
(4)支持多参考图像技术,包括IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID等。
MuseV:基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。
MuseV
是基于扩散模型的虚拟人视频生成框架,具有以下特点:
- 支持使用新颖的视觉条件并行去噪方案进行无限长度生成ÿ