MuseV
模型简介
MuseV是一种基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成方法,可以生成短视频。
技术要点
数据预处理:首先,对人类数据集进行训练,得到用于虚拟人视频生成的检查点checkpoints。
视觉条件并行去噪:这是该方法的核心技术。通过并行去噪算法,可以在保证视频质量的同时,实现无限长度的视频生成。该算法利用视觉条件来控制去噪过程,从而确保生成的每一帧都与前一帧保持一致性和连贯性。
多模态生成:该方法支持多种生成模式,包括图像到视频、文本到图像到视频以及视频到视频的生成。这使得用户可以根据不同的需求灵活选择生成方式。
兼容性与扩展性:该方法兼容Stable Diffusion生态系统,包括base_model、lora、controlnet等,同时还支持多参考图像技术,如IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID等。这为后续的技术扩展和应用提供了便利。
个人思考
生成视频中的人物动作保持连贯性,但着装细节不能保持一致性。
相关资源
[1] github项目:https://github.com/TMElyralab/MuseV?tab=readme-ov-file
[2] 生成样例:https://tmelyralab.github.io/MuseV_Page/
MuseTalk
模型简介
MuseTalk通过潜在空间修复(Latent Space Inpainting)实现,能够在实时视频中实现高精度的口型与语音同步。
技术要点
实时性:MuseTalk模型能够在实时环境中运行,达到30帧每秒(fps)以上的处理速度,确保唇语同步的流畅性。
高质量同步:该技术采用潜在空间修复方法,在保持面部其他特征不变的情况下,精确修改口型区域,实现高质量的唇语同步。
多语言支持:MuseTalk支持多种语言的音频输入,如中文、英文和日文等,显示出广泛的适用性。
高效率:在NVIDIA Tesla V100等高性能硬件上运行时,该技术能够保持高效的实时处理能力。
个人思考
MuseV与MuseTalk的结合,看起来更像对视频中的人物进行配音,而未将语音中的语义跟面部行为相关联。
相关资源
[1] github项目:https://github.com/TMElyralab/MuseTalk