在音频驱动的视频生成中,创建 普通话 视频是一项重大挑战。收集全面的普通话数据集很困难,与英语相比,普通话中复杂的嘴唇动作使模型训练更加复杂。在这项研究中,我们从 JD Health International Inc. 员工那里收集了 29 小时的普通话语音视频,从而产生了 jdh-Hallo 数据集。该数据集包括各种年龄和说话风格,包括对话和专业医学主题。为了将 JoyHallo 模型调整为普通话,我们采用了中文 wav2vec2 模型进行音频特征嵌入。提出了一种半解耦结构来捕获嘴唇、表情和姿势特征之间的特征间关系。这种集成不仅提高了信息利用效率,而且将推理速度提高了 14.3%。值得注意的是,JoyHallo 保持了强大的英文视频生成能力,展现了出色的跨语言生成能力。
框架
准备模型检查点
1. 下载基本检查点
使用以下命令下载基本权重:
git lfs install git clone https://huggingface.co/fudan-generative-ai/hallo pretrained_models
2. 下载 chinese-wav2vec2-base 模型
使用以下命令下载模型:chinese-wav2vec2-base
cd pretrained_models git lfs install git clone https://huggingface.co/TencentGameMate/chinese-wav2vec2-base
3. 下载 JoyHallo 模型
git lfs install git clone https://huggingface.co/jdh-algo/JoyHallo-v1 pretrained_models/joyhallo
为方便起见,我们已将模型权重上传到 Hugging Face。
型 | 数据 | 拥抱脸 |
---|---|---|
乔伊哈洛 | jdh-哈洛 | 乔伊哈洛 |
4. pretrained_models内容
最终目录应如下所示:pretrained_models
./pretrained_models/
|-- audio_separator/
| |-- download_checks.json
| |-- mdx_model_data.json
| |-- vr_model_data.json
| `-- Kim_Vocal_2.onnx
|-- face_analysis/
| `-- models/
| |-- face_landmarker_v2_with_blendshapes.task
| |-- 1k3d68.onnx
| |-- 2d106det.onnx
| |-- genderage.onnx
| |-- glintr100.onnx
| `-- scrfd_10g_bnkps.onnx
|-- hallo/
| `-- net.pth
|-- joyhallo/
| `-- net.pth
|-- motion_module/
| `-- mm_sd_v15_v2.ckpt
|-- sd-vae-ft-mse/
| |-- config.json
| `-- diffusion_pytorch_model.safetensors
|-- stable-diffusion-v1-5/
| `-- unet/
| |-- config.json
| `-- diffusion_pytorch_model.safetensors
|-- wav2vec/
| `-- wav2vec2-base-960h/
| |-- config.json
| |-- feature_extractor_config.json
| |-- model.safetensors
| |-- preprocessor_config.json
| |-- special_tokens_map.json
| |-- tokenizer_config.json
| `-- vocab.json
`-- chinese-wav2vec2-base/
|-- chinese-wav2vec2-base-fairseq-ckpt.pt
|-- config.json
|-- preprocessor_config.json
`-- pytorch_model.bin
🚧 数据要求
图片:
-
裁剪成方形。
-
人脸应面向前方,并占据图像的 50%-70%。
音频:
-
使用格式。
wav
-
普通话、英语或混合英语,具有清晰的音频和合适的背景音乐。
更进一步,又发表了更新的研究成果:
JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation
《JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation》是一篇探讨基于扩散模型的音频驱动面部动画生成方法的论文。以下是对该论文的详细赏析:
研究背景与意义
音频驱动的人像动画技术近年来取得了显著进展,特别是在提高视频质量和口型同步准确性方面。然而,随着模型复杂度的增加,训练和推理效率降低,同时限制了视频长度和帧间连续性。因此,研究一种能够生成更长视频并保持高帧间连续性的新方法显得尤为重要。
方法与创新
JoyVASA方法通过以下步骤实现了面部动态和头部运动的生成:
-
解耦的面部表示框架:该框架将动态面部表情与静态三维面部表示分离。这种解耦允许系统将任何静态三维面部表示与动态运动序列结合,从而生成更长的视频。
-
扩散变换器:该模型训练用于直接从音频线索生成与角色身份无关的运动序列。这种生成过程独立于角色身份,使得模型具有更广泛的适用性。
-
高质量动画渲染:在解耦的面部表示框架和生成的运动序列的基础上,通过训练生成器渲染高质量动画。这一步骤结合了三维面部表示和生成的运动序列,实现了面部动态和头部运动的生成。
实验与结果
论文在私有的中文数据集和公开的英文数据集的混合数据集上训练了模型,并通过实验验证了方法的有效性。实验结果表明,JoyVASA方法不仅能够生成高质量的人类肖像动画,还能够无缝地动画化动物面部。
应用与前景
JoyVASA方法不仅适用于人类肖像动画,还能够生成动物面部动画,这为其在娱乐、教育、虚拟现实等领域的应用提供了广阔前景。未来工作将致力于提升实时性能和细化表情控制,以进一步拓展肖像动画的应用范围。
总结
《JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation》提出了一种基于扩散模型的音频驱动面部动画生成方法,通过解耦的面部表示框架和扩散变换器实现了面部动态和头部运动的生成。该方法不仅适用于人类肖像动画,还能够生成动物面部动画,具有广泛的应用前景。实验结果表明,该方法在提高视频质量和口型同步准确性方面表现出色,为音频驱动人像动画技术的发展提供了新的思路。