PCAVS: 用音频驱动逼真的面部动画
本文介绍了一种名为PCAVS(Post-Controllable Audio Visual System)的AI模型,它可以将音频与面部动画完美结合,实现逼真的唇形同步以及头部动作。
PCAVS的优势:
- 高度灵活: 不仅能根据音频生成唇形同步,还能将另一个视频中的头部动作复制到目标面部。
- 更自然流畅: 相比于传统的
波浪到唇
技术,PCAVS生成的动画更加自然流畅,避免了面部变形或动作僵硬的问题。 - 多功能性: 可以用于将静态图像变成会说话的肖像,或为视频添加更自然的头部动作。
PCAVS的工作原理:
该模型由三个部分组成:
- 输入身份: 生成和控制目标面部的部分,确保动画过程中面部特征的一致性。
- 输入姿势: 提取参考视频中的头部动作信息,并将其应用到目标面部。
- 音频频谱图: 将音频信息与唇部特征同步,实现唇形同步。
使用方式:
PCAVS需要三个输入文件:音频、目标面部和参考视频。用户可以根据自己的需求,选择不同的输入文件组合,实现不同的效果。
局限性:
目前,PCAVS需要音频作为输入,无法像FOM一样直接从视频中提取动作信息。
总体而言,PCAVS是一个非常强大的AI模型,它突破了传统面部动画技术的局限性,为用户提供了更多可能性和创造空间。
您只需要音频就能进行深度伪造,但这并不意味着它看起来会很好�哈哈哈-无论如何,对此抱有很高的期望。他们只需要改进身份再生。否则,这项技术看起来非常有希望!!PC-AVS[论文] https://arxiv.org/abs/2104.11116[官方 GitHub] https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS[教程 GitHub] https://github.com/bycloudai/PCAVS-Windows[安装教程] https://youtu.be/4O3EqIiEzKQWav2lip[我的视频] https://youtu.be/dQw4w9WgXcQ[GitHub] https://github.com/Rudrabha/Wav2Lip[论文] http://arxiv.org/abs/2008.10010一阶运动模型[我的视频] https://youtu.be/B_qWUVi52yY[GitHub] https://github.com/AliaksandrSiarohin/first-order-model[论文] https://arxiv.org/pdf/2104.11280.pdf