你现在只需要音频就可以制作深度伪造！不过可能看起来有点诡异 [PCAVS]

最新推荐文章于 2024-09-15 08:18:11 发布

bycloudAI

最新推荐文章于 2024-09-15 08:18:11 发布

阅读量210

点赞数 1

文章标签： AI-native 语音识别计算机视觉自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bycloudAI/article/details/141178983

版权

PCAVS: 用音频驱动逼真的面部动画

本文介绍了一种名为PCAVS（Post-Controllable Audio Visual System）的AI模型，它可以将音频与面部动画完美结合，实现逼真的唇形同步以及头部动作。

PCAVS的优势:

高度灵活： 不仅能根据音频生成唇形同步，还能将另一个视频中的头部动作复制到目标面部。
更自然流畅： 相比于传统的波浪到唇技术，PCAVS生成的动画更加自然流畅，避免了面部变形或动作僵硬的问题。
多功能性： 可以用于将静态图像变成会说话的肖像，或为视频添加更自然的头部动作。

PCAVS的工作原理:

该模型由三个部分组成：

输入身份： 生成和控制目标面部的部分，确保动画过程中面部特征的一致性。
输入姿势： 提取参考视频中的头部动作信息，并将其应用到目标面部。
音频频谱图： 将音频信息与唇部特征同步，实现唇形同步。

使用方式:

PCAVS需要三个输入文件：音频、目标面部和参考视频。用户可以根据自己的需求，选择不同的输入文件组合，实现不同的效果。

局限性:

目前，PCAVS需要音频作为输入，无法像FOM一样直接从视频中提取动作信息。

总体而言，PCAVS是一个非常强大的AI模型，它突破了传统面部动画技术的局限性，为用户提供了更多可能性和创造空间。

您只需要音频就能进行深度伪造，但这并不意味着它看起来会很好�哈哈哈-无论如何，对此抱有很高的期望。他们只需要改进身份再生。否则，这项技术看起来非常有希望！！PC-AVS[论文] https://arxiv.org/abs/2104.11116[官方 GitHub] https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS[教程 GitHub] https://github.com/bycloudai/PCAVS-Windows[安装教程] https://youtu.be/4O3EqIiEzKQWav2lip[我的视频] https://youtu.be/dQw4w9WgXcQ[GitHub] https://github.com/Rudrabha/Wav2Lip[论文] http://arxiv.org/abs/2008.10010一阶运动模型[我的视频] https://youtu.be/B_qWUVi52yY[GitHub] https://github.com/AliaksandrSiarohin/first-order-model[论文] https://arxiv.org/pdf/2104.11280.pdf

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

bycloudAI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。