EVP：音频驱动的情感视频肖像

最新推荐文章于 2025-05-20 15:57:15 发布

楠哥聊AI

最新推荐文章于 2025-05-20 15:57:15 发布

阅读量43

点赞数

分类专栏：计算机视觉/图形学-数字人论文泛读文章标签：计算机视觉数字人 talking head talking face AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A_D_I_D_A_S/article/details/145559729

版权

计算机视觉/图形学-数字人论文泛读专栏收录该内容

60 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

尽管在生成音频驱动的说唱头像方面取得了先前成功，但大多数先前的研究都集中在语音内容与口型之间的相关性上。在他们的大多数方法中，总是忽略自然人类面部最重要的特征之一——面部表情。在这项工作中，我们提出了情感视频肖像（EVP），一种由音频驱动合成具有生动情感动态的高质量视频肖像的系统。具体来说，我们提出交叉重构的情感解耦技术，将语音分解为两个解耦的空间，即与持续时间无关的情绪空间和与持续时间相关的内容空间。有了这些解耦的特征，就可以推导出动态的二维情感面部标志点。然后我们提出目标自适应的面部合成技术，通过桥接推导出的标志点和目标视频的自然头部姿势之间的差距来生成最终的高质量视频肖像。广泛的实验证明了我们的方法在质量和数量上的有效性。
在这里插入图片描述

论文题目：Audio-Driven Emotional Video Portraits
论文链接：https://arxiv.org/abs/2104.07452

研究方法

这篇论文提出了情感视频肖像（Emotional Video Portraits, EVP）系统，用于解决基于音频的情感视频生成问题。具体来说，

跨重构情感解耦技术：首先&#x

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

楠哥聊AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。