ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

GeneFace是浙江大学与字节跳动在ICLR 2023上提出的新模型,旨在解决基于NeRF的说话人视频合成中的域外音频弱泛化能力和“平均脸”问题。通过3个阶段——语音转动作、动作域迁移和基于动作渲染视频,GeneFace实现了高可泛化、高保真度的语音驱动的3D说话人视频合成。实验显示,GeneFace在图像质量和唇形对齐方面优于基准方法,尤其在处理域外语音时表现出色。
摘要由CSDN通过智能技术生成

92ece54ae6d78402e48bd8c44dcab22c.gif

©PaperWeekly 原创 · 作者 | 叶振辉

单位 | 浙江大学博士生

研究方向 | 语音合成、说话人视频合成

语音驱动的说话人视频合成(Audio-driven Talking Face Generation)是虚拟人领域的一个热门话题,它旨在根据一段输入的语音,合成对应的目标人脸说话视频。高质量的说话人视频需要满足两个目标:(1)合成的视频画面应具有较高的保真度;(2)合成的人脸面部表情应与输入的驱动语音保证高度对齐。 

近年出现的神经辐射场(NeRF;Neural Radiance Field)[1] 为实现第一个目标,即合成高保真度的说话人视频提供了绝佳的工具。仅需要 3 分钟左右的目标人说话视频作为训练数据,即可合成该目标人说任意语音的视频。然而,目前基于 NeRF 的说话人视频合成算法在实现第二个目标还面临许多挑战,具体来说主要可以分为两个方面: 

1. 对域外驱动音频的弱泛化能力:由于训练数据集仅包括数分钟的说话人语音-面部表情的成对数据,模型对不同说话人、不同语种、不同表现形式(如歌声)等域外音频难以生成准确的面部表情。 

2. “平均脸”问题:由于相同的语音可能有多种合理的面部动作,使用确定性的回归模型来学习这样一个语音到动作的映射可能导致过于平滑的面部动作和较低的表情表现力 [2]。 

在今年的人工智能顶级会议 ICLR 2023 上,浙江大学与字节跳动提出了全新的说话人视频合成模型 GeneFace,该算法旨在解决上述的对域外音频的弱泛化能力和“平均脸”问题,实现了高可泛化、高保真度的语音驱动的说话人视频合成。

e4b068e55d1cb481b2a03b5fa87f3fad.png

论文标题:

GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis

论文链接:

https://arxiv.org/abs/2301.13430

代码链接:

https://github.com/yerfor/GeneFace

770219dd9b73d365c7a503d3505a691a.png

研究背景

目前基于 NeRF 的说话人视频合成方法 [3] 的主要思路是训练一个基于音频输入的条件神经辐射场(Conditional NeRF):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值