微软最新AI算法通过照片和音频产生逼真头像演讲视频-CSDN博客

本文链接：https://blog.csdn.net/hahabeibei123456789/article/details/102542246

越来越多的研究表明，只要语料库足够大，几乎任何人的面部动作都可以与语音片段同步。今年6月，三星的应用科学家详细介绍了一种端到端的模型，该模型可以在一个人的头像中动画化眉毛、嘴巴、睫毛和脸颊。几周后，Udacity展示了一个系统，该系统可以从音频叙述中自动生成一个站立的语音视频。两年前，卡内基梅隆大学（carnegie mellon university）的研究人员发表了一篇论文，描述了一种将面部动作从一个人转移到另一个人的方法。

基于这项技术和其他技术，微软的研究团队本周提出了一项技术，他们声称这项技术可以提高音频驱动的音频通话动画的逼真度。以前的头部生成方法需要干净、相对无噪音、色调中性的音频，但研究人员表示，他们的方法（将音频序列分解为语音内容和背景噪声）可以概括为有噪和“情感丰富”的“数据样本”。

关于（a）GRID和（b）LRS3数据集的样本结果,使用干净音频样本的不同扬声器

众所周知，语言充满了变化。不同的人会在不同的语境中说同一个词，其持续时间、幅度、语调等等都不同。除语言（言语）内容外，言语还包含丰富的信息，可以揭示说话人的情感状态、身份（性别、年龄、种族）和个性等。”据我们所知，从音频表示学习的角度来看，[我们的]是提高性能的第一种方法。

VAE架构，用于学习情感和内容感知的纠缠音频表示

他们提出的技术基础是学习隐式表示的可变自动编码器（vae）。VAE将输入的音频序列分解为不同的表示形式，用于编码内容、情感和其他变量。基于输入的音频，从分布中采样一系列的内容表示，这些内容表示与输入的面部图像一起输入到视频生成器中，以使面部具有动画效果。

研究人员获得了三组数据来训练和测试vae：

grid，一个包含来自34位演讲者的1000条记录的视听语料库；
crema-d，由91个不同民族演员的7442个片段组成；
LRS3，这是一个TED视频中超过100000个口语句子的数据库。他们进入网格和crema-d模型，教他们如何分解语音和情感表征，然后使用一对定量指标，峰值信噪比（psnr）和结构相似性指数（ssim）。

研究人员将grid和crema-d输入到模型中，教模型如何分解和表达语音片段，然后使用一对定量指标：峰值信噪比（psnr）和结构相似性指数（ssim）测量vae。