微软最新AI算法通过照片和音频产生逼真头像演讲视频

越来越多的研究表明,只要语料库足够大,几乎任何人的面部动作都可以与语音片段同步。今年6月,三星的应用科学家详细介绍了一种端到端的模型,该模型可以在一个人的头像中动画化眉毛、嘴巴、睫毛和脸颊。几周后,Udacity展示了一个系统,该系统可以从音频叙述中自动生成一个站立的语音视频。两年前,卡内基梅隆大学(carnegie mellon university)的研究人员发表了一篇论文,描述了一种将面部动作从一个人转移到另一个人的方法。

 

基于这项技术和其他技术,微软的研究团队本周提出了一项技术,他们声称这项技术可以提高音频驱动的音频通话动画的逼真度。以前的头部生成方法需要干净、相对无噪音、色调中性的音频,但研究人员表示,他们的方法(将音频序列分解为语音内容和背景噪声)可以概括为有噪和“情感丰富”的“数据样本”。

 

 

关于(a)GRID和(b)LRS3数据集的样本结果,使用干净音频样本的不同扬声器

 

众所周知,语言充满了变化。不同的人会在不同的语境中说同一个词,其持续时间、幅度、语调等等都不同。除语言(言语)内容外,言语还包含丰富的信息,可以揭示说话人的情感状态、身份(性别、年龄、种族)和个性等。”据我们所知,从音频表示学习的角度来看,[我们的]是提高性能的第一种方法。

 

VAE架构,用于学习情感和内容感知的纠缠音频表示

 

他们提出的技术基础是学习隐式表示的可变自动编码器(vae)。VAE将输入的音频序列分解为不同的表示形式,用于编码内容、情感和其他变量。基于输入的音频,从分布中采样一系列的内容表示,这些内容表示与输入的面部图像一起输入到视频生成器中,以使面部具有动画效果。

 

 

研究人员获得了三组数据来训练和测试vae:

  • grid,一个包含来自34位演讲者的1000条记录的视听语料库;

  • crema-d,由91个不同民族演员的7442个片段组成;

  • LRS3,这是一个TED视频中超过100000个口语句子的数据库。他们进入网格和crema-d模型,教他们如何分解语音和情感表征,然后使用一对定量指标,峰值信噪比(psnr)和结构相似性指数(ssim)。

 

 

研究人员将grid和crema-d输入到模型中,教模型如何分解和表达语音片段,然后使用一对定量指标:峰值信噪比(psnr)和结构相似性指数(ssim)测量vae。

 

 

与以前广泛使用的方法的比较,原始(干净)音频样本的指标

 

为了测试噪声处理方法的鲁棒性,我们创建了通过添加均匀分布的白噪声来产生噪声样本音频序列。 

 

我们通过调整所添加噪声的响度来试验不同的噪声水平原始音频。

  • 40dB的噪音水平意味着,所增加的噪音比扬声器的音量低40分贝原始音频。

  • 10dB表示高噪声(几乎听不见语音)

  • 30dB表示中度(高于平均水平背景噪声)

  • 60dB表示低噪声(几乎听不到的声音)。

表中显示了在不同噪声水平下采用不同方法的界标距离估计

 

不同语音变化的不同方法的视觉比较。 如果我们查看红色框中突出显示的框架,我们可以观察到噪声或情感的引入如何降低当前最新技术的性能/一致性,而这种变化的方法是健壮的。

 

绘制不同噪声水平的不同方法之间的界标距离比较的图

 

研究小组表示,就表现而言,他们的方法在所有指标上都与其他方法一致,中性话语水平也具有可比性。此外,他们指出,它可以在整个情绪范围内始终如一地表现出来,并与所有当前最先进的大脑生成方法兼容。

 

共同作者写道,我们对变体的先验优先排序可以扩展到其他语言因素,如身份和性别,这可以作为未来工作的一部分加以探讨。”我们通过测试噪音和情绪化的音频样本来验证该模型,并表明在存在此类音频变化的情况下,我们的方法明显优于当前的技术水平。”

 

相关数据集论文源码下载地址:关注“图像算法”微信公众号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值